当前位置: 首页 > article >正文

生物信息复习笔记(3)——GEO数据库

Platform:测序平台信息。不同测序平台对每一个基因编号不一样。拿到测序结果之后只是知道了某个基因ID的表达情况,需要将基因ID匹配成对应的基因,需要根据Platform信息去注释。

GSM:样本。一个测序数据集里有很多个GSM,点进去可以看到该样本的各种信息(样本来源,临床表征,各种处理样本方式,处理数据方式)。

GSE:包含所有信息的完整数据集。(最重要)

做生信样本量不能少:30以上。

精准搜索方式:GEO首页--Series--Search(Accession数据集编号,Title数据集解释)--点击物种Organism进行筛选--选好数据集后点击Accession进入(Experiment type实验方式,Platforms测序平台信息)--点击Samples查看样本信息(os是生存时间,os_event是否出现阳性结果,Value标准化后的数据,Data processing数据处理,可以找到标准化的方式)

在数据集页面底部有最关注的Series Matrix File(通过文件大小可判断文件里是否包含表达信息,临床信息,不包含这些信息的需要去Supplementary File下载)和Supplementary file(Non-normalization是为标准化有count数据,raw是无count数据)

Matrix文件:

exoerimentData:实验信息

**assayData:表达信息

**phenoData:临床信息

用R下载GEO数据:

setwd("C:/Users/Fengsj/Desktop/R")
library(R.utils)
library(GEOquery)
library(Biobase)

##用R在GEO下载数据,把下载的数据赋值到gset变量
gset <- getGEO('GSE65858',       ##GSE数据集
               destdir = '.',    ##目标文件夹
               AnnotGPL = F,     ##是否使用Annotation GPL,注释基因的文件,很多数据集没有这个
               getGPL = F        ##是否一并下载GPL信息,用于注释基因
               )

gset[[1]]
expr <- exprs(gset[[1]])    ##**assayData:表达信息 把表达信息赋值到expr,很多数据集没有表达数据,解决办法:在GEO网站的数据集页面底部下载Supplementary file里的raw文件,下载后再导入R语言进行后续分析
pd <- pData(gset[[1]])      ##**phenoData:临床信息 把临床信息赋值到pd


http://www.kler.cn/a/596353.html

相关文章:

  • CPU架构和微架构
  • Redis 知识点梳理
  • 如何快速定位高 CPU 使用率的进程
  • git_version_control_proper_practice
  • Linux:基础IO---文件描述符
  • cmakelist中添加opencv
  • 【风信】邮件系统的介绍和使用。
  • Stable Diffusion lora训练(一)
  • 如何防御大模型中的 Prompt 攻击?
  • [蓝桥杯 2023 省 B] 子串简写
  • 深入理解 Spring 框架中的 IOC 容器
  • 六种开源智能体通信协议对比:MCP、ANP、Agora、agents.json、LMOS、AITP
  • 第十六届蓝桥杯模拟二
  • C++面试准备一(常考)
  • JVM垃圾回收笔记01
  • 冒排排序相关
  • 2025年03月10日人慧前端面试(外包滴滴)
  • vue实现图形验证码
  • 过滤器的执行顺序
  • Go语言常用框架及工具介绍