生物信息复习笔记(3)——GEO数据库
Platform:测序平台信息。不同测序平台对每一个基因编号不一样。拿到测序结果之后只是知道了某个基因ID的表达情况,需要将基因ID匹配成对应的基因,需要根据Platform信息去注释。
GSM:样本。一个测序数据集里有很多个GSM,点进去可以看到该样本的各种信息(样本来源,临床表征,各种处理样本方式,处理数据方式)。
GSE:包含所有信息的完整数据集。(最重要)
做生信样本量不能少:30以上。
精准搜索方式:GEO首页--Series--Search(Accession数据集编号,Title数据集解释)--点击物种Organism进行筛选--选好数据集后点击Accession进入(Experiment type实验方式,Platforms测序平台信息)--点击Samples查看样本信息(os是生存时间,os_event是否出现阳性结果,Value标准化后的数据,Data processing数据处理,可以找到标准化的方式)
在数据集页面底部有最关注的Series Matrix File(通过文件大小可判断文件里是否包含表达信息,临床信息,不包含这些信息的需要去Supplementary File下载)和Supplementary file(Non-normalization是为标准化有count数据,raw是无count数据)
Matrix文件:
exoerimentData:实验信息
**assayData:表达信息
**phenoData:临床信息
用R下载GEO数据:
setwd("C:/Users/Fengsj/Desktop/R")
library(R.utils)
library(GEOquery)
library(Biobase)
##用R在GEO下载数据,把下载的数据赋值到gset变量
gset <- getGEO('GSE65858', ##GSE数据集
destdir = '.', ##目标文件夹
AnnotGPL = F, ##是否使用Annotation GPL,注释基因的文件,很多数据集没有这个
getGPL = F ##是否一并下载GPL信息,用于注释基因
)
gset[[1]]
expr <- exprs(gset[[1]]) ##**assayData:表达信息 把表达信息赋值到expr,很多数据集没有表达数据,解决办法:在GEO网站的数据集页面底部下载Supplementary file里的raw文件,下载后再导入R语言进行后续分析
pd <- pData(gset[[1]]) ##**phenoData:临床信息 把临床信息赋值到pd