Molecular signatures database (MSigDB) 3.0
文献翻译和解读(解读在最后)
摘要
动机: 良好注释的基因集代表了生物学过程的全貌,对于大规模基因组数据的有意义和深入解读至关重要。分子特征数据库(MSigDB)是最广泛使用的此类基因集资源库之一。
结果: 我们报告了数据库的新版本——MSigDB 3.0的发布,包含超过6700个基因集,全面修订了经典通路集合和来自出版物的实验特征,增强了注释并对网站进行了升级。
可用性和实施: MSigDB可在以下网站免费下载,供非商业用途使用:GSEA | MSigDB
1. 引言
微阵列和其他高通量基因组技术通常产生大量潜在有趣的基因列表,这些列表并不总是容易解释的。鉴于协调表达的基因集合的重要性,我们的开创性论文(Mootha et al., 2003)首次引入了基因集合富集分析(GSEA),用于发现与人类2型糖尿病相关的代谢通路。GSEA和其他分析性富集工具通过优先排列的生物学特征列表来总结基因组数据。正如最近对68种富集工具的调查所强调的那样,它们严重依赖于“后端注释数据库”(Huang et al., 2009)。这些数据库通常聚焦于特定的知识领域或注释过程。例如,基因本体(GO)(Ashburner et al., 2000)代表了一种用于描述单个基因产物的受控术语层次结构,而TRANSFAC(Matys et al., 2006)存储关于转录因子结合位点的信息。越来越多的数据库从文献中报告的基因表达特征中获取集合,这些数据库包括SignatureDB(Shaffer et al., 2006)、GeneSigDB(Culhane et al., 2009)、CCancer(Dietmann et al., 2010)以及L2L和LOLA(Cahan et al., 2007)。
**分子特征数据库(MSigDB)**与这些资源有几个显著不同之处:(i)MSigDB显式设计用于为富集分析方法提供基因集,因此它与我们的GSEA软件(Subramanian et al., 2005)无缝集成。(ii)MSigDB涵盖了更广泛的基因集来源和类型,包括从原始研究出版物中提取的特征,以及从GO、KEGG(Kanehisa and Goto, 2000)、TRANSFAC和L2L等专门资源中衍生的完整集合。(iii)MSigDB的基因集既通过手动策划,也通过自动计算方法获取,而其他数据库则更侧重其中一种方法。(iv)最后,MSigDB包含了最多的基因集合。
最初发布的MSigDB数据库(2005年与GSEA软件一起发布)包含1325个基因集。相比之下,MSigDB 3.0版本(2010年9月发布)包含6769个基因集以及更丰富的注释。本文将更详细地描述MSigDB 3.0版本中的基因集和附带的在线资源。
2. 结果
基因集合: MSigDB 3.0中的基因集根据其来源分为五个集合:
- C1:位于同一染色体或细胞遗传带上的基因。
- C2:代表经典通路的基因集合(包括由Reactome贡献的430个新集合)(Matthews et al., 2009),以及来自786篇科学出版物的化学和遗传扰动对应的集合。
- C3:在其启动子(转录因子目标)或3' UTR(微RNA目标)序列中共享顺式调控基序的基因集合。
- C4:通过对大规模基因表达数据的计算分析定义的共同表达模块集。
- C5:与GO术语对应的基因集合。
表1展示了MSigDB自初次发布以来的集合和数据库的增长(参见在线发布说明)。
基因集注释: 每个MSigDB基因集是一个基因列表,包含相关的注释和指向外部资源的链接。MSigDB主要关注人类基因集合,然而,我们也包含一些模型生物的基因集合,基因集注释包括有机体的识别信息。我们使用HUGO基因符号,并且自版本3.0起,使用人类Entrez基因ID作为通用标识符。这些Entrez ID是唯一且稳定的,可以轻松映射到各种其他标识符,并且与GenBank的核酸和蛋白质序列资源原生集成。我们还保留了基因集来源中使用的任何原始标识符。所有集合都有唯一的数据库标识符和名称,并包括简短和详细的描述。其他注释依赖于基因集的类型。链接到外部资源的注释尤为重要,因为它们使研究人员能够将基因集置于特定研究的背景中,并促进后续实验的决策。
来自出版物的基因集合具有最丰富的注释。这些注释包括出版物的PubMed ID、来自同一出版物的其他基因集的指向,以及现在还包括提取基因集的具体表格或图形的详细信息。对于版本3.0,我们更新了这些基因集的名称,使其更加描述性且标准化,同时将附带的简要描述改为更统一和一致的格式。版本3.0还引入了其他注释功能,包括指向基因表达综合体(GEO)(Barrett et al., 2009)和ArrayExpress(Parkinson et al., 2009)中源数据集的链接。经典通路集合包括指向源网站上路径的链接。
文件格式: MSigDB基因集文件可以下载为纯文本和XML格式。纯文本文件包含简单的基因集成员列表,而XML文件还包括注释。为了确保GSEA结果的可重复性,旧版本的MSigDB文件始终可用。请注意,使用我们GSEA软件的用户无需下载MSigDB文件,因为该工具会直接自动检索基因集。
3. MSigDB在线资源
在版本3.0中,我们更新了MSigDB网站。该网站首次在2007年7月推出,允许用户查看注释过的基因集,并执行简单的搜索和分析任务。每个基因集及其所有注释都展示在一个单独的网页上(见图1)。嵌入的超链接将注释连接到相应的外部资源,包括PubMed、GEO和ArrayExpress、PubChem以及Entrez Gene。
MSigDB网站允许用户通过搜索注释中的关键字来查找基因集。在线分析工具使用户能够:(i)计算基因集之间的重叠;(ii)查看基因集在参考表达数据集中的热图;(iii)按基因家族对基因进行分类。基因家族提供了通过将基因集合中的成员分组到少数几个有意义的类别中,快速查看基因集的方式。我们更新了基因家族,现在它们包括:癌基因、抑癌基因、易位癌基因、转录因子、蛋白激酶、同源域蛋白、细胞分化标志物以及细胞因子/生长因子。
详细分析解读:
1. 基因集的概念
在基因组学中,基因集(Gene Set) 是一组具有某些共同特征的基因。这些基因通常参与同一生物学过程、信号通路或疾病过程。例如,某些基因可能在癌症细胞的增殖过程中共同发挥作用,或者它们可能被同一个转录因子调控。
这些基因集在生物学研究中非常有用,因为它们能够帮助研究人员理解基因之间的关系以及它们如何共同作用。例如,如果研究人员发现一组基因在某种疾病中被异常表达,可能表明这些基因与该疾病有关。
2. MSigDB数据库
MSigDB(Molecular Signatures Database)是一个包含大量基因集的数据库。它提供了从不同来源获得的基因集,包括:
- 经典通路(Canonical pathways),这些是已知的、经过验证的基因路径,例如与细胞周期、DNA修复等生物过程相关的通路。
- 实验签名(Experimental signatures),这些是通过实验获得的基因集,可能代表某些特定条件下基因的表达模式。例如,某些基因集可能表示细胞在特定药物处理下的反应。
- 转录因子目标(Transcription factor targets),这些基因集代表由特定转录因子调控的基因。
3. MSigDB 3.0版本的更新
在MSigDB的版本3.0中,数据库的内容和功能得到了显著改进:
- 基因集数量增加:MSigDB 3.0版本包含超过6700个基因集,远多于之前版本的基因集数量。
- 经典通路和实验签名的修订:更新了经典通路集合和来自文献的实验签名,使其更加全面和准确。
- 增强的注释:每个基因集都进行了详细的注释,提供了更多的背景信息。例如,基因集现在包括从特定出版物中的表格或图形中提取的信息。
- 网站升级:MSigDB的官方网站得到了升级,新增了搜索和分析工具,用户可以更容易地浏览和分析基因集。
4. MSigDB的使用
MSigDB数据库可以用于很多不同类型的生物学研究,特别是在基因表达分析中。例如,基因集富集分析(Gene Set Enrichment Analysis, GSEA) 是一种常用的分析方法,它通过检测一组基因是否在一个特定的生物学条件下被显著表达,来揭示潜在的生物学过程或路径。GSEA分析可以帮助研究人员发现隐藏在大规模基因表达数据中的生物学模式。
计算机背景的学生如何理解?
-
数据的结构与分析:你可以将基因集看作是一个有多个基因的列表,每个基因列表代表某个生物学过程或信号通路。这些基因集是通过手动注释和自动计算方法得到的,类似于构建一个数据集,通过不同的方式来分类数据。
-
数据库和文件格式:MSigDB提供了纯文本和XML格式的文件下载。文本文件中列出了基因的成员,而XML文件除了列出基因成员外,还包含注释信息。XML文件结构化的数据使得它更适合计算机处理和自动化分析。
-
Web界面和工具:MSigDB提供了一个在线网站,供研究人员浏览基因集和进行基本的分析。你可以通过网站提供的工具进行基因集间的重叠计算、热图显示、按基因家族分类等操作,这些功能对于数据挖掘和进一步的生物学分析非常有用。
5. 数据库的应用场景
- 基因表达分析:比如在癌症研究中,通过比较癌症细胞与正常细胞中的基因表达,研究人员可以利用MSigDB中的基因集发现哪些通路或生物学过程在癌症中被改变。
- 疾病机制研究:通过分析不同基因集在疾病中的表达变化,研究人员可以发现与疾病相关的潜在生物标志物。
- 药物靶点发现:药物的作用往往通过调控特定的基因集或通路来实现。通过分析药物处理后的基因表达变化,研究人员可以使用MSigDB中的通路信息来识别潜在的药物靶点。