让生命科学数据为数字时代服务
生命科学数据在复杂性和规模上都在不断增长,各机构产生的数据量越来越大。然而,这些数据仍在使用过时的方法进行存储和检索。结果就是,大量的非结构化数据被存储在各个孤立的位置。Pistoia Alliance的顾问弗拉基米尔・马卡罗夫(Vladimir Makarov)探讨了这一挑战以及应对之策。
这一挑战的一个例子体现在当前的生物测定方案处理方式上,生物测定方案提供了有关生物研究方法的信息。这些信息很难被找到、比较、分析或用于数据挖掘,需要投入大量时间以及专业知识。事实上,Pistoia Alliance就这一主题对科学家进行了多次访谈,发现他们每次测定要花费长达 12 周的时间来选择和规划新实验。
数据孤立这一挑战反映出生命科学领域在协作方面更大范围的失败,也体现了生命科学机构不愿充分利用数字化的情况。在很多方面,数字化已经改变了生命科学,但数据管理系统似乎仍是传统方法遗留的最后痕迹。
让数据遵循 FAIR 原则
任何新的生命科学信息存储和检索方法都必须确保数据符合 FAIR 原则,即具有可查找性、可获取性、互操作性和可重用性。为了促进更具协作性的方式,并确保各机构和个人都遵循相同标准,整个行业都应应用 FAIR 原则。如果数据符合 FAIR 原则,它们就能更容易被检索和共享,避免不必要的研究重复,或许更重要的是,能避免重复过去失败的实验。
再拿前面生物测定方案的例子来说,它体现了当前数据系统存在的更广泛问题。目前,生物测定数据并未以 FAIR 格式记录。测定方案虽然可以广泛获取,因为它们存储在公共数据库中,要么是以研究论文的形式,要么是以附在科研成果上的元数据形式存在,但两者都是纯文本格式。这意味着测定方案无法被机器读取,因此需要人工审核。当前许多测定方案的注释也缺乏推动研究向前发展所需的深度或质量。结果就是,科学家们要花费大量时间手动筛选海量的旧记录库,而不是开展新的研究或能够将人工智能和机器学习应用于数据集。
人工智能和机器学习:案例研究
FAIR 原则使数据能够被机器读取,从而缓解了这一挑战。有了这一改变,实施人工智能和机器学习就变得容易得多,这将通过节省时间和减少出错空间来改变数据搜索流程。实践中的一个例子是 DataFAIRy 项目,它展示了将 FAIR 原则与人工智能和机器学习相结合的方法所带来的优势。在 DataFAIRy 项目中,测定的非结构化元数据由一个自动化的自然语言处理引擎进行处理,然后由人类专家进行审核,以确保注释的质量。为了开发 DataFAIRy 方法,Pistoia Alliance首先对制药行业典型科学家的需求进行了广泛分析。然后,项目团队开发了一个基于本体的模型,该模型能够解答典型的数据挖掘问题。
或许采用 DataFAIRy 类型的数据管理方法所带来的最大优势在于其巨大的节省时间的潜力。随着新药研发成本不断上升,科学家们更高效地工作至关重要,要把更多时间花在分析上,尽可能少地花在前期研究上。
为何现在要做出改变?
随着各机构生成的数据集在数量和复杂性上不断增加,迫切需要新的搜索和存储方法来帮助从事研发工作的科学家,而不是拖他们的后腿。随着数字化的加速,我们应该借助新技术和标准来解决人工搜索方法带来的问题。
像 DataFAIRy 这样的项目鼓励科学家和各机构之间采取协作的方式,以便数据能够在团队和机构之间准确共享,从而减少因数据错误或重复已完成的实验而浪费的时间。随着Pistoia Alliance计划在项目的下一阶段将 DataFAIRy 的注释流程一次性扩展到数千个测定方案,这种方法 —— 以及其他类似方法 —— 有可能改变生命科学中生物测定方案以及其他重要数据的记录和搜索方式。
本文转载自 雪兽软件
更多精彩推荐请访问 雪兽软件官网