当前位置: 首页 > article >正文

玉米中的元基因调控网络突出了功能上相关的调控相互作用。/biosample_parser.py

总结:

  1. 导入模块和命令行参数设置

    • 使用 argparse 处理命令行输入,获取输入文件路径。
    • 导入必要的模块,如 BeautifulSoup 用于解析XML。
  2. 打开文件并解析XML

    • 读取输入的XML文件,并用 BeautifulSoup 解析为可操作的结构。
  3. 遍历 XML 数据并提取信息

    • 遍历 XML 文件中的每个 BioSample 元素,提取其中的 accessiontitletissuegenotype 等信息。
    • 输出格式为表格形式,其中各字段通过制表符分隔。

脚本的整体功能:

这个脚本的主要功能是从一个包含生物样本信息的XML文件中提取每个生物样本的相关数据,并将这些信息输出为表格格式。具体包括:

  • 生物样本ID(accession)
  • 标题(title)
  • 组织类型(tissue)
  • 基因型(genotype)

通过命令行传递一个XML文件路径,脚本会解析该文件并打印出提取的信息。

第一部分:导入模块和设置命令行参数

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import os
import sys
import os.path as op
from bs4 import BeautifulSoup

if __name__ == '__main__':
    import argparse
    parser = argparse.ArgumentParser(
            formatter_class = argparse.ArgumentDefaultsHelpFormatter,
            description = 'fasta utilities'
    )
    parser.add_argument('fi', help = 'input biosample xml')
    args = parser.parse_args()

解析

  1. #!/usr/bin/env python
    这行是Shebang,用于指定脚本的解释器。在Unix-like系统中,这行代码告诉操作系统使用 python 来运行脚本。

  2. # -*- coding: utf-8 -*-
    这是声明文件编码为UTF-8,确保脚本能够正确处理非ASCII字符,如中文或其他特殊字符。

  3. import osimport sysimport os.path as op
    这些是标准的Python模块,用于文件和系统操作:

    • os:用于操作文件和目录。
    • sys:提供对Python解释器和操作系统的访问。
    • os.path:用于路径操作,提供对文件路径的处理功能。
  4. from bs4 import BeautifulSoup
    bs4(BeautifulSoup库)导入 BeautifulSoup 类。BeautifulSoup 是一个Python库,用于从HTML或XML文件中提取数据,解析XML结构,常用于网页抓取和数据提取。

  5. if __name__ == '__main__':
    这一行确保当脚本直接运行时,if 语句下的代码会执行。如果该脚本被作为模块导入到其他Python脚本中,这部分代码则不会执行。

  6. import argparse
    argparse 是一个Python模块,用于解析命令行参数。脚本通过 argparse 处理传入的参数,允许用户在命令行中指定输入文件路径。

  7. parser = argparse.ArgumentParser(...)
    创建一个 ArgumentParser 对象,用于处理命令行参数。

    • formatter_class = argparse.ArgumentDefaultsHelpFormatter:设置帮助信息的格式,使得默认值也能显示在帮助文档中。
    • description = 'fasta utilities':设置脚本的描述,用于显示在帮助信息中。
  8. parser.add_argument('fi', help = 'input biosample xml')
    add_argument() 方法定义了命令行参数。这里的 fi 是一个必需的参数,表示输入文件,用户必须提供一个XML文件作为输入,文件路径将被传递给程序。

  9. args = parser.parse_args()
    parse_args() 解析命令行参数,并将其存储在 args 对象中。用户输入的参数将保存在 args 对象的属性中。

总结:

这一部分的代码实现了:

  • 导入所需的模块。
  • 设置命令行参数,使得脚本能够从命令行接收输入的XML文件路径。

这部分的目的是准备输入并设置命令行参数,确保后续代码能够读取指定的XML文件。

很好!接下来是第二部分:打开输入文件并解析XML内容

第二部分:打开输入文件并解析XML内容

fhi = open(args.fi, 'r')
soup = BeautifulSoup(fhi, 'xml')
print("BioSample\tTitle\ttissue\tgenotype")

解析

  1. fhi = open(args.fi, 'r')

    • args.fi 是通过命令行参数传递的输入文件路径。open() 函数以只读模式('r')打开该文件,并将文件对象赋值给 fhi 变量。
    • args.fi 对应的是命令行输入的文件路径,应该是一个XML文件(例如,包含生物样本信息的XML文件)。
  2. soup = BeautifulSoup(fhi, 'xml')

    • 使用 BeautifulSoup 解析打开的XML文件。'xml' 参数告诉 BeautifulSoup 解析XML格式,而不是HTML格式。
    • soup 现在是一个 BeautifulSoup 对象,它表示整个XML文档,可以通过它进行进一步的数据提取操作。
  3. print("BioSample\tTitle\ttissue\tgenotype")

    • 打印表头信息。这个表头将用于输出每个生物样本的相关信息,包括:BioSample(生物样本ID)、Title(标题)、tissue(组织类型)和 genotype(基因型)。
    • 每个字段之间用制表符(\t)分隔,确保输出符合表格格式,便于后续的处理或查看。

总结:

这一部分代码完成了:

  • 打开用户指定的XML文件。
  • 使用BeautifulSoup解析XML内容,生成 soup 对象。
  • 打印表头,为后续的数据输出做准备。

这一部分的核心功能是读取和解析XML文件,以便后续提取数据。

很好!接下来是第三部分:遍历 XML 数据并提取信息

第三部分:遍历 XML 数据并提取信息

for bs in soup.BioSampleSet.children:
    if len(bs) == 1: continue
    bsid = bs['accession']
    title = bs.Description.Title.string.strip("\"")
    tissue = ''
    genotype = ''
    if bs.Attributes:
        for x in bs.Attributes.children:
            if x.string.strip() == '': continue
            if x['attribute_name'] == 'tissue':
                tissue = x.string.strip()
            elif x['attribute_name'] == 'genotype':
                genotype = x.string.strip()
    print("\t".join([bsid, title, tissue, genotype]))

解析

  1. for bs in soup.BioSampleSet.children:

    • 这行代码遍历 soupBioSampleSet 元素的所有子元素。soup.BioSampleSet 返回XML中名为 BioSampleSet 的标签下的所有内容。
    • .children 属性返回一个可迭代的对象,包含了 BioSampleSet 标签下的所有子元素(可能是 <BioSample> 标签)。
  2. if len(bs) == 1: continue

    • 这一行检查当前元素(bs)是否只有一个子元素。如果是,则跳过当前循环,继续处理下一个元素。此判断通常用于过滤掉没有有效数据的元素(例如,空的或格式不正确的元素)。
  3. bsid = bs['accession']

    • 获取当前 BioSample 元素的 accession 属性值,并将其赋值给变量 bsid。这个值通常是生物样本的唯一标识符。
  4. title = bs.Description.Title.string.strip("\"")

    • 提取当前 BioSample 元素中的 Description -> Title 字段的字符串值,并移除两边的引号(如果有的话)。这通常是该生物样本的描述或标题。
  5. tissue = ''genotype = ''

    • 初始化 tissuegenotype 为空字符串,稍后会从 Attributes 中获取具体值。
  6. if bs.Attributes:

    • 检查当前 BioSample 是否有 Attributes 元素。如果存在,则继续从中提取 tissuegenotype 信息。
  7. for x in bs.Attributes.children:

    • 遍历 Attributes 元素的所有子元素。每个子元素代表一个属性,例如 tissuegenotype
  8. if x.string.strip() == '': continue

    • 跳过空字符串。此步骤用于确保只处理非空的属性值。
  9. if x['attribute_name'] == 'tissue': tissue = x.string.strip()

    • 如果当前属性的名称是 tissue,则将其值提取出来并赋给变量 tissue
  10. elif x['attribute_name'] == 'genotype': genotype = x.string.strip()

    • 如果当前属性的名称是 genotype,则将其值提取出来并赋给变量 genotype
  11. print("\t".join([bsid, title, tissue, genotype]))

    • 输出每个生物样本的信息。bsidtitletissuegenotype 通过制表符(\t)连接,确保每个字段在输出时对齐,形成表格格式。

总结:

这一部分的代码完成了:

  • 遍历每个生物样本,提取其 accessiontitletissuegenotype 信息。
  • 对每个生物样本的属性进行过滤和提取,只处理有效的、非空的 tissuegenotype 信息。
  • 最终,输出所有生物样本的相关信息,以制表符分隔的格式进行打印。

这部分代码的核心是从解析后的XML数据中提取关键字段,并将其以表格格式输出。

你理解这一部分了吗?如果清楚,我们可以继续讨论其他部分。


http://www.kler.cn/a/458034.html

相关文章:

  • 嵌入式入门Day35
  • 【C++】: std::tie 用法详解
  • Ceph 手动部署(CentOS9)
  • 记录一个我在idea启动时的报错
  • es单机安装脚本自动化
  • 智能工厂的设计软件 应用场景的一个例子:为AI聊天工具添加一个知识系统 之11 方案再探 项目文件(修改稿1)
  • 秒鲨后端之MyBatis【2】默认的类型别名、MyBatis的增删改查、idea中设置文件的配置模板、MyBatis获取参数值的两种方式、特殊SQL的执行
  • py打包工具
  • Python + 深度学习从 0 到 1(02 / 99)
  • 基于深度学习(HyperLPR3框架)的中文车牌识别系统-Qt调用Python
  • 在vue3中使用tsx结合render封装一个项目内通用的弹窗组件
  • Docker的概述与安装
  • 算法基础一:冒泡排序
  • React引入Echart水球图
  • systemverilog语法:assertion sequence
  • node-js Express防盗链
  • Spring Boot 多数据源解决方案:dynamic-datasource-spring-boot-starter 的奥秘(下)
  • 1.flask介绍、入门、基本用法
  • Python-网络爬虫
  • Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin(自测问题解决!)
  • 【每日学点鸿蒙知识】页面反向传值、图片撑满问题、清除Web缓存、Refresh支持swiper、POP颜色没效果
  • 验证ETL程序产生数据的正确性以及确保数据质量的方法
  • 【畅购商城】详情页详情之商品详情
  • Windows下C++使用SQLite
  • 手机联系人 查询 添加操作
  • 【VulnOSv2靶场渗透】