当前位置：首页 > article >正文

Biopython PDB模块的PDBParser和MMCIFParser介绍

article 2025/2/24 5:33:44

Biopython 提供了 Bio.PDB 模块，用于解析、操作和分析 PDB 和 mmCIF 结构文件。核心的解析器包括：

PDBParser：解析 PDB（Protein Data Bank）格式的蛋白质结构文件。
MMCIFParser：解析 mmCIF（Macromolecular Crystallographic Information File）格式的蛋白质结构文件。

📌 1. `PDBParser` —— 解析 PDB 格式

🔹 作用

PDBParser 用于读取 PDB 格式的蛋白质结构文件，并将其转换为 Biopython 的 Structure 对象，方便进一步分析。

🔹 代码示例

from Bio.PDB import PDBParser

# 创建解析器
parser = PDBParser(QUIET=True)  # QUIET=True 关闭警告信息

# 解析 PDB 文件（假设 PDB 文件为 "example.pdb"）
structure = parser.get_structure("example_protein", "example.pdb")

# 打印解析的结构信息
for model in structure:
    print("Model:", model.id)
    for chain in model:
        print("  Chain:", chain.id)
        for residue in chain:
            print("    Residue:", residue.resname, residue.id)

🔹 解析后数据结构

PDBParser 会生成一个 Structure（结构）对象，其中层级结构如下：

Structure (最高层) → Model（模型）→ Chain（链）→ Residue（残基）→ Atom（原子）

Structure：代表整个蛋白质结构（可以包含多个模型）。
Model：NMR 结构可能有多个模型（X-ray 结构通常只有一个）。
Chain：代表蛋白质的不同链（A、B、C...）。
Residue：氨基酸或配体（如 "ALA", "GLY"）。
Atom：单个原子（如 "N", "CA", "CB"）。

🔹 访问特定信息

# 获取第一条链的所有残基
chain_A = structure[0]['A']  # 选择第一个模型的 A 链

# 遍历 A 链的所有残基
for residue in chain_A:
    print(residue.resname, residue.id)  # 残基名称和 ID

# 获取某个原子的坐标
ca_atom = chain_A[100]["CA"]  # 选择第 100 个残基的 α-碳原子
print(ca_atom.coord)  # 输出坐标 (x, y, z)

📌 2. `MMCIFParser` —— 解析 mmCIF 格式

🔹 作用

MMCIFParser 解析 mmCIF 格式，它是 PDB 格式的增强版本，支持更大蛋白质复合物（如超过 62 条链）。
适用于 大规模结构数据（如 Cryo-EM 解析的蛋白质）。

🔹 代码示例

from Bio.PDB import MMCIFParser

# 创建解析器
parser = MMCIFParser(QUIET=True)

# 解析 mmCIF 文件（假设文件名为 "example.cif"）
structure = parser.get_structure("example_protein", "example.cif")

# 打印结构信息
for model in structure:
    print("Model:", model.id)
    for chain in model:
        print("  Chain:", chain.id)
        for residue in chain:
            print("    Residue:", residue.resname, residue.id)

🔹 解析后的数据结构

与 PDBParser 相同，MMCIFParser 也会解析为 Structure → Model → Chain → Residue → Atom 层级。

🔹 访问 mmCIF 额外信息

mmCIF 提供更多元数据，如实验方法、分辨率等，可以通过 structure.header 访问：

print(structure.header)  # 输出 mmCIF 文件头部信息

📌 3. `PDBParser` vs `MMCIFParser` 对比

解析器	适用格式	支持链数	文件大小	额外信息
`PDBParser`	PDB (.pdb)	最多 62 条链	小	少
`MMCIFParser`	mmCIF (.cif)	无限制	大	包含实验数据等详细信息

🔹 选择指南

如果蛋白质结构较小（≤62 条链） → 用 PDBParser。
如果蛋白质较大（>62 条链）或包含额外信息 → 用 MMCIFParser。

📌 4. 总结

PDBParser 解析 PDB 格式，适用于一般蛋白质结构。
MMCIFParser 解析 mmCIF 格式，适用于大蛋白复合物。
解析后都是 Structure 对象，可访问模型、链、残基、原子等信息。
mmCIF 提供更详细的实验信息，但文件更大、结构更复杂。

✅ 如果处理的是 AlphaFold 预测的 PDB 文件，PDBParser 更合适。
✅ 如果是 Cryo-EM 解析的大型蛋白质，建议用 MMCIFParser。

查看全文

http://www.kler.cn/a/547679.html

如何使用CSS画一个三角形，原理是什么？

DeepSeek操作Excel，实现图表自动化生成

LLaMA-Factory DeepSeek-R1 模型微调基础教程

【ISO 14229-1:2023 UDS诊断全量测试用例清单系列：第十二节】

PLC跨平台通信困难？DeepSeek边缘计算网关实现数据无缝连接！

【PSIM】RS触发器的使用

08模拟法 + 技巧 + 数学 + 缓存（D2_技巧）

【自学笔记】深度学习基础知识点总览-持续更新

《Spring实战》(第6版)第2章开发Web应用

基于STM32的智能鱼塘养殖监控系统

【动态路由】系统Web URL资源整合系列（后端技术实现）【nodejs实现】

免费deepseek的API获取教程及将API接入word或WPS中

安装 Docker Desktop 修改默认安装目录到指定目录

DeepSeek 助力 Vue 开发：打造丝滑的卡片（Card）

性能测试流程、主流性能工具

Dockerfiles 的 Top 10 常见 DevOps/SRE 面试问题及答案

AI赋能电商：创新应用与未来展望

Hutool - Cache：简单而强大的缓存实现

华为最新OD机试真题-最长子字符串的长度（一）-Python-OD统一考试（E卷）

【广州大学主办，发表有保障 | IEEE出版，稳定EI检索，往届见刊后快至1个月检索】第二届电气技术与自动化工程国际学术会议 (ETAE 2025)

📌 1. PDBParser —— 解析 PDB 格式

🔹 作用

🔹 代码示例

🔹 解析后数据结构

🔹 访问特定信息

📌 2. MMCIFParser —— 解析 mmCIF 格式

🔹 作用

🔹 代码示例

🔹 解析后的数据结构

🔹 访问 mmCIF 额外信息

📌 3. PDBParser vs MMCIFParser 对比

🔹 选择指南

📌 4. 总结

相关文章：

📌 1. `PDBParser` —— 解析 PDB 格式

📌 2. `MMCIFParser` —— 解析 mmCIF 格式

📌 3. `PDBParser` vs `MMCIFParser` 对比