biopython解析mmcif文件得到组装体、链、序列、原子坐标、变换矩阵等信息
使用 Biopython 解析 .mmCIF
文件可以提取出蛋白质结构的相关信息,包括模型(model)、链(chain)、序列、原子坐标以及可能存在的变换矩阵。以下是一个完整的示例代码,展示如何使用 Biopython 的 MMCIFParser
解析 .mmCIF
文件,并提取这些信息。
示例代码
from Bio.PDB import MMCIFParser
from Bio.SeqUtils import seq1
import numpy as np
# 解析 mmCIF 文件
def parse_mmcif(file_path):
parser = MMCIFParser(QUIET=True)
structure = parser.get_structure('structure', file_path)
models_data = []
for model in structure:
model_data = {'model_id': model.id, 'chains': []}
for chain in model:
chain_data = {'chain_id': chain.id, 'residues': [], 'atoms': []}
for residue in chain:
if residue.id[0] == ' ': # 确保是标准残基
try:
# 提取序列信息,使用 seq1 函数将三字