通过激酶找到ChEMBL数据库数据的步骤与代码实现
通过激酶找到ChEMBL数据库数据的步骤与代码实现
1. 引言
激酶是药物开发的重要靶点,为提高药物发现效率,研究人员可以使用ChEMBL数据库获取相关化合物的活性信息,包括SMILES、IC50、pIC50等指标。本文介绍如何从激酶到ChEMBL数据库的数据获取流程,并提供Python代码,实现ChEMBL ID、SMILES结构、IC50及其他活性数据的查询与提取。
2. 方法与流程
2.1 流程概述
-
激酶名称或UniProt ID 映射到ChEMBL数据库
- 使用 UniProt ID 找到对应的ChEMBL激酶靶点ID。
- 查询该靶点下的所有化合物及其活性数据。
-
获取活性数据
- 提取化合物的 ChEMBL ID、SMILES、IC50、pIC50 等信息。
- 结果保存为CSV文件,便于后续分析。
3. Python代码实现
import pandas as pd
import requests
# Step 1: 设置ChEMBL API URL
base_url = "https://www.ebi.ac.uk/chembl/api/data"
# Step 2: 输入激酶的UniProt ID(例如EGFR: P00533)
uniprot_id = "P00533" # 这里使用EGFR作为示例
# Step 3: 通过UniProt ID 获取ChEMBL靶点ID
def get_chembl_target_id(uniprot_id):
url = f"{
base_url}/target?target_components.accession={
uniprot_id}