GDSC、CTRP数据库学习
GDSC
- 写在前面
- 下载数据
- 疑问
- 1.GDSC、CTRP数据里有TCGA配套的数据?数据类型?
- CTRP原始数据如何处理
写在前面
开此贴做GDSC的数据分析记录
下载数据
GDSC官网:http://www.cancerrxgene.org/
由于在官网下载数据过于麻烦,于是我使用了另外的下载途径https://osf.io/c6tfx/(该网址为oncoPredict包的作者所收集处理的),其中V2版本为通用版本,而且在药物对应细胞系的敏感数据中,IC50为log转化的,需要另外变化。
CTRC数据库:下载参照教程https://mp.weixin.qq.com/s?__biz=Mzg3NDE3NTk4MA==&mid=2247485837&idx=1&sn=515e75861476242a5af3cb1fdeacc2ce&scene=6&key=faebc134c2294cbd2ebc6c9607e8eab16ecb524ad091a914a7d1684f59a191ac3426d303401fc8f67c9859de1d94491094447292a116f2f8354d20c17275b77213900552fd9f5226b3252805b2f61d63bac61b8d0ca0c9eaa1143036f9ad335710c584e272e4df23efa5c9b611b39fde361acb3b1b9454f38a16ee05e0f0b450&ascene=1&uin=MzEzODEzNzcxMA%3D%3D&devicetype=Windows+11+x64&version=6308011a&lang=zh_CN&exportkey=n_ChQIAhIQ2JIVd9r17wpODi6B6lVhwxLqAQIE97dBBAEAAAAAAATMOLOC%2FRIAAAAOpnltbLcz9gKNyK89dVj0fCCGJswEjYs1xTYvaQoDJzlZpPNnwwz2VNHSVvwSerKbxH13SidfmttRU9KrYJ24zRIkv5TjenhNTCfVRLycWqqTMmn8JRchyIkgJBhmmsdeg2hcwVDD92QQoDqdUTF6wlhpb47mt%2Bv288GyJrUgpnMAGN0IZs49eV4U01RZpxGwOKnWEgU8gvJnv8Pxcv6%2Frdl%2Fn33VACS2HwG45nQGUUZsXv2zH%2BAJiIqZIYqC6dSws1VRYkKloYQEnymMsWouhwTZkw%3D%3D&acctmode=0&pass_ticket=IbveLHgQ%2Bbad7MZECSFkg0w6cNrkoyGiGKhcolyBLbSUO3Tf4mSa84MSeqKHGEpa1JHVT1%2Ft1afXlkxlUkQ%2B1Q%3D%3D&wx_header=1&fontgear=2
疑问
1.GDSC、CTRP数据里有TCGA配套的数据?数据类型?
这边首先样本为1085,而如果是使用上述处理好的文件则为805个样本,大致少了280个样本。
这边指的配套数据可能是与判定后与TCGA癌型一样的数据,并不是配套数据?
上面这张图片能说明如何确定细胞系与肿瘤的对应关系,该图来自于S1E
而对于CTRP而言,其信息在于官网下载的细胞系meta文件中
CTRP原始数据如何处理
上图为ctrp原始数据,但里面信息比较难看懂,点开一个写着数据质控的,里面是这些信息,里面有expeiment_id 及master_cpd_id,其余看上起都是数值
experiment 在meta.per.experiment 有相关信息,而master_id在meta.per_compound文件里,但即便这样,这有的信息应该也只是化合物对应细胞系的表达谱,缺少基因对应细胞系的表达谱。还有个疑问是,基因与细胞系的表达谱,那么就相当于细胞系没有使用化合物处理过,那么此时将全部细胞系历经某化合物的药敏数据与某基因在全部细胞系的表达做相关,则说明的是某基因表达越高/低,其对该化合物的药敏性就越高/低。刚开始考虑,想基因数据要不要也是细胞系经过药物处理的某基因表达数据,这个时候数据就是三维的了,这个时候做相关应该是某药物敏感性越低,某基因表达越高越低。这个时候因果相当于有点反的,一般我们都希望未用药前知道结果,所以说未经处理的基因数据更好?