【Colab代码调试】End-to-end reproducible AI pipelines in radiology using the cloud
文章目录
- 报错MessageError: Error: credential propagation was unsuccessful
- 解决办法
- 原理
- 找不到GPU
- 解决办法
- 关于文件结构
- RTSTRUCT是什么
- nrrd是什么格式
- !gcloud config set project $GCP_PROJECT_ID
- 报错Access Denied: User does not have bigquery.jobs.create permission
- 解决办法
- BigQuery访问公开数据集的原理
- 数据集展示
- Use SimpleITK to inspect the resampled volumes
第一在Colab上运行代码: https://colab.research.google.com/github/ImagingDataCommons/idc-radiomics-reproducibility/blob/main/notebooks/hosny_processing_example.ipynb#scrollTo=1ZXwYFoEuRM6
报错MessageError: Error: credential propagation was unsuccessful
解决办法
from google.colab import auth
auth.authenticate_user()
报错:MessageError: Error: credential propagation was unsuccessful
解决办法:将google Colaboratory Runtimes可以访问的权限都勾选上,再运行就不会报错了
参考链接:https://github.com/googlecolab/colabtools/issues/4343
翻译:我在尝试只允许我认为可能需要的权限时遇到了同样的问题。一旦我点击了启用全部选项,它就起作用了。
原理
from google.colab import auth
auth.authenticate_user()
这段代码是用于在 Google Colaboratory(Colab)环境中进行用户身份验证的。Colab 是一个免费的 Jupyter 笔记本环境,由 Google 提供,允许用户编写和执行代码,同时利用 Google Cloud Platform 的计算资源。
from google.colab import auth
:这行代码从 Colab 的库中导入了 auth 模块。auth 模块包含了用于处理身份验证和授权的功能。
auth.authenticate_user()
:这行代码调用 auth 模块中的 authenticate_user() 函数。这个函数会启动一个身份验证流程,通常是通过弹出一个窗口来提示用户登录其 Google 账户。用户需要在这个弹出的窗口中输入他们的 Google 账户凭据。
当用户成功登录后,Colab 笔记本将获得授权,可以访问那些需要用户权限的 Google 服务,比如 Google Drive。这样,用户就可以直接从 Colab 笔记本中读写 Google Drive 上的文件。
在执行需要访问用户个人数据或服务的代码之前,通常需要先执行这段身份验证代码。例如,如果你的 Colab 笔记本需要从用户的 Google Drive 中读取数据文件,或者需要将结果保存到用户的 Drive 上,那么在进行这些操作之前,你需要确保已经通过 auth.authenticate_user() 进行了身份验证。
找不到GPU
# check wether the use of a GPU was correctly enabled
gpu_list = !nvidia-smi --list-gpus
has_gpu = False if "not found" in gpu_list[0] else True
print(has_gpu)返回false
解决办法
没有配置硬件加速器为GPU当然找不到GPU啦~
关于文件结构
- the download folder will store the .dcm files cross-loaded from the buckets, without a defined structure.
- The sorted folder, on the contrary, stores the output of the sorting process through dicomsort (details on dicomsort follow later in the notebook).
- The processed folder stores the result of the different processing and pre-processing steps, such as conversion from DICOM to NRRD and resampling
- the model_input and cropped_masks folder store, respectively, the subvolumes the pipeline uses for predicting survival and the corresponding segmentation mask (exported mainly for visualization purposes)
RTSTRUCT是什么
RTSTRUCT:在医学影像领域,RTSTRUCT 是一种特殊的 DICOM (Digital Imaging and Communications in Medicine) 文件格式,用于存储放射治疗的结构集信息。
RTSTRUC一般包含:
- 轮廓数据:医生或放射治疗师在影像上绘制的轮廓,用于定义肿瘤(GTV - 肿瘤体积)、临床目标体积(CTV - 临床目标体积)、计划目标体积(PTV - 计划目标体积)以及需要保护的正常组织和器官。
- 剂量体积直方图:与结构集相关的剂量分布信息,用于评估治疗计划的质量。
- 其他放射治疗相关信息:可能包括治疗计划的详细信息,如射束方向、能量、剂量等。
RTSTRUCT 文件使得放射治疗团队能够可视化和量化治疗区域,确保治疗的精确性,同时最大限度地减少对周围正常组织的损伤。这些文件通常与 RTDOSE(用于存储剂量分布的 DICOM 文件)一起使用,以实现放射治疗计划的优化。
nrrd是什么格式
NRRD(Nearly Raw Raster Data)是一种用于存储三维或多维影像数据的文件格式,它被广泛用于医学成像和科学可视化领域。NRRD格式由美国芝加哥大学(The University of Chicago)开发,特别适用于存储体数据(volume data),例如医学成像中的CT(计算机断层扫描)或MRI(磁共振成像)数据。
医学影像文件格式 | Value |
---|---|
NIfTI (.nii) | 神经影像学研究,功能磁共振成像(fMRI)、结构磁共振成像(sMRI)和正电子发射断层扫描(PET)。包含一个头文件(.nii)和一个数据文件(.img),头文件描述了数据的元数据,而数据文件包含了实际的图像数据。 |
NRRD (.nrrd) | 适用于各种类型的三维或多维图像数据,NRRD 文件包含一个文本头文件,描述了数据的维度、数据类型和元数据,后跟实际的图像数据。 |
DICOM (.dcm) | 医学影像的国际标准,广泛用于临床环境,包括放射科、核医学和心脏病学等,DICOM 文件包含图像数据和大量的元数据,如患者信息、扫描参数、设备信息等。 |
总结:
- NIfTI 主要用于神经影像学研究,NRRD 更通用,适用于各种医学影像数据,而 DICOM 用于临床环境和医院信息系统。
- NIfTI 和 NRRD 都支持多维数据,但 NRRD 更加灵活,可以处理任意维度的数据。DICOM 文件则包含更详细的临床和设备信息。
- NIfTI 和 NRRD 支持数据压缩,有助于减少文件大小,而 DICOM 文件通常不压缩,以确保图像质量。
- DICOM 文件包含最详细的元数据,包括患者信息和扫描参数,而 NIfTI 和 NRRD 则侧重于图像数据和相关的技术参数。
!gcloud config set project $GCP_PROJECT_ID
是将当前 Colab 会话的默认项目设置为你的 Google Cloud Platform 项目。这样,当你运行其他 gcloud 命令时,它们将与你指定的项目相关联。这在处理与特定项目相关的资源(如存储桶、数据集等)时非常有用。
WARNING: [verse.armour@gmail.com] does not have permission to access projects instance [idc-sandbox-000] (or it may not exist): The caller does not have permission. This command is authenticated as verse.armour@gmail.com which is the active account specified by the [core/account] property Are you sure you wish to set property [core/project] to idc-sandbox-000?
Do you want to continue (Y/n)? Y
Updated property [core/project].
报错Access Denied: User does not have bigquery.jobs.create permission
具体报错信息:
ERROR:403 POST https://bigquery.googleapis.com/bigquery/v2/projects/idc-sandbox-000/jobs?prettyPrint=false: Access Denied: Project idc-sandbox-000: User does not have bigquery.jobs.create permission in project idc-sandbox-000.
Location: None
Job ID: 9f15e4e0-2358-4e3b-bcee-c34ea7a0666e
# initialize this variable with your Google Cloud Project ID!
my_ProjectID = "idc-sandbox-000"
import os
os.environ["GCP_PROJECT_ID"] = my_ProjectID
!gcloud config set project $GCP_PROJECT_ID
解决办法
出现这个问题主要是因为我自己没有很清楚BigQuery的工作原理。
只需要在google cloud上面创建一个名为my_ProjectID的项目即可。
一开始google cloud上面没有这个项目,自然就没有访问权限了。创建一个即可。
tips:项目名称和项目ID不是一个东西。
代码里面应该改成项目ID。
在 Google Cloud Platform (GCP)中,当你创建一个项目时,你会给它指定一个项目名称,但系统还会自动生成一个唯一的项目ID。项目ID是用于程序化操作的标识符,它在整个Google Cloud 中必须是唯一的。项目名称可以更改,但项目ID一旦创建就不能更改。
# initialize this variable with your Google Cloud Project ID!
my_ProjectID = "idc-sandbox-000-435408"
import os
os.environ["GCP_PROJECT_ID"] = my_ProjectID
!gcloud config set project $GCP_PROJECT_ID
From the cohort DataFrame we parsed, we can get additional information on PatientID, SeriesInstanceUID, and so on. For example:
patients_list = np.unique(cohort_df["PatientID"].values).tolist()
print(patients_list[:5])
BigQuery访问公开数据集的原理
Google BigQuery 是 Google Cloud Platform (GCP) 上的一项服务,它专门用于数据仓库和分析。而一个 Google Cloud 项目(Project)是 GCP 的基本构建块,用于组织资源、启用服务和控制权限。
在某些开发环境(如 Google Colab 或本地开发环境)中,你可能需要设置一个默认项目,这样当你执行 BigQuery 操作时,系统知道应该在哪个项目上下文中执行。
!gcloud config set project $GCP_PROJECT_ID
数据集展示
display(subcohort_df.info())
display(subcohort_df.head())
- Patient ID:患者的唯一标识符或医疗记录号
- StudyInstanceUID:代表一个医学影像研究的唯一标识符,通常在DICOM(数字成像和通信医学)标准中使用。
- SeriesInstanceUID:代表医学影像系列的唯一标识符,一个研究可能包含多个系列。
- SOPInstanceUID:代表单一医学影像对象(如CT或MRI图像)的唯一标识符。
- gcs_url:代表Google Cloud Storage(GCS)中的URL,这通常是指向存储在GCS上的医学影像文件的链接。
Use SimpleITK to inspect the resampled volumes