NeurIPS - Ariel Data Challenge 2024
1比赛概述
Ariel数据挑战2024 邀请参赛者开发机器学习模型,解决天文学领域中的一项重大挑战——从即将到来的欧洲航天局(ESA)Ariel任务的模拟观测中提取微弱的系外行星信号。Ariel任务计划于2029年启动,旨在对银河系邻近的约1,000颗系外行星进行首次全面研究,这将为我们提供前所未有的关于这些遥远世界的详细信息。
2背景
- 系外行星发现:自1995年首次发现系外行星以来,这一领域的研究已经取得了巨大进展。目前,科学家们已经确认了超过5,600颗系外行星,这些发现不仅扩展了我们对宇宙的认识,还挑战了地球在宇宙中的独特性以及生命可能存在的其他地点。检测这些行星只是第一步,更关键的是理解它们的性质,特别是通过研究其大气层来揭示更多细节。
- 技术难题:观察系外行星的大气层是当代天文学中最复杂的数据分析问题之一。当系外行星在其主星前方经过时,一小部分星光会穿过行星大气并与之相互作用。这些微弱的信号通常只有50到200个百万分之一(ppm),并且经常受到仪器噪声的干扰。主要的噪声源之一是“抖动噪声”,这是由于航天器在太空中难以保持精确指向而产生的振动。这种振动类似于在拍摄长时间曝光照片时手部的抖动,会对数据质量产生严重影响。特别是对于类似地球和超级地球的小型行星,这种噪声的影响尤为显著,因为它们的信号强度通常只有50ppm左右。
3任务目标
- 提取大气光谱:参赛者的任务是从每个观测中提取大气光谱,并估计其不确定性水平。这一步骤对于后续的科学分析至关重要,因为只有在去除噪声和系统误差后,才能准确地解读光谱信息。
- 去趋势处理:为了获得大气光谱,参赛者需要对数小时连续拍摄的2D光谱焦平面图像进行去趋势处理。具体来说,需要处理一系列时间序列图像,这些图像记录了系外行星在其主星前方经过时的变化。通过去趋势处理,可以消除由抖动噪声和其他因素引起的背景波动,从而提取出纯净的行星信号。
4可能的方法
- 方法1:直接在完整的3D数据立方体上训练模型并提取相应的光谱。这种方法利用了丰富的信息内容,但需要大量的计算资源。3D数据立方体包含了时间、空间和光谱三个维度的信息,因此能够提供更全面的上下文。然而,这也意味着模型需要处理大量的数据,对计算能力提出了更高的要求。
- 方法2:通过沿像素y轴求和每个波长的通量,将数据压缩为2D图像(维度为(N_times, N_wavelengths)),并转换图像以增强不同波长之间的过境深度变化。这种方法可以减少数据的维度,降低计算复杂度,但可能会损失一些空间信息。尽管如此,对于某些特定的任务,这种方法仍然非常有效。(外面比赛方案实际采用)
5评估指标
- 高斯对数似然(GLL)函数:用于评估预测光谱(μ_user)及其不确定性(σ_user)与地面真实光谱(y)之间的差异。GLL函数的公式如下:
- 其中,𝑦y 是地面真实光谱,𝜇userμuser 是预测光谱,𝜎userσuser 是预测的不确定性。
- 评分公式:最终得分范围在[0, 1]之间,分数越高表示模型性能越好。具体的评分公式为:
- 其中,L 是所有波长和所有测试样本的GLL值之和,Lideal 是理想情况下的GLL值(即提交结果完全匹配地面真实值,且不确定性为0.0001),Lref 是使用训练数据集的均值和方差作为预测的GLL值。
- 数据集描述
- 数据来源:基于ARIEL任务的模拟数据,包含大约800颗系外行星的隐藏测试集。这些数据模拟了ARIEL任务中实际观测到的光谱信息,但由于是模拟数据,可以提供详细的地面真实标签,便于评估模型性能。
- 元数据文件:
- [train/test]_adc_info.csv:包含恢复数据原始动态范围所需的模数转换参数(增益和偏移)以及恒星信息。这些参数对于正确处理和解释原始数据至关重要。
- train_labels.csv:地面真实光谱,提供了每个训练样本的正确答案。
- axis_info.parquet:两台仪器的轴信息,包括时间和波长的详细描述。
- wavelength.csv:数据集中每个地面真实光谱的波长网格,用于确定每个波长点的位置。
信号文件
仪器:
-
- FGS1:可见光谱段(0.60至0.80 µm),主要用于高精度光度测量。FGS1的观测数据可以帮助研究人员了解恒星的亮度变化,从而更好地分离行星信号。
- AIRS-CH0:红外光谱仪(1.95至3.90 µm),分辨率为R=100。AIRS-CH0的观测数据可以提供关于行星大气成分的详细信息,特别是在红外波段,这些信息对于研究大气化学和物理特性非常重要。
数据格式:
-
- AIRS-CH0_signal.parquet:包含11,250行图像,每张32 x 356的图像被展平为11392列。这些图像记录了系外行星在其主星前方经过时的光谱变化。要恢复图像的原始格式,可以使用
numpy.reshape(11250, 32, 356)
进行重塑。此外,还需要根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。 - FGS1_signal.parquet:包含135,000行图像,每张32 x 32的图像被展平为1024列。这些图像记录了恒星的亮度变化,时间步长为0.1秒。同样,要恢复图像的原始格式,可以使用
numpy.reshape(135000, 32, 32)
进行重塑,并根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。
- AIRS-CH0_signal.parquet:包含11,250行图像,每张32 x 356的图像被展平为11392列。这些图像记录了系外行星在其主星前方经过时的光谱变化。要恢复图像的原始格式,可以使用
校准文件
- dark.parquet:暗帧,用于捕捉传感器的热噪声和偏置水平。这些帧是在关闭快门的情况下拍摄的,可以用来校正科学图像中的暗电流噪声。
- dead.parquet:识别传感器上的死像素或热像素。这些文件记录了传感器的电子特性,有助于在图像后处理中提高信噪比。
- 总结
- Ariel数据挑战2024是一个多模态监督学习任务,要求参赛者从模拟的ARIEL任务数据中提取系外行星的大气光谱,并估计其不确定性。比赛提供了一个复杂的多模态数据集,包括来自两个不同仪器的时间序列图像和校准数据。参赛者需要设计有效的去趋势和降噪方法,以提高光谱提取的准确性。这不仅需要深厚的天文学知识,还需要强大的机器学习和数据处理技能。通过参加这项挑战,参赛者将有机会为未来的系外行星研究做出重要贡献,推动天文学领域的前沿发展。
代码可见:NeurIPS-Ariel-Data-Challenge-2024/ at main · feixiangkong/NeurIPS-Ariel-Data-Challenge-2024