当前位置：首页 > article >正文

NeurIPS - Ariel Data Challenge 2024

article 2025/4/2 17:52:27

1比赛概述

Ariel数据挑战2024 邀请参赛者开发机器学习模型，解决天文学领域中的一项重大挑战——从即将到来的欧洲航天局（ESA）Ariel任务的模拟观测中提取微弱的系外行星信号。Ariel任务计划于2029年启动，旨在对银河系邻近的约1,000颗系外行星进行首次全面研究，这将为我们提供前所未有的关于这些遥远世界的详细信息。

2背景

系外行星发现：自1995年首次发现系外行星以来，这一领域的研究已经取得了巨大进展。目前，科学家们已经确认了超过5,600颗系外行星，这些发现不仅扩展了我们对宇宙的认识，还挑战了地球在宇宙中的独特性以及生命可能存在的其他地点。检测这些行星只是第一步，更关键的是理解它们的性质，特别是通过研究其大气层来揭示更多细节。
技术难题：观察系外行星的大气层是当代天文学中最复杂的数据分析问题之一。当系外行星在其主星前方经过时，一小部分星光会穿过行星大气并与之相互作用。这些微弱的信号通常只有50到200个百万分之一（ppm），并且经常受到仪器噪声的干扰。主要的噪声源之一是“抖动噪声”，这是由于航天器在太空中难以保持精确指向而产生的振动。这种振动类似于在拍摄长时间曝光照片时手部的抖动，会对数据质量产生严重影响。特别是对于类似地球和超级地球的小型行星，这种噪声的影响尤为显著，因为它们的信号强度通常只有50ppm左右。

3任务目标

提取大气光谱：参赛者的任务是从每个观测中提取大气光谱，并估计其不确定性水平。这一步骤对于后续的科学分析至关重要，因为只有在去除噪声和系统误差后，才能准确地解读光谱信息。
去趋势处理：为了获得大气光谱，参赛者需要对数小时连续拍摄的2D光谱焦平面图像进行去趋势处理。具体来说，需要处理一系列时间序列图像，这些图像记录了系外行星在其主星前方经过时的变化。通过去趋势处理，可以消除由抖动噪声和其他因素引起的背景波动，从而提取出纯净的行星信号。

4可能的方法

方法1：直接在完整的3D数据立方体上训练模型并提取相应的光谱。这种方法利用了丰富的信息内容，但需要大量的计算资源。3D数据立方体包含了时间、空间和光谱三个维度的信息，因此能够提供更全面的上下文。然而，这也意味着模型需要处理大量的数据，对计算能力提出了更高的要求。
方法2：通过沿像素y轴求和每个波长的通量，将数据压缩为2D图像（维度为(N_times, N_wavelengths)），并转换图像以增强不同波长之间的过境深度变化。这种方法可以减少数据的维度，降低计算复杂度，但可能会损失一些空间信息。尽管如此，对于某些特定的任务，这种方法仍然非常有效。（外面比赛方案实际采用）

5评估指标

高斯对数似然（GLL）函数：用于评估预测光谱(μ_user)及其不确定性(σ_user)与地面真实光谱(y)之间的差异。GLL函数的公式如下：

其中，𝑦y 是地面真实光谱，𝜇userμuser 是预测光谱，𝜎userσuser 是预测的不确定性。
评分公式：最终得分范围在[0, 1]之间，分数越高表示模型性能越好。具体的评分公式为：

其中，L 是所有波长和所有测试样本的GLL值之和，Lideal 是理想情况下的GLL值（即提交结果完全匹配地面真实值，且不确定性为0.0001），Lref 是使用训练数据集的均值和方差作为预测的GLL值。

数据集描述

数据来源：基于ARIEL任务的模拟数据，包含大约800颗系外行星的隐藏测试集。这些数据模拟了ARIEL任务中实际观测到的光谱信息，但由于是模拟数据，可以提供详细的地面真实标签，便于评估模型性能。
元数据文件：
- [train/test]_adc_info.csv：包含恢复数据原始动态范围所需的模数转换参数（增益和偏移）以及恒星信息。这些参数对于正确处理和解释原始数据至关重要。
- train_labels.csv：地面真实光谱，提供了每个训练样本的正确答案。
- axis_info.parquet：两台仪器的轴信息，包括时间和波长的详细描述。
- wavelength.csv：数据集中每个地面真实光谱的波长网格，用于确定每个波长点的位置。

信号文件

仪器：

- FGS1：可见光谱段（0.60至0.80 µm），主要用于高精度光度测量。FGS1的观测数据可以帮助研究人员了解恒星的亮度变化，从而更好地分离行星信号。
- AIRS-CH0：红外光谱仪（1.95至3.90 µm），分辨率为R=100。AIRS-CH0的观测数据可以提供关于行星大气成分的详细信息，特别是在红外波段，这些信息对于研究大气化学和物理特性非常重要。

数据格式：

- AIRS-CH0_signal.parquet：包含11,250行图像，每张32 x 356的图像被展平为11392列。这些图像记录了系外行星在其主星前方经过时的光谱变化。要恢复图像的原始格式，可以使用 numpy.reshape(11250, 32, 356) 进行重塑。此外，还需要根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。
- FGS1_signal.parquet：包含135,000行图像，每张32 x 32的图像被展平为1024列。这些图像记录了恒星的亮度变化，时间步长为0.1秒。同样，要恢复图像的原始格式，可以使用 numpy.reshape(135000, 32, 32) 进行重塑，并根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。

校准文件

dark.parquet：暗帧，用于捕捉传感器的热噪声和偏置水平。这些帧是在关闭快门的情况下拍摄的，可以用来校正科学图像中的暗电流噪声。
dead.parquet：识别传感器上的死像素或热像素。这些文件记录了传感器的电子特性，有助于在图像后处理中提高信噪比。

总结

Ariel数据挑战2024是一个多模态监督学习任务，要求参赛者从模拟的ARIEL任务数据中提取系外行星的大气光谱，并估计其不确定性。比赛提供了一个复杂的多模态数据集，包括来自两个不同仪器的时间序列图像和校准数据。参赛者需要设计有效的去趋势和降噪方法，以提高光谱提取的准确性。这不仅需要深厚的天文学知识，还需要强大的机器学习和数据处理技能。通过参加这项挑战，参赛者将有机会为未来的系外行星研究做出重要贡献，推动天文学领域的前沿发展。

代码可见：NeurIPS-Ariel-Data-Challenge-2024/ at main · feixiangkong/NeurIPS-Ariel-Data-Challenge-2024

查看全文

http://www.kler.cn/a/376443.html