当前位置: 首页 > article >正文

NeurIPS - Ariel Data Challenge 2024

1比赛概述

Ariel数据挑战2024 邀请参赛者开发机器学习模型,解决天文学领域中的一项重大挑战——从即将到来的欧洲航天局(ESAAriel任务的模拟观测中提取微弱的系外行星信号。Ariel任务计划于2029年启动,旨在对银河系邻近的约1,000颗系外行星进行首次全面研究,这将为我们提供前所未有的关于这些遥远世界的详细信息。

2背景

  • 系外行星发现:自1995年首次发现系外行星以来,这一领域的研究已经取得了巨大进展。目前,科学家们已经确认了超过5,600颗系外行星,这些发现不仅扩展了我们对宇宙的认识,还挑战了地球在宇宙中的独特性以及生命可能存在的其他地点。检测这些行星只是第一步,更关键的是理解它们的性质,特别是通过研究其大气层来揭示更多细节。
  • 技术难题:观察系外行星的大气层是当代天文学中最复杂的数据分析问题之一。当系外行星在其主星前方经过时,一小部分星光会穿过行星大气并与之相互作用。这些微弱的信号通常只有50200个百万分之一(ppm),并且经常受到仪器噪声的干扰。主要的噪声源之一是抖动噪声,这是由于航天器在太空中难以保持精确指向而产生的振动。这种振动类似于在拍摄长时间曝光照片时手部的抖动,会对数据质量产生严重影响。特别是对于类似地球和超级地球的小型行星,这种噪声的影响尤为显著,因为它们的信号强度通常只有50ppm左右。

3任务目标

  • 提取大气光谱:参赛者的任务是从每个观测中提取大气光谱,并估计其不确定性水平。这一步骤对于后续的科学分析至关重要,因为只有在去除噪声和系统误差后,才能准确地解读光谱信息。
  • 去趋势处理:为了获得大气光谱,参赛者需要对数小时连续拍摄的2D光谱焦平面图像进行去趋势处理。具体来说,需要处理一系列时间序列图像,这些图像记录了系外行星在其主星前方经过时的变化。通过去趋势处理,可以消除由抖动噪声和其他因素引起的背景波动,从而提取出纯净的行星信号。

4可能的方法

  • 方法1:直接在完整的3D数据立方体上训练模型并提取相应的光谱。这种方法利用了丰富的信息内容,但需要大量的计算资源。3D数据立方体包含了时间、空间和光谱三个维度的信息,因此能够提供更全面的上下文。然而,这也意味着模型需要处理大量的数据,对计算能力提出了更高的要求。
  • 方法2:通过沿像素y轴求和每个波长的通量,将数据压缩为2D图像(维度为(N_times, N_wavelengths)),并转换图像以增强不同波长之间的过境深度变化。这种方法可以减少数据的维度,降低计算复杂度,但可能会损失一些空间信息。尽管如此,对于某些特定的任务,这种方法仍然非常有效。(外面比赛方案实际采用)

5评估指标

  • 高斯对数似然(GLL)函数:用于评估预测光谱(μ_user)及其不确定性(σ_user)与地面真实光谱(y)之间的差异。GLL函数的公式如下:

  • 其中,𝑦y 是地面真实光谱,𝜇userμuser​ 是预测光谱,𝜎userσuser​ 是预测的不确定性。
  • 评分公式:最终得分范围在[0, 1]之间,分数越高表示模型性能越好。具体的评分公式为:

    

  • 其中,L 是所有波长和所有测试样本的GLL值之和,Lideal​ 是理想情况下的GLL值(即提交结果完全匹配地面真实值,且不确定性为0.0001),Lref​ 是使用训练数据集的均值和方差作为预测的GLL值。
  1. 数据集描述
  • 数据来源:基于ARIEL任务的模拟数据,包含大约800颗系外行星的隐藏测试集。这些数据模拟了ARIEL任务中实际观测到的光谱信息,但由于是模拟数据,可以提供详细的地面真实标签,便于评估模型性能。
  • 元数据文件
    • [train/test]_adc_info.csv:包含恢复数据原始动态范围所需的模数转换参数(增益和偏移)以及恒星信息。这些参数对于正确处理和解释原始数据至关重要。
    • train_labels.csv:地面真实光谱,提供了每个训练样本的正确答案。
    • axis_info.parquet:两台仪器的轴信息,包括时间和波长的详细描述。
    • wavelength.csv:数据集中每个地面真实光谱的波长网格,用于确定每个波长点的位置。

信号文件

仪器

    • FGS1:可见光谱段(0.600.80 µm),主要用于高精度光度测量。FGS1的观测数据可以帮助研究人员了解恒星的亮度变化,从而更好地分离行星信号。
    • AIRS-CH0:红外光谱仪(1.953.90 µm),分辨率为R=100AIRS-CH0的观测数据可以提供关于行星大气成分的详细信息,特别是在红外波段,这些信息对于研究大气化学和物理特性非常重要。

数据格式

    • AIRS-CH0_signal.parquet:包含11,250行图像,每张32 x 356的图像被展平为11392列。这些图像记录了系外行星在其主星前方经过时的光谱变化。要恢复图像的原始格式,可以使用 numpy.reshape(11250, 32, 356) 进行重塑。此外,还需要根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。
    • FGS1_signal.parquet:包含135,000行图像,每张32 x 32的图像被展平为1024列。这些图像记录了恒星的亮度变化,时间步长为0.1秒。同样,要恢复图像的原始格式,可以使用 numpy.reshape(135000, 32, 32) 进行重塑,并根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。

校准文件

  • dark.parquet:暗帧,用于捕捉传感器的热噪声和偏置水平。这些帧是在关闭快门的情况下拍摄的,可以用来校正科学图像中的暗电流噪声。
  • dead.parquet:识别传感器上的死像素或热像素。这些文件记录了传感器的电子特性,有助于在图像后处理中提高信噪比。

  1. 总结
  • Ariel数据挑战2024是一个多模态监督学习任务,要求参赛者从模拟的ARIEL任务数据中提取系外行星的大气光谱,并估计其不确定性。比赛提供了一个复杂的多模态数据集,包括来自两个不同仪器的时间序列图像和校准数据。参赛者需要设计有效的去趋势和降噪方法,以提高光谱提取的准确性。这不仅需要深厚的天文学知识,还需要强大的机器学习和数据处理技能。通过参加这项挑战,参赛者将有机会为未来的系外行星研究做出重要贡献,推动天文学领域的前沿发展。

代码可见:NeurIPS-Ariel-Data-Challenge-2024/ at main · feixiangkong/NeurIPS-Ariel-Data-Challenge-2024 


http://www.kler.cn/a/376443.html

相关文章:

  • 面试:类模版中函数声明在.h,定义在.cpp中,其他cpp引用引入这个头文件,会有什么错误?
  • Unity中对象池的使用(用一个简单粗暴的例子)
  • Elasticsearch:使用 Playground 与你的 PDF 聊天
  • 【复习小结】1-13
  • 【优选算法篇】:深入浅出位运算--性能优化的利器
  • 微信小程序——创建滑动颜色条
  • Maven讲解从基础到高级配置与实践
  • 恋爱脑学Rust之Box与RC的对比
  • ChatGPT新体验:AI搜索功能与订阅支付指南
  • layui 自定义验证单选框必填
  • CSS3新增边框属性(五)
  • Java基于微信小程序的私家车位共享系统(附源码,文档)
  • Vim的简单使用
  • 到底要不要用SAP Screen Personas
  • Vue中监听属性watch的求值,以及与computed的适用场景
  • 【开源免费】基于SpringBoot+Vue.J影城管理系统(JAVA毕业设计)
  • HuggingFace情感分析任务微调
  • Prompt Engineering (Prompt工程)
  • 产品定义和独开分类
  • Qt | windows视频播放器小项目
  • 基于SpringBoot的物品分类识别管理系统uniapp源码带文档教程
  • 行业深耕+全球拓展双轮驱动,用友U9 cloud加速中国制造全球布局
  • Leetcode 62. 不同路径 动态规划+空间优化
  • opengl学习-2vao和vbo(通义千问的例子)
  • macOS Sequoia 15.1 (24B83) 正式版 ISO、IPSW、PKG 下载
  • unity学习-异步场景加载