直接设计目标属性材料!微软MatterGen模型重磅开源,用生成式AI重新定义材料逆向设计新范式
2023 年 12 月,谷歌 DeepMind 在「Nature」上发布其在材料化学领域的深度学习模型 GNoME,宣称发现了 220 万种新的无机材料的晶体结构。距离该突破性成就不到一周,微软就宣布将要推出用于材料逆向设计的生成式 AI 模型 MatterGen,并向大家表示,未来完全可以根据所需要的性质直接设计新材料的结构。
如果说,谷歌的 GNoME 模型向我们展示了 AI 具备在庞大化学空间中快速发现新材料的潜力,那微软的 MatterGen 则进一步证明了生成式 AI 通过逆向设计精准满足特定需求的能力,二者展现了 AI 在材料化学领域的不同切入点,也标志着从大规模发现到「按需设计」的新技术跃迁。1 月 16 日,MatterGen 成果以「A generative model for inorganic materials design」为题,终于在 Nature 上正式见刊,更令人兴奋的是,模型现已开源,HyperAI超神经已在官网上线教程「MatterGen 无机材料设计模型 Demo」,一键即可部署运行,欢迎大家测试模型性能。
教程地址:https://go.hyper.ai/5mWaL
东南大学王金兰教授曾在「Inverse design with deep generative models: next step in materials discovery」文章中指出,在传统的机器学习辅助材料设计研究中,大多是预测整个化学空间中候选材料的特性,并进行大规模筛选,以寻找具有目标性能的潜在材料,但逆向设计能够直接沿着最优路径生成合格的化合物,她认为,生成模型是逆向设计材料的一种有效策略,这与微软的研究不谋而合。
MatterGen 基于扩散模型,可以根据目标空间群生成结构,比如在设计多属性磁性材料时,提出了既有高磁密度又具有 low supply-chain risk 化学成分的结构。与此同时,该模型还配备了多个可调适配模块,可以根据化学性质、对称性和材料特性等约束条件进行微调,生成满足特定磁性、电子或机械性能的材料,并通过 DFT 进行验证。由此可见,基于某个场景来「定制化」新材料或许将在不远的未来成为现实。
除了上述提到的扩散模型,如今主流的生成模型还包含生成对抗网络 (GANs)、变分自编码器 (VAEs)、自回归模型 (Autoregressive Models) 等,其核心原理都是通过学习数据分布来生成新的样本。
今天这篇文章,HyperAI超神经将为大家介绍生成模型逆向设计新材料的价值,并探讨该技术在电池材料、高熵合金、超导材料等方面的具体进展。
新材料研发与蛋白质设计之间的「相似性」
在典型的材料开发问题中,我们希望找到一种具有特定性能的新材料,其实就是在寻找一种合适的晶体结构,使其符合目标属性。
过去,我们开发新材料的方式主要依赖试错,这种「正向设计」的特点是从结构到性质的发现。以最常见的替换法为例,La-Ba-Cu-O 超导体是最早的铜基超导体,但是它只有 35 K 的超导,低于液氮温区,研究人员从结构出发,将 La 替换为 Y 元素后发现,Y-Ba-Cu-O 超导体的超导温度高于液氮温区。然而,这种方法的研发周期非常长,且存在高度偶然性。
随着计算机技术和量子力学理论的进步,基于密度泛函理论 (DFT) 的材料预测方法逐渐成熟,结合结构搜索算法和高通量计算,可以在某些数据库上,根据某些约束来高效地筛选潜在材料,然后再送到实验室合成、测试。然而,未知材料的化学空间极其庞大,不同元素的潜在组合甚至高达百万级别以上,这导致大规模筛选的计算成本非常昂贵。
AI 驱动的逆向设计提供了一种全新的思路,它跳出材料空间筛选的惯性思维,直接生成满足目标性能的材料结构,实现材料的高效设计和优化。
事实上,基于 AI 驱动的逆向设计已经在生物医学领域取得了突破性进展,2024 年 10 月,诺贝尔化学奖首次涉及 AI 领域,其中一半奖项被授予美国华盛顿大学的 David Baker,以表彰他在蛋白质设计上的突出贡献。在他的多项研究中,我们都可以观察到其反向使用深度学习为设计功能性新蛋白质生成氨基酸序列的案例。
2024 诺贝尔化学奖获得者
新材料研发与蛋白质设计有许多相似之处,比如材料的宏观性质由其微观结构决定,蛋白质也是如此。在蛋白质领域,氨基酸序列指导蛋白质折叠成特定的二级、三级乃至四级结构,进而决定其生物学功能。与此类似,材料科学依赖于原子、化学键及官能团的选择与排列,构建分子或更复杂的材料结构,进而决定其性能。
这种相似性使得蛋白质设计中流行的 AI 方法能够为材料科学的研究提供借鉴,例如通过逆向设计优化材料性能,探索新结构或开发全新材料。
与此同时,其他在生物医药领域中涌现的生成模型、视觉模型、语言模型以及其他先进技术,如强化学习、注意力机制、扩散模型、预训练模型、多模态技术、模型对齐机制等,在材料科学中也有着广阔的应用潜力。
值得一提的是,由于新材料不需要经历生物医药的漫长临床试验周期,以及排除伦理安全等因素的影响,实际落地的可能性或许更大。
以微软 MatterGen 为例,探讨生成式 AI 逆向设计材料新范式
微软的 MatterGen 模型主要是基于扩散架构,先将原子类型、原子位置、周期性晶格逐步破坏为随机结构,然后训练一个模型反向完成这一过程,让模型学习如何从随机噪声逐步还原回原始材料结构。论文的通讯作者谢天认为,这与视频生成的核心思想非常相似。
以 OpenAI 开发的文生视频模型 Sora 为例,研究人员基于自编码器 (Encoder),通过「视频压缩网络」的技术,将输入的图片或视频压缩成一个更低维度的数据,并将这些压缩后的视频分解为「空间时间补丁」,进一步转换成一维的数据序列,方便 Transformer 处理。随后,Transformer 会完成每个空间时间补丁的噪声去除,再通过解码器 (Decoder) 将处理后的张量数据还原成视频。
Sora 工作流
而另一方面,在扩散架构的基础上,研究人员让模型学习已知稳定材料数据的结构,一旦模型训练完成,就可以无条件地从随机分布中采样,并经过反向过程,让模型基于它对材料规律的理解,生成符合条件的新材料结构。进一步地,研究人员向网络的每一层添加条件来微调基础模型,这些条件可以是特定的化学性质、对称性,或者任何目标属性(磁性、密度等),经过微调后,模型可以根据指定条件直接生成材料结构,并通过计算方法验证其稳定性。
如下所示,在锶-钒-氧化学系统的新材料生成案例中,MatterGen 生成的材料结构看起来非常合理 (f-i),计算验证后发现,这些材料具备稳定性。
在目标化学系统中生成材料
进一步地,除了计算验证之外,团队还与中科院深圳先进技术研究院合作,利用 MatterGen 成功合成了新型材料 TaGr2O6,实验测得其体积模量为 169 GPa,与设计值 200 GPa 相对误差低于 20%。与此同时,团队还希望从科学家那里获得反馈,持续迭代和优化模型,以期提高其实际应用价值。
值得一提的是,由于大多数材料设计问题都涉及寻找具有极端特性的材料,比如室温超导体、用于电池的超离子导体,传统的基于搜索的方法很难实现,但生成式模型以目标属性为指导,可以为发现这些突破性材料提供机会。微软正在利用这种模型进行多种材料的探索,涵盖电池设计、太阳能电池设计以及碳捕获领域。
更多应用:以高熵合金、超导材料开发为例
我们都知道,新材料不仅是驱动诸如航空航天、新能源、电子信息及生物医药等高科技领域发展的基石,也是托举新技术、新装备、新工程的中坚力量。然而,目前我国的材料工业仍以传统材料为主,在新材料特别是高端新材料方面供给有限,与此同时,由于关键技术的短缺,我们对进口材料有一定的依赖性,受制于人的短板问题仍然突出。
现如今,随着生成式 AI 的发展,材料科学正在迎来新的研究范式变革,如果我们能够尽早入场这一新兴领域,或将为克服短板提供可能,有望实现「弯道超车」。接下来,笔者将以生成式 AI 在开发高熵合金、超导材料等应用中的具体案例为例,探讨这一技术如何助力新材料实现跨越式发展。
高熵合金
在诸如燃气轮机、核反应堆和航空推进系统等工程应用中,对具备优异高温机械性能的金属合金需求十分旺盛。耐火高熵合金 (RHEAs) 通过添加不同的高熔点耐火元素,能够在 1000°C 及以上温度中保持高强度能力,表现出与高温合金相当的高温强度,这引起了研究人员们的广泛关注。
然而,与其他高温合金相比,RHEAs 在特定方面(如室温延展性等)的性能仍受到挑战,过去设计 RHEAs 时大多依赖于研究人员的经验和直觉,具备高度不确定性,与此同时,RHEAs 可能的组成空间很大,包含数十亿种候选成分,严重限制了我们对潜在合金的快速发现。
对此,宾夕法尼亚州立大学材料科学与工程系、计算与数据科学研究所助理教授 Wesley Reinhart 在 Journal of Materials Informatics 上发表论文「Generative deep learning as a tool for inverse design of high entropy refractory alloys」,并得出了一个初步结论——生成模型是一种很有前途的材料设计新方法,尤其是在高熵合金设计上,该成果被 JMI 评为年度优秀论文。
论文地址:
https://www.oaepublish.com/articles/jmi.2021.05
在这篇论文中,研究人员提到,过去 10 年,以密度泛函理论 (DFT) 为例的计算方法已经基本成熟,并积累了大量数据,这为深度学习的应用提供了基础,推动了「前向模型」的发展,但遗憾的是,庞大的设计空间仍然是一个关键挑战,生成式建模的「逆向设计」为此提供了解决方案。
因此,研究人员利用条件生成对抗网络 (CGAN) 为生成器提供额外的条件向量,进而控制其输出。换句话说,条件向量可以提供与目标属性(如合金成分或性能指标)相关的信息,建立潜在空间和期望指标之间的映射,生成器通过学习基于合金成分的合金性能数据概率分布,生成符合条件的样本。值得一提的是,该模型已成功设计铝合金,并通过计算方法进行了验证。
使用条件 GAN 进行材料逆向设计的生成式建模示意图
值得一提的是,研究人员还提到,除了利用 CGAN,条件变分自编码器 (CVAE) 也可用于新材料设计,但因为训练过程固有的噪声注入,以及对重建误差的预定义度量要求,VAE 的效果不如 GAN。
超导材料
超导材料指的是在某一温度下电阻为零的导体,其应用十分广泛,覆盖输电、电机、交通运输、航天、微电子、电子计算机、通信、核物理、新能源、生物工程、医疗以及军事装备等领域,自人类发现超导现象以来,该领域已经产生了多个相关的诺贝尔奖。
发现具有高临界温度 (Tc) 的新型超导体一直材料科学、凝聚态物理学领域的重要任务,美国国家标准与技术研究所等联合微软研究人员,提出了一种新的扩散模型,用于生成具有独特结构和化学组成的超导体。该研究以「Inverse Design of Next-generation Superconductors Using Data-driven Deep Generative Models」为题,发表在 The Journal of Physical Chemistry Letters 上。
论文地址:
https://pubs.acs.org/doi/10.1021/acs.jpclett.3c01260
在这项成果中,研究人员提到,想要将生成模型用在周期性材料中,面临的主要挑战是创建具有平移和旋转不变性的表示形式,这个问题可以用晶体扩散变分自编码器 (CDVAE) 来解决。
使用 DFT、ALIGNN 和 CDVAE 生成模型的新型超导体的完整逆向设计工作流程
因此,如上图所示,研究人员用 1,058 种超导材料的 DFT 数据训练 CDVAE 模型,让其生成 3,000 种新的超导体候选材料。随后,用预训练的深度学习模型 ALIGNN 预测这些候选结构的超导性能,筛选后得到了 61 个候选材料。最后,研究人员对这些材料进行 DFT 计算,以验证预测结果,并评估新材料的动态和热力学稳定性。15 种具有潜力的候选超导材料结构如下图所示,研究发现,这样的方法使得下一代材料的逆向设计成为可能。
通过 CDVAE 生成并经 DFT 验证的顶级超导候选材料(最接近凸包)的顶视图和侧视图
当然,除了以上提到的案例,生成模型也在其他材料设计上得到了具体应用。笔者特意整理了一些案例,可供大家参考。
*锂电池设计
论文题目:Li-ion battery design through microstructural optimization using generative AI
论文地址:
https://www.cell.com/matter/fulltext/S2590-2385(24)00446-6
*纳米复合材料设计
论文题目:Generative AI for Tailored Functionalities in Nanocomposite Materials
论文地址:
https://easychair.org/publications/preprint/sDm2
*二维材料设计
论文题目:Computational Discovery of New 2D Materials Using Deep Learning Generative Models
论文地址:
https://pubs.acs.org/doi/abs/10.1021/acsami.1c01044
*工程水泥基复合材料设计
论文题目:Generative AI for performance-based design of engineered cementitious composite
论文地址:
https://www.sciencedirect.com/science/article/abs/pii/S1359836823004961
*机械和仿生材料设计
论文题目:Enhancing mechanical and bioinspired materials through generative AI approaches
论文地址:
https://www.sciencedirect.com/science/article/pii/S2949822824001722
写在最后
目前,生成式 AI 在材料设计中的应用很多仍停留在试验阶段,为了真正实现技术落地,除了通过计算评估材料性能外,还需要依赖现实中的实验验证。在这方面,如果想要缩小计算筛选与试验合成新材料的差距,并以最小的人力快速发现材料,构建自动化实验室、实现闭环发现就显得尤为重要了。
以加州大学伯克利分校的自动化实验室 A-Lab 为例,其不仅能自动执行实验步骤,还能基于数据自主做出决策,在 17 天的连续运行中,成功合成了 58 个目标材料中的 41 个,成功率高达 71%。由此可见,利用生成式 AI 设计材料,并通过自动化实验室进行高效合成与验证,正成为推动材料科学快速发展的一种有效途径。
参考资料:
1.https://nullthought.net/?p=5222&utm_source=chatgpt.com
2.https://academic.oup.com/nsr/article/9/8/nwac111/6605930?login=false
3.https://mp.weixin.qq.com/s/UX71cMgsEo49tLPiFu3D8A
4.https://mp.weixin.qq.com/s/e1DqTa1Tgyi4OWpgwrj48Q
5.https://www.youtube.com/watch?v=Smz1go6_Spo&t=896s
6.https://www.youtube.com/watch?v=yWXPV3bsC2c&t=7s
7.https://www.youtube.com/watch?v=Uv22eVcmmXA