网易首页 > 网易号 > 正文 申请入驻

大语言模型加速材料发现,普林斯顿大学团队准确预测晶体特性

0
分享至



编辑| X

晶体特性的预测在晶体设计过程中起着至关重要的作用。当前预测晶体特性的方法主要集中于使用图神经网络(GNN)对晶体结构进行建模。尽管 GNN 很强大,但准确模拟晶体内原子和分子之间的复杂相互作用仍然是一个挑战。

文本数据提供了丰富的信息和表现力,但从晶体文本描述预测晶体特性的研究还不够。主要原因之一是缺乏该任务的公开数据。

普林斯顿大学的研究人员创建了一种 AI 工具来预测晶体材料的行为。新方法依赖于大型语言模型(LLM)。通过综合文本描述中的信息(包括原子之间键的长度和角度以及电子和光学特性的测量等细节),新方法可以比现有模拟更准确、更彻底地预测新材料的特性,并有可能加快设计和测试新技术的过程。

研究人员开发并公开了一个基准数据集(称为 TextEdge),其中包含来自Materials Project的 140,000 多个晶体的描述,然后,提出了 LLM-Prop,一种利用 LLM 的通用学习能力从文本描述中预测晶体的物理和电子特性的方法。

研究人员测试了该工具预测先前研究的晶体结构(从普通食盐到硅半导体)特性的能力。已经证明了 LLM-Prop 预测能力,正在努力将该工具应用于新晶体材料的设计。

论文一作、普林斯顿大学计算机科学助理教授 Adji Bousso Dieng 表示,「该方法代表了一个新的基准,可以帮助加速材料的广泛应用。我们是第一个使用大型语言模型来解决这个问题的团队。」

该方法于 2023 年 11 月 29 日,在波士顿举行的 the Materials Research Society's Fall Meeting 上提出。

相关研究以「LLM-Prop: Predicting Physical And Electronic Properties Of Crystalline Solids From Their Text Descriptions」为题,发布到arXiv预印平台。



GitHub 地址:https://github.com/vertaix/LLM-Prop

论文链接:https://doi.org/10.48550/arXiv.2310.14029

现有的基于人工智能的晶体特性预测工具依赖于图神经网络的方法,但这些方法的计算能力有限,无法充分捕捉晶体中原子之间的几何形状和键长的细微差别,以及由这些结构产生的电子和光学性质。

「我们在计算机视觉和自然语言方面取得了巨大进步,」Dieng 说,「但在处理 AI 图方面,我们还不是很先进。所以,我想从图转移到我们已经有了很好的工具的领域。如果我们有文本,那么我们就可以在文本上利用所有这些强大的大型语言模型。」

该研究的合著者、普林斯顿大学机械与航空航天工程教授兼负责创新的副院长 Craig Arnold 表示,基于语言模型的方法「为我们提供了一种全新的方式来看待材料设计问题。这实际上是关于,我如何获取人类已经开发的所有这些知识,以及如何处理这些知识以向前发展?它与我们当前的方法有本质上的不同,我认为这赋予了它很大的力量。」

研究的主要贡献概述如下:

  • 研究人员收集、整理并公开一个基准数据集,其中包含大约 144K 晶体文本描述及其属性。
  • 提出 LLM-Prop,这是一种高效微调的网络,使其能够在晶体特性预测方面实现最先进的性能,优于当前最好的基于 GNN 的晶体特性预测器。

表 1:来自收集的基准数据集的示例。(来源:论文)



数据包含 144, 931 个晶体,将其分为 125, 098 个晶体用于训练,9,945 个晶体作为验证集,9,888 个晶体作为测试集。对于每个晶体,收集其 ID、结构信息、带隙、体积以及其带隙是直接还是间接的。使用 Robocrystallographer 提取了晶体文本描述。

LLM-Prop,是一个源自 T5 的精心微调的网络,用于晶体特性预测。通过大量实验证明,LLM-Prop 在预测晶体固体的物理和电子特性方面实现了卓越的性能,超越了当前最先进且使用广泛的基于 GNN 的架构(例如 ALIGNN)。



图 1:LLM-Prop 架构。(来源:论文)

LLM-Prop 在所有任务上都能产生更好或相当的性能,包括 zero-shot 预测。尽管超参数少了 3 倍,LLM-Prop 的性能也优于经过微调的 MatBERT(一种特定领域的预训练 BERT 模型)。

LLM-Prop 在回归和分类任务上都优于所有基于 GNN 的基线。

表 2:与带隙预测基线的性能 (MAE) 比较。(来源:论文)



对于带隙预测,LLM-Prop 在验证集和测试集上均优于性能最佳的基线 (ALIGNN),分别提高了约 8% 和 4%。

表 3:性能 (MAE) 与体积预测基线的比较。(来源:论文)



对于体积预测,LLM-Prop 还比验证集和测试集上的最佳性能基线 (ALIGNN) 分别提高了约 67% 和 66%。这种改进的可能原因可能是,与 GNN 相比,LLM-Prop 可以很容易地从文本描述中获取最重要的体积预测信息。

研究结果凸显了基于文本的方法在材料科学中的巨大潜力,基准文本数据 TextEdge 将助力这一新兴领域的研究。

参考内容:https://techxplore.com/news/2024-01-harness-large-language-materials-discovery.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉祥航空飞广州航班延误,旅客被曝中暑!致歉称空调效果不佳

吉祥航空飞广州航班延误,旅客被曝中暑!致歉称空调效果不佳

南方都市报
2024-07-04 21:20:05
“夹包哥”和凶手斗舞视频公开,被捅前就曾挑衅过对方

“夹包哥”和凶手斗舞视频公开,被捅前就曾挑衅过对方

素素娱乐
2024-07-04 07:47:06
申花榜首被“偷走”,拿鲁沪大战找补,金顺凯替蒋4 斯帅趁病要命

申花榜首被“偷走”,拿鲁沪大战找补,金顺凯替蒋4 斯帅趁病要命

替补席看球
2024-07-04 16:49:41
国家要动真格了?社会“新四害”出现,已经影响到老百姓的生活!

国家要动真格了?社会“新四害”出现,已经影响到老百姓的生活!

慎独赢
2024-07-04 09:20:02
前副国防部长舍夫佐娃“叛逃“紧张的不止是俄罗斯

前副国防部长舍夫佐娃“叛逃“紧张的不止是俄罗斯

清哲木观察
2024-07-03 22:18:15
我党官方认定的新中国缔造者只有4位,最难获取的一个讣告评价

我党官方认定的新中国缔造者只有4位,最难获取的一个讣告评价

轮回历史
2024-06-26 08:05:35
上海出轨张老师曝大量美照,难怪16岁男主挡不住,换你也把持不住

上海出轨张老师曝大量美照,难怪16岁男主挡不住,换你也把持不住

辣条小剧场
2024-02-20 08:00:10
惊爆! 新冠感染潮又来!大批人病倒,高烧狂咳,有人直接"失忆"!

惊爆! 新冠感染潮又来!大批人病倒,高烧狂咳,有人直接"失忆"!

华人星光
2024-07-02 13:37:29
最新河南各地市高考状元盘点,关注资方思维

最新河南各地市高考状元盘点,关注资方思维

资方思维
2024-07-04 16:19:24
奇迹之夜!中国两胜三负,朱琳爆冷连胜晋级,男单再现惊人冷门

奇迹之夜!中国两胜三负,朱琳爆冷连胜晋级,男单再现惊人冷门

战争编年史
2024-07-04 12:28:18
万万没想到
联合国140:0通过涉中国决议!

万万没想到 联合国140:0通过涉中国决议!

仰望沧海
2024-07-04 22:03:08
大莫里斯:我会回独行侠 希望带上我弟弟一起

大莫里斯:我会回独行侠 希望带上我弟弟一起

直播吧
2024-07-04 21:26:07
触目惊心!合肥一男子在某商场坠亡,生前最后影像曝光,太悲壮了

触目惊心!合肥一男子在某商场坠亡,生前最后影像曝光,太悲壮了

火山诗话
2024-07-04 13:47:43
局地要破40℃!今天,更大更强!杭州人要熬到这天,才能缓口气…

局地要破40℃!今天,更大更强!杭州人要熬到这天,才能缓口气…

明珠电视
2024-07-04 15:37:44
今天才知道,微信打电话和手机打电话的区别这么大,再也不乱用了

今天才知道,微信打电话和手机打电话的区别这么大,再也不乱用了

小俊分享
2024-07-02 08:13:05
爆单了!巴南两款产品在“与辉同行”直播间被疯抢

爆单了!巴南两款产品在“与辉同行”直播间被疯抢

华庭讲美食
2024-07-04 20:59:03
最后的输家是美国?美大选结局毫无悬念,罕见一幕轰动全球

最后的输家是美国?美大选结局毫无悬念,罕见一幕轰动全球

男女那点事儿儿
2024-07-05 00:58:57
具俊晔装不下去了,罕见发脾气!韩网友:这说的难道不是事实?

具俊晔装不下去了,罕见发脾气!韩网友:这说的难道不是事实?

小咪侃娱圈
2024-06-05 11:56:04
原来真正的强者从不抱怨环境,提篮桥监狱的非遗作品让人大开眼界

原来真正的强者从不抱怨环境,提篮桥监狱的非遗作品让人大开眼界

滑稽斑马呀
2024-07-04 09:33:44
女律师称在贵阳开庭时遭遇法警暴力执法,法院回应

女律师称在贵阳开庭时遭遇法警暴力执法,法院回应

鲁中晨报
2024-07-03 15:23:03
2024-07-05 02:32:49
ScienceAI
ScienceAI
关注人工智能与其他前沿技术
533文章数 197关注度
往期回顾 全部

科技要闻

何小鹏第三次闯入险滩

头条要闻

国家体育总局原副局长蔡振华:这一生我问心无愧

头条要闻

国家体育总局原副局长蔡振华:这一生我问心无愧

体育要闻

我不用当体育老师了,我去踢欧洲杯了!

娱乐要闻

胡歌打败范伟,又一个内娱黑幕?

财经要闻

万科系互金平台爆雷?不少万科员工被坑

汽车要闻

限时优惠至高2.4万 新款卡罗拉售11.68万起

态度原创

游戏
手机
亲子
本地
公开课

英国一男子携带「塞尔达」大师剑模型被监禁 / 《看门狗》电影开机

手机要闻

苹果中文 Slogan,语法的终结者?

亲子要闻

老师晒出拉丁圈最小的尿不湿选手,纸尿裤还没脱呢,就这么卷了吗?

本地新闻

云游中国 | 走进安塞,寻觅黄土高原文化记忆

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版