研究背景
全固态电池相比传统液态锂离子电池,凭借其高能量密度和高安全性的显著优势,正受到广泛关注。其中,固态电解质作为全固态电池的核心组成部分,近年来成为研究热点。在如何发掘具有高离子电导率的固态电解质方面,科学家发现从头算分子动力学有助于加快发现快离子导体的进程。然而,这些方法计算成本高,难以大规模应用,因而需要新的技术手段来应对这一挑战。近年来,机器学习(ML)在加速新材料发现、优化制造工艺和预测电池循环寿命方面展现出了巨大潜力。然而,材料数据集通常较小(仅包含数百种锂离子导体),且有时更加多样化,这给训练可靠模型带来了挑战,成为加速材料发现过程中的关键障碍。针对这一问题,半监督学习方法为解决小样本问题提供了新的思路。在研究中,标记数据往往稀缺且获取成本高昂,而未标记数据通常更加丰富,通过利用无机晶体结构数据库中丰富的未标记数据结合可用的有限标记数据,可以弥补传统监督学习对数据需求的不足,显著提升了模型性能和泛化能力。
研究工作简介
近日,华东师范大学何晓、杨金荣课题组与上海交通大学庄小东课题组合作,开发了一种结合一致性正则化和伪标签的半监督学习框架,该框架仅使用X射线衍射图谱作为描述符,无需其他信息,命名为“XRDMatch”。利用无机晶体结构数据库中丰富的未标记数据信息来支持有限的标记数据,该方法有助于构建准确且稳健的模型,集成学习策略模型的F1分数高达0.92。对未标记数据的进一步预测确定了38种超离子导体,其中32种得到了近期文献报道的验证,6种新候选材料通过从头算分子模拟进行了验证。其中,Li6AsSe5I被进一步合成并通过实验证实为快离子导体。这项工作强调了半监督学习框架在克服有限数据限制方面的可行性,并凸显了该模型在高效发现室温超离子导体方面的巨大潜力。
2024年11月5日,该文章以“ XRDMatch: a semi-supervised learning framework to efficiently discover room temperature lithium superionic conductors ”为题发表在国际顶级期刊Energy & Environmental Science上。第一作者:华东师范大学博士生万政、上海交通大学博士后陈振营,通讯作者为华东师范大学何晓教授、杨金荣副研究员、上海交通大学庄小东教授
核心内容表述部分
模型介绍:首先,利用Pymatgen软件包计算了在图1步骤1中收集的标记和未标记晶体数据的XRD图谱,为每个衍射图谱生成4501维向量。然后,对所有XRD数据进行归一化处理。数据增强过程分为标记数据流和未标记数据流,如图1步骤2所示。从材料科学家的角度来看,弱增强保持了XRD图谱的基本结构,同时引入了模拟测量噪声或实验条件轻微变化的微小扰动。另一方面,强增强则显著改变XRD图谱,模拟更剧烈的变化,如可能因成分或结构发生重大变化而产生的变化。对于标记样本,弱数据增强代表对数据固有属性影响最小的微妙变换,以生成多样化的样本。对于未标记数据,该方法结合了一致性正则化,这是一种使用弱增强和强增强技术预测给定样本的方法。目标是确保在不同强度和干扰下预测的一致性,从而引导模型在未标记数据上学习到更鲁棒和一致的特征表示。考虑到数据的稀缺性,我们选择了VGG-11网络来提取特征。VGG Net的体系结构如图1步骤3所示。随后,我们使用标记数据流数据集训练深度卷积神经网络模型以初始化网络参数。未标记数据流基于在标记数据集上训练的模型预测弱增强和强增强数据集,如图1步骤3所示。对于监督模型部分,选择交叉熵损失作为损失函数,指导模型学习标记数据上的正确分类任务。对于无监督模型部分,弱增强中的较弱扰动导致更鲁棒的初步预测。通过弱增强过程,获得了未标记数据的初步预测。超过预定阈值的预测被识别为“伪标记数据”,并将在后续迭代中整合到训练集中。强增强通常产生更多样化的样本,但预测置信度较低,有助于模型扩展其决策边界。然后,计算这两种预测的一致性损失,确保它们在特征表示上的一致性,并帮助模型在未标记数据上学习到更鲁棒和可泛化的特征表示,如图1步骤4所示。最后,XRDMatch中的损失公式被表述为监督损失Ls和加权(由α)无监督损失Lu的组合:L = Ls + α × Lu。通过添加伪标签和多次迭代,分类模型变得越来越准确和鲁棒。每次迭代都会改进模型的预测和伪标签,最终提高性能和泛化能力。这种迭代方法利用模型不断增长的知识来做出越来越明智的预测,并适应数据集的特性。图2为通过此模型预测的6种快离子导体,并对其中的Li6AsSe5I进行合成与电化学测试(图3)。
图1. XRDMatch方法的综合流程图
图2. 通过从头算分子动力学(AIMD)评估新候选材料的性能:(a) 六个高相似度化合物,包括材料相似性分析、log(σ)与温度(T)之间阿伦尼乌斯关系的拟合图,以及随后确定后续材料的晶胞参数。(b) 不同机器学习方法预测的材料与文献中原始数据之间的性能比较。
图3. 预测数据的实验验证:(a) 不同烧结条件下Li6AsSe5I样品的X射线衍射图。(b)阿伦尼乌斯拟合图。(c)样品在不同温度下的电化学阻抗谱。
总结与展望
该创新方法标志着材料领域预测任务中的范式转变。该方法充分利用材料数据库中丰富的未标记数据,有效突破了小型、多样化数据集所带来的限制,而这一挑战在该领域尤为突出。预期,这一开创性的学习范式将开辟新的研究路径,涵盖无机化合物的相鉴定、晶体尺寸和空间群的预测等任务。随着自主实验室的出现, XRD图谱作为最常用的传统材料分析仪之一,可以无缝融入操作流程中,以加速新材料的研发。此外,该方法的通用性还可以扩展到其他表征数据模式,包括拉曼光谱、核磁共振和红外光谱。
https://doi.org/10.1039/D4EE02970D
相关进展
免责声明:部分资料可能来源于网络,转载的目的在于传递更多信息及分享,并不意味着赞同其观点或证实其真实性,也不构成其他建议。仅提供交流平台,不为其版权负责。如涉及侵权,请联系我们及时修改或删除。原创文章欢迎个人转发和分享,刊物或媒体如需转载请联系。联系邮箱:chem@chemshow.cn
微信号 : Chem-MSE
诚邀投稿
欢迎专家学者提供化学化工、材料科学与工程及生物医学工程等产学研方面的稿件至chem@chemshow.cn,并请注明详细联系信息。化学与材料科学会及时选用推送。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.