网易首页 > 网易号 > 正文 申请入驻

谷歌提出多语言BERT模型:可为109种语言生成与语言无关的跨语言句子嵌入

0
分享至

  新智元报道

  来源:Google

  编辑:雅新

  【新智元导读】谷歌研究人员提出了一种LaBSE的多语言BERT嵌入模型。该模型可为109种语言生成与语言无关的跨语言句子嵌入,同时在跨语言文本检索性能优于LASER。

  近日,谷歌AI研究人员提出了一种称为LaBSE的多语言BERT嵌入模型, 该模型可为109种语言生成与语言无关的跨语言句子嵌入。

  这一论文题目为「Language-agnostic BERT Sentence Embedding」,目前已在arxiv上发表。

  论文地址: https://arxiv.org/pdf/2007.01852.pdf

  研究背景

  多语言嵌入模型是一种功能强大的工具,可将不同语言的文本编码到共享的嵌入空间中,从而使其能够应用在一系列下游任务,比如文本分类、文本聚类等,同时它还利用语义信息来理解语言。

  用于生成此类嵌入的现有方法如LASER或m~USE依赖并行数据,将句子从一种语言直接映射到另一种语言,鼓励句子嵌入之间的一致性。

  尽管这些现有的多语言嵌入方法可在多种语言中有良好的整体性能,但与专用双语模型相比,它们在高资源语言上通常表现不佳。

  此外,由于有限的模型容量、低资源语言的训练数据质量通常较差,可能难以扩展多语言模型以支持更多语言,同时保持良好的性能。

  多语言嵌入空间的示例

  改善语言模型的最新研究包括开发掩码语言模型(MLM)预训练,如BERT,ALBER和RoBERTa使用的预训练。由于这种方法仅需要一种语言的文字,因此在多种语言和各种自然语言处理任务中均取得了非凡的成就。

  另外,MLM预训练已经扩展到多种语言,通过将MLM预训练修改为包括级联翻译对,也称作翻译语言模型(TLM),或者仅引入来自多种语言的预训练数据。

  但是,尽管在进行MLM和TLM训练时学习到的内部模型表示形式对下游任务进行微调很有帮助,但它们不能直接产生句子嵌入,而这对于翻译任务至关重要。

  在这样情况下,研究人员提出了一种称为LaBSE的多语言BERT嵌入模型。

  该模型使用MLM和TLM预训练在170亿个单语句子和60亿个双语句子对上进行了训练,即使在训练期间没有可用数据的低资源语言上也有效。

  此外,该模型在多个并行文本检索任务上有表现出良好的性能。

收集109种支持语言的训练数据

  LaBSE模型可在单个模型中提供了对109种语言的扩展支持

  在先前的工作中,研究者曾建议使用翻译排名任务来学习多语言句子嵌入空间。该方法通过给定源语言中的句子,对模型进行排序,从而对目标语言中的句子的正确翻译进行排名。

  翻译排名任务通过使用带有共享变压器的双编码器体系结构进行训练的,让双语模型在多项并行文本检索任务表现出最先进的性能。

  但是,由于模型能力、词汇量覆盖范围、训练数据质量等方面的限制,将双语模型扩展为支持多种语言(在研究者的测试案例中为16种语言)时,模型表现并不优。

  翻译排名任务

  对于LaBSE,研究人员在类似BERT的体系结构上利用了语言模型预训练的最新成果,包括MLM和TLM,并在翻译排名任务上进行了微调。

  使用MLM和TLM在109种语言上预先训练的500k令牌词汇表的12层转换器,用于增加模型和词汇表覆盖范围。

  最终,LaBSE模型在单个模型中提供了对109种语言的扩展支持。

  双编码器体系结构

  LaBSE模型在跨语言文本检索的性能优于LASER

  研究者使用Tatoeba语料库评估提出的模型,Tatoeba语料库是一个数据集,包含多达112个语言的1000个英语对齐的句子对。

  对于数据集中30种以上的语言,该模型没有训练数据。该模型的任务是查找给定句子的最近相邻的翻译,并使用余弦距离进行计算。

  为了了解训练数据分布的开头或结尾处的语言模型的性能,研究人员将语言集分为几组,并计算每组语言的平均准确性。

  下表列出了与每种语言组的mUSE、LASER以及LaBSE模型实现的平均准确性对比结果。

  可以看出,所有模型在涵盖大多数主要语言的14语言组中均表现出色。当涵盖的语言增多,LASER和LaBSE的平均准确度都会下降。

  但是, 随着语言数量的增加,LaBSE模型的准确性降低的要小得多,明显优于LASER ,尤其是当包括112种语言的全部分发时,LaBSE准确性为83.7%,LASER为65.5%。

  此外,LaBSE还可用于从Web规模数据中挖掘并行文本。

  谷歌研究人员已经通过tfhub向社区发布了预先训练的模型,其中包括可以按原样使用或可以使用特定于域的数据进行微调的模块。

  链接:https://tfhub.dev/google/LaBSE/1

  https://ai.googleblog.com/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女上司误会我被富婆包养,我笑着说:那是我亲妈!她直接傻眼了

女上司误会我被富婆包养,我笑着说:那是我亲妈!她直接傻眼了

千秋文化
2026-05-25 19:33:07
70秒看赫格塞思拍马屁 特朗普都要脸红了!

70秒看赫格塞思拍马屁 特朗普都要脸红了!

看看新闻Knews
2026-05-28 10:46:07
中山大学难预约黄牛却能卖“门票”?广东省教育厅:将加大高校开放力度

中山大学难预约黄牛却能卖“门票”?广东省教育厅:将加大高校开放力度

齐鲁壹点
2026-05-26 22:42:21
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
广州早茶新规落地近1个月,记者走访当地13家店,8家明确仅喝白开水也要收茶位费

广州早茶新规落地近1个月,记者走访当地13家店,8家明确仅喝白开水也要收茶位费

上观新闻
2026-05-28 06:34:05
女教师给校长打伞?真相是亲爹!造谣者已被报警追责

女教师给校长打伞?真相是亲爹!造谣者已被报警追责

金子从天降
2026-05-27 13:21:48
歼35现身辽宁舰

歼35现身辽宁舰

烽火观天下
2026-05-28 09:57:07
彻底告别曼联!7300 万弃将下家锁定!终于找到归宿

彻底告别曼联!7300 万弃将下家锁定!终于找到归宿

一隅非生
2026-05-28 09:24:02
4种粗粮已被列入“伤胃名单”,吃多了或伤胃!再爱吃也别贪嘴

4种粗粮已被列入“伤胃名单”,吃多了或伤胃!再爱吃也别贪嘴

鬼菜生活
2026-05-28 08:56:53
5月27日,人社部关于2026年调整退休人员养老金通知正式公布吗?

5月27日,人社部关于2026年调整退休人员养老金通知正式公布吗?

云鹏叙事
2026-05-27 19:19:39
国台办:台湾是中国的一部分,根本不存在所谓“主权”

国台办:台湾是中国的一部分,根本不存在所谓“主权”

澎湃新闻
2026-05-27 11:06:34
挤走王少杰!CBA状元内线自曝将加盟广东队,或被杜锋看中!

挤走王少杰!CBA状元内线自曝将加盟广东队,或被杜锋看中!

绯雨儿
2026-05-28 08:13:52
巴西第6次世界杯冠军稳了! 6个利好,都指向巴西夺冠

巴西第6次世界杯冠军稳了! 6个利好,都指向巴西夺冠

酷侃体坛
2026-05-28 09:35:17
离谱!切尔西 1 亿强挖利物浦头号水货!阿隆索要毁了蓝军

离谱!切尔西 1 亿强挖利物浦头号水货!阿隆索要毁了蓝军

澜归序
2026-05-28 05:54:54
稻城亚丁被指“省道圈占收费”,强制游客乘坐收费摆渡车,当地:多部门介入调查,将及时向社会公布调查结果

稻城亚丁被指“省道圈占收费”,强制游客乘坐收费摆渡车,当地:多部门介入调查,将及时向社会公布调查结果

大风新闻
2026-05-27 13:08:10
苹果MacBook Pro将迎史上最大改款:首款触控屏将至,搭载M6芯片

苹果MacBook Pro将迎史上最大改款:首款触控屏将至,搭载M6芯片

界面新闻
2026-05-28 09:50:46
特斯拉中国官网新增自动换挡,要来了!

特斯拉中国官网新增自动换挡,要来了!

花果科技
2026-05-26 22:41:36
乱套了!菲律宾参议院集体离场:为保“逃犯”议员竟要强推网投?

乱套了!菲律宾参议院集体离场:为保“逃犯”议员竟要强推网投?

娱乐小可爱蛙
2026-05-28 00:06:33
上海泳渡女子露胸事件后续!网友:相片看了是哺乳期,选手很漂亮

上海泳渡女子露胸事件后续!网友:相片看了是哺乳期,选手很漂亮

老猫观点
2026-05-27 14:27:16
弗莱:骑士得做出选择,送走米切尔或者莫布利其中一个

弗莱:骑士得做出选择,送走米切尔或者莫布利其中一个

懂球帝
2026-05-28 09:26:07
2026-05-28 12:16:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15323文章数 66892关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

男子结婚22年两儿子非亲生 妻子承认出轨丈夫的堂哥

头条要闻

男子结婚22年两儿子非亲生 妻子承认出轨丈夫的堂哥

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

曝大嫂冒充七七同学,林俊杰删掉合照

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

游戏
本地
旅游
数码
公开课

真人互动恋爱模拟游戏《HamKoi 转生为仓鼠的我与三姐妹的甜蜜生活》5月28日Steam发布体验版

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

人民建议丨网友支招,助力“泉城”文旅体验提质升级

数码要闻

LG Display世界首款240Hz RGB条纹子像素OLED面板进入量产

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版