网易首页 > 网易号 > 正文 申请入驻

NTF2021系列报道2 |畅谈机器翻译技术与产业的融合

0
分享至

近年来,深度学习技术引领的新一轮AI热潮方兴未艾,随着神经机器翻译技术带来机器翻译品质的显著提升,世界范围内的机器翻译市场需求稳步增长,机器翻译技术和产业呈现紧密结合的态势。

那么,机器翻译学术界和产业界的专家们在一起会碰撞出怎样的火花呢?当前的神经机器翻译存在哪些优势又面临哪些挑战?带着这些问题,本次小牛翻译论坛的panel环节,在东北大学计算机学院人工智能系主任、小牛翻译CEO肖桐博士全程主持下,邀请了华为2021实验室文本机器翻译实验室主任杨浩博士、科大讯飞研究院机器翻译负责人张为泰博士、腾讯AI Lab高级研究员黄国平博士、金山集团副总裁&人工智能研究院院长李长亮博士、上海专信译腾总经理李进先生、昆明理工大学副教授毛存礼博士、澳门大学副教授黄辉博士、南京大学副教授黄书剑博士8位行业大咖,共话“机器翻译技术与产业的融合”。

—— Panel 环节 ——

问题1:现在机器翻译技术非常受关注,各种顶会论文铺天盖地。从实际应用的角度看,有哪些技术是最有潜力的,哪些技术可能会带来机器翻译应用新的突破甚至是颠覆性的突破?

黄辉:我个人接下来想去研究或者集中去探讨的就两个方面内容:一个是预训练模型,一个是NAT。我们都知道,预训练模型在其他自然语言处理的任务上是压倒性的,在刷新记录的模型里面也是基于预训练模型的居多。不过,我们尝试把预训练模型用在机器翻译中也确实碰到了一些问题,这个问题其实是在跨语言上。因为我们对这个预训练模型本身并不太了解,到底它里面隐藏了什么样的知识,可以让我们用在机器翻译上,目前来看都是有待挖掘的。我认为从这个方面来看,在翻译质量、翻译效果上可能会出现一个突破。当然,从学术角度来看,预训练模型还有很多障碍。比如,要跑一个预测模需要很大的计算量,这不是一般学校或者是小公司能做得起。但我相信,对一些大公司来讲,预训练的确会带来一些很大的变化。然后我们再来说说NAT,今天黄书剑老师也做介绍了,讲就是NAT的问题。就 Transformer 来讲的话,它在速度上已经比RNN 快了很多。但是我觉得,下一个可以再进一步推进的是NAT方面的工作。现在目前很多研究也发现NAT的效果也开始逼近AT这种模型架构。所以,从我个人来讲的话,这两方面我是比较关注的。

主持人:好,谢谢黄老师分享。我觉得就是您谈到的预训练的问题,我跟书剑老师在之前的一个前沿的技术论坛里面也提到了。那么,我们下面就请黄书剑老师也做一些简单的分享。

黄书剑:我挺同意黄辉老师的观点的。从提升翻译性能的角度,预训练模型是非常有前景的方向。虽然现在有企业说“我们有上亿的平行数据”,但是跟GPT-3比,它用到的单语数据还是小巫见大巫。所以我认为,如何能获得更多的跟翻译相关的信息(不管是单语还是双语的)才是翻译质量能进一步提升的重要方向。此外,另一个值得关注的点是,我们理解一句话其实很容易,但是如何在一个文档的上下文中理解整个句子的含义,或者文档当中特殊的含义,这个事情可能还得有更进一步的研究才能有突破性的进展。在应用上面更重要的一点也是我做了很久的事,就是怎么样把人引入到这个机器翻译的过程当中。也就是我们不是完全把这事儿扔给机器就结束了,而是我们要把这个翻译交给机器之后,还要关注这个机器它不能解决的问题,以及机器的质量控制等方面。从应用的角度来说,我觉得单纯讨论机器翻译技术本身的提高,只是应用提升突破的一个方向。如何在应用环节当中完成整个的翻译过程的链条,才是我觉得非常有意义的研究问题。

主持人:好的,谢谢书剑。那么,下面有请昆明理工大学的毛存礼老师做一些分享。

毛存礼:下面我给大家简单分享一下。昆明理工大学在面向南亚东南亚语言资源的建设、词法、句法分析、机器翻译方面开展了一些研究工作。上午报告中也提到了,机器翻译目前主流的做法是基于数据驱动提升系统性能,但是在南亚东南亚语言方面,最大的一个问题就是资源稀缺,这也是让我们比较苦恼的事情。尤其是我们在做越南语、缅甸语、老挝语、柬埔寨语等语言的翻译的过程中,相对中英的翻译来说资源受限很多。现在面临的问题就是如何在资源稀缺的情况下,很好地利用当前主流的架构达到理想的翻译效果。此外,我们在前期的工作中遇到很多特定领域的翻译需求,如果在资源稀缺的情况下再来分领域训练模型,可能会面临双语数据更加稀缺。再有就是模型迭代代价高问题,比如说,我们在东南亚语言这方面涉及到一些新的人名、地名、组织机构名等等,这些新的数据没有在训练数据中出现过,每次重新迭代新的数据,是不是就又要重新来迭代模型了,这样的话可能会导致代价非常的高。那么,如何在减少模型训练代价的前提条件下,将术语词典作为外部知识融入到模型中进而提升对专业词汇的翻译性能?这个是当前我觉得亟需解决的问题。我们也做过一些尝试,比如,把一些术语在训练之前以占位符的形式做一些替换,但新的问题又来了,在编码和解码的过程中,词语在上下文中是有实际意义的,给它替换成占位符之后出现了语义不确定性,最后在编码以后会导致翻译结果出现偏差。怎么来处理这种问题呢?也是亟待解决的。此外还有一种情况,我们的模型自身有一些数据,而一些特定的用户也有一些领域数据,双方又不能共享数据,能不能利用增量训练的一些方法,降低代价的同时,能有效提升翻译性能呢?这个也是我们在尝试做的一些工作。我就简单谈一下,后继后工作也希望各位老师能给一些指导。

主持人:好的,谢谢毛老师。今天几个老师都分享了一些特别前沿的问题,包括预训练模型、低资源、无监督的翻译模型,我觉得这些也是很值得探讨的问题。当然,从机器翻译技术来讲,这几年确实受到很多关注。但是从应用的层面上来看,我觉得机器翻译的实践和场景变得更多了。所以,下一个问题,可能是很多人都比较关心的问题。

问题2:机器翻译的应用场景很多,很多企业也纷纷加入到机器翻译实践中,有哪些场景机器翻译真正被大规模使用了,哪些机器翻译产品或者应用技术是最有潜(钱)力的?

李长亮:那么我先来谈一下,这两年我们在机器翻译产业化商业化过程当中,遇到的一些问题以及一些思考,哪些场景被真正被大规模使用并具有潜力、具有有这个市场价值。在我们金山这边,需求就是文档翻译,在wps文档上用户直接就有这个文档翻译的需求。特别是在这个疫情期间,关于疫情文档的翻译请求,提升了大概是两倍到三倍。每个月大概是一百万篇,每一篇文档有时候是一本书或者一篇论文,所以它的需求量是非常大的。在这个场景下,我们是真正感受到了机器翻译是具有商业价值的,能够带来很大营收的。我们也走过一些弯路,最早的时候接触过一些传统的人工翻译公司,起初谈得都很好,但是真正到深度合作的时候,就会发现一个问题,翻译公司不会轻易的把数据给你,而如果我们这些做机器翻译技术的服务提供商,没有足够的数据的话,又不可能真正的为客户解决问题。其实,机器翻译是在技术的进步是在挤压传统的人工翻译的生存空间,并且特别大的人工翻译公司,它会自己构建机器翻译团队,为什么他会自己构建机器翻译团队呢?是因为数据的安全性和保密性。前面几个老师都谈到了数据对机器翻译的重要性,而数据对翻译公司来讲又是他们的宝贵的一个资产,并且受条款合同保护的这么一个或者是约束的一个资产。所以,他不太会轻易的把这个资产给拿出来。所以在这个场景下,我觉得还有更多的探索需要去做。目前,在金山已经经过验证,是可以大规模使用并且具备商业价值的是文档翻译。

主持人:好的,谢谢李院长。李院长说得特别好,金山文档的处理包括翻译的场景非常多。我们在办公或学习的时候,也在用这个金山文档翻译,确实应用场景还是蛮多的。下面要分享的是华为的杨浩老师,我想华为涉及机器翻译场景应该有很多,请杨老师给大家分享一下,你觉得未来哪些机器翻译产品或应用技术最有潜(钱)力?

杨浩:下面我谈一下个人的理解,我们一方面是做免费的,或to C大家都能用的机器翻译,但是另一方面是真正有潜力(”钱力” )的,就是你有独特技术或者产品才能够持续迭代起来,to B面向领域的或者面向特定场景的机器翻译,我觉得这个需求是巨大的。比如说,在车的上面,在安全的领域,在这些特定的场景,并不是这种通用的情况,大家对错误的接受程度容忍程度是很低的,to B的有些场景下,它其实就是不能犯一些错误。而这种些错误是基于我们标准的 Transformer,甚至基于我们的预训练+finetuning模式是解决不了的。那么,我们就需要考虑两个问题,一个是我们如何去快速发现问题。第二个就是如何针对问题去做相应的(处理)。比如说,可能是利用领域定制方案去解决这个问题,就是在transformer 模型之上再去融合一些知识或者一些点去做,这是我觉得是一个很重要的方向。另外一个很重要的方向是用户交互,就是如何用好用户数据。我最早是做搜索的,第一个版本做的是类似于tf -idf 的文本相似性rank,第二个版本就是google的page rank,但是,当时真正在百度做的产生效果最明显的是第三个版本,也就是用户交互式的rank ,就是我们称之为点击调权的。说白了就是用户就是这个数据,哪个结果点得多满意度高,哪个结果应该往前排。最后是解决长尾的问题,就是如何把长尾的这些词聚合到相应热门词的上面,也就是如何用好用户的反馈或者称之为隐式行为反馈,这也是很有意义的一件事。我分享的就是这两个方面,一个是领域机器翻译产品有潜力,一个是如何做好用户隐式行为或者用户知识的蒸馏来持续闭环相关翻译问题的技术有潜力。

主持人:好的,谢谢杨老师。杨老师分享得很具体,我想领域这方面等后面李进李总也会有一些关于这方面的分享。那好,那我们下面我们有请网上粉丝特别多的国平,为大家分享一下。

黄国平:开始李长亮师兄提到,机器翻译现在一个很重要的应用场景是文档翻译这个结论我举四肢赞同。但是,我这边估计还要在前面加个限定词。我认为文章翻译也是有两类的,一种是大家随便翻译,一类是严肃文本翻译。严肃文本的定义很清楚,就是要最终发布或者是出版的,在这些场景当中的话,用户的付费意愿还是非常强烈的。现在很多客户对机器翻译的认知是非常到位的,甚至他们的了解差不多能达到一个普通本科生的水平。他们很清楚在哪些场景当中机器翻译能够做得很好。结合机器翻译的话,就能够把生产成本降低到一个用户觉得比较爽的程度,而且最终各方面能达到平衡。我认为机器翻译新产生的GDP,很有可能是在严肃文本的文档翻译上面。当然,说这个场景要把那个GDP揣到自己腰包里面,还是挺有难度的。首先,目前国内的机器翻译的文件翻译功能都还比较弱鸡,这是我仔细对比了国内各家对文档翻译的支持,包括李师兄的金山,百度、搜狗以及有道,目前都很难让人满意,尤其是在处理格式时,那个格式主要是聚类格式。比如说,一句话中间它有几个字是斜体,有几个是粗体,这种形式常常是翻译不好的。比如说,“今天天气很好”这句,我现在把天气加粗,接下来就麻烦了,因为机器翻译的结果不一定是“the weather is nice today” 它可能是翻译成“it's a nice day” ,在英文当中根本就找不到天气了,这时用户就会怀疑人生。这个情况靠译后处理是纠正不了的。目前我们也在想各种办法,让用户觉得机器翻译系统是可靠的,这也是我想分享的第二点,在机器翻译应用过程中,如何让用户觉得可靠。我觉得,这也是和应用意愿强烈相关的。能把上述两点结合起来,才是真正有前途的场景。也可以总结为,让用户觉得可靠的用于严肃译文的文档翻译的场景,这里面是有很大前景的。

主持人:好的,谢谢国平,我觉得国平说得特别实在,你提到的问题我们也遇到了,等会发言的几位老师也可以分享一下在实践中的经验。好,下面请咱们讯飞的张老师做一些分享。

张为泰:近几年机器翻译的变现能力确实在变大,主要也得益于神经机器翻译效果的显著提升,中英等丰富资源语种的机器翻译效果达到了可用的程度。我也经常看到朱老师在朋友圈对机器翻译市场有一些比较好的预期,个人也是很赞同。科大讯飞长期关注在语音翻译场景上,对于纯文本翻译的应用,用户经常会拿产品去跟谷歌、百度等老牌的免费接口比较,如果做不到一个非常好、有差异的效果,让大家去付费其实难度还是比较大的。个人来看,我认为有几个可能比较有前景的应用场景。一是,如刚刚黄博士和大家所谈到的,在文档翻译中,如果能在格式等翻译的前后处理上面能做得很好,大幅节省用户时间成本,那么用户会更容易去付费使用。另一个是会议场景的实时翻译,最近像skype、zoom、cisco等视频会议平台也在这方面做了不少工作,而且受到疫情的影响和数字化建设的推进,远程视频会议目前已经成为常态应用,在国际性的会议场景中,使用机器翻译来辅助跨语言理解和沟通未来预计也将成为标配,当然如果是一些较为重要的场景,那肯定还需要人工来去参与。第三个是类似翻译机、录音笔及扫描笔这样的离线嵌入式设备中翻译应用场景,这个场景目前的翻译需求量非常大,特别是有些用户对数据比较敏感,在保证翻译质量前提下,对更小的翻译模型和离线翻译提出更高的要求,这个场景我觉得也是未来一个比较重要的发展方向。最后一个,就是最近看到字节跳动和facebook 他们在做的AR翻译眼镜这个产品,我觉得也挺有意思的,值得关注。

主持人:好的,谢谢张博士的分享,那么,下面有请来自上海专信腾信息科技有限公司的李总为大家做一些分享。

李进:大家好!我来自上海专信译腾信息科技有限公司,我们公司一块重要业务就是专利文献翻译,下面我就结合我们的业务实践来谈谈机器翻译技术在这个细分领域中的应用。首先,从文本结构来讲,专利翻译是机器翻译一个非常好的应用方向。接触过专利文献的人都有体会,专利文献的语言具有比较强的一些特点。第一个就是包含非常多的固定表达方式,无论是在专利说明书还是权利要求、附图说明等部分都有非常明确的格式和表达要求;第二个专利文献中会有非常多的重复内容;第三就是由于专利文献是一个技术加法律的文件,所以行文非常的严谨,表达也很规范。从这三点来看,专利文献还是比较适合机器翻译大规模应用的。从实践和市场需求的反馈来看,在专利领域的机器翻译技术也有非常多的应用前景。首先,在专利创造的过程中,科研人员要进行多次检索,确定研发方向、研发思路和技术路线,从而规避已有专利,避免大量投入后的产出落入别人专利的保护范围发生侵权。在这个过程中,大量的多语种的专业文献都可能会涉猎,而且还有一个即时性的要求也非常高,人工翻译从成本和效率方面都很难解决这个问题,但是机器翻译在这一块目前已经有了非常多的应用。第二个是在申请过程中,专利撰写人员也要基于技术交底书进行检索,从而确定最终的保护范围,这个过程同样需要机器翻译帮助快速了解外文文献内容。此外,大家可能也都知道专利保护它是有地域性的,如果需要在多个国家进行保护,要对应提交不同语种的申请文本,这就需要进行精准的人工翻译。目前来看,在业界,MT+PE的这样一个模式越来越普及。对于我们来说,在一些相对比较简单的数据翻译项目中,也进行了一些相关应用,在降本增效方面上取得了不错的效果。第三个应用场景是在审查过程中,审查员同样要进行检索。基于检索结果,对申请文件进行三性的评价。在这个过程中,也必然会涉及要阅读不同语种的海量的专利文献。目前,国家知识产权局通过多次评测采购了我们和小牛联合开发的多语言机器翻译引擎,在试用中取得了很好的效果。此外,为了中国专利的海外传播需要,同时也是满足PCT最低文献量的需要,国家知识产权局每年都会将中国专利公开文献的部分内容翻译后和世界上的各个知识产权局进行交换。我了解到在其他国家,包括日韩等国家的知识产权局也都有类似的工作,我们国内也有一些翻译机构参与其中,在这个方面,也会带来大量的机器翻译以及PE方面的需求。那么,基于以上这四个应用场景,我想机器翻译在专利这样一个垂直领域中会有比较好的一些应用,而且,目前也已经得到一些初步的应用。当然还有一些问题,诸如缺译、漏译、术语不一致、命名实体如何去翻译等问题,还需要进一步解决。我就谈这么多吧,不对之处,还请大家批评指正。

听了嘉宾们对机器翻译热点问题的独到见解和观点你是否觉得意犹未尽?别急,下期NTF2021系列报道3 将为大家带来网友与专家之间精彩的Q&A互动环节大放送~赶紧Mark住,别错过哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

小牛翻译首部专著《机器翻译:基础与模型》出版发行

返回网易首页 下载网易新闻客户端
相关推荐
热点推荐
2盘仅赢3局!澳网8号种子0-2出局 郑钦文渔翁得利 升世界前4有戏

2盘仅赢3局!澳网8号种子0-2出局 郑钦文渔翁得利 升世界前4有戏

侃球熊弟
2025-01-22 12:31:51
原来这就是痞幼啊,我终于知道她长啥样了

原来这就是痞幼啊,我终于知道她长啥样了

黄丽搞笑小能手
2025-01-22 14:50:51
罗体:沃克签约后将立即加入合练,有望在与帕尔马一役中首秀

罗体:沃克签约后将立即加入合练,有望在与帕尔马一役中首秀

懂球帝
2025-01-21 21:18:25
A股,终于跌到位了,盘面上出现1个重要信号,明天行情将会这样走

A股,终于跌到位了,盘面上出现1个重要信号,明天行情将会这样走

价值投资者
2025-01-22 16:18:10
胜率77.3%!威少联盟第一,约基奇赌赢了,掘金底薪换5000万超巨

胜率77.3%!威少联盟第一,约基奇赌赢了,掘金底薪换5000万超巨

巴叔GO聊体育
2025-01-22 17:01:42
达协议!恒大足校命运揭晓:精英球员集体转会中乙新军 目标冲甲

达协议!恒大足校命运揭晓:精英球员集体转会中乙新军 目标冲甲

我爱英超
2025-01-22 18:26:10
美丽端庄的伊万卡,被闺蜜和保镖曝光黑料,揭开其不为人知的一面

美丽端庄的伊万卡,被闺蜜和保镖曝光黑料,揭开其不为人知的一面

暖心的小屋
2025-01-22 14:41:51
敢不敢爆自己的瓜?网友的分享一个比一个劲爆,太牛了

敢不敢爆自己的瓜?网友的分享一个比一个劲爆,太牛了

笑熬浆糊111
2025-01-22 00:06:46
亚洲第一巨舰即将服役,战力相当于2艘山东舰,能单挑美核航母

亚洲第一巨舰即将服役,战力相当于2艘山东舰,能单挑美核航母

小宇宙双色球
2025-01-20 07:47:58
回顾:95年百事可乐懵了,承诺700万分可换战机,一学生竟来真的

回顾:95年百事可乐懵了,承诺700万分可换战机,一学生竟来真的

白云故事
2025-01-16 10:40:03
曝朱亚文沈佳妮离婚,朱亚文深夜回应,全家福曝两人真实婚姻状态

曝朱亚文沈佳妮离婚,朱亚文深夜回应,全家福曝两人真实婚姻状态

叨唠
2025-01-22 01:01:29
冯德莱恩终于承认:放弃俄罗斯能源使欧盟付出了巨大代价

冯德莱恩终于承认:放弃俄罗斯能源使欧盟付出了巨大代价

财联社
2025-01-22 17:43:13
以色列将向乌克兰提供缴获的俄式武器!开启军援新阶段

以色列将向乌克兰提供缴获的俄式武器!开启军援新阶段

项鹏飞
2025-01-22 21:06:54
广州楼市全军覆没,广州楼市珠江新城房价从125000元跌至101000元

广州楼市全军覆没,广州楼市珠江新城房价从125000元跌至101000元

有事问彭叔
2025-01-22 19:27:20
BBC评选出世界十大营养食物,竟然是它们!

BBC评选出世界十大营养食物,竟然是它们!

书画艺术收藏
2025-01-22 19:15:03
2025款宝马X3太炸裂,今年要彻底炸场了!

2025款宝马X3太炸裂,今年要彻底炸场了!

沙雕小琳琳
2025-01-22 17:29:15
强援来袭!火箭正式报价内线悍将,或将引发三大连锁反应!

强援来袭!火箭正式报价内线悍将,或将引发三大连锁反应!

田先生篮球
2025-01-22 12:02:19
2025拜年祝福语,别再说“新年快乐”了,分享20句祝福语,不俗套

2025拜年祝福语,别再说“新年快乐”了,分享20句祝福语,不俗套

Lily美食谈
2025-01-21 00:16:34
邮报:澳波尝试拿掉孙兴慜和麦迪逊以立威,让热刺队内感到震惊

邮报:澳波尝试拿掉孙兴慜和麦迪逊以立威,让热刺队内感到震惊

直播吧
2025-01-22 15:30:15
NBA西部最新排名:掘金剑指第二,湖人逼近快船,2-6名差距缩小

NBA西部最新排名:掘金剑指第二,湖人逼近快船,2-6名差距缩小

篮球大视野
2025-01-22 16:23:16
2025-01-23 00:51:00
小牛翻译
小牛翻译
致力于机器翻译研究和应用
28文章数 20关注度
往期回顾 全部

科技要闻

5000亿"星际之门"?马斯克泼冷水:他们没钱

头条要闻

特朗普称若金砖国家想摆脱美元将收100%关税 中方回应

体育要闻

韩国的新规,柯洁的习惯,中国的申诉

娱乐要闻

朱亚文晒婚戒霸气回应婚变,好真实

财经要闻

陈欣:特朗普家族热衷发加密货币背后

汽车要闻

10万元级无图智驾 悦也PLUS全路况实测

态度原创

家居
房产
健康
亲子
教育

家居要闻

法式轻奢 高效利用空间

房产要闻

2025海口第一波房价开出:一批楼盘,悄悄提价!

抑郁症患者称好的“乌托邦”宝地

亲子要闻

捕捉到一个干饭小公主,肉乎乎的,好可爱,网友:福气满满的小宝贝

教育要闻

先别说难了,别一看到题目就发晕