腾讯云小微技术登顶权威榜单XTREME基准,跨语言技术迁移开发助力企业出海

来源:今报在线时间:2022-06-11 16:32:00

近日,腾讯云小微提出的多语言预训练模型“神农MShenNonG”以平均分85分的成绩登顶XTREME榜单。与此同时,该模型仅包含5亿级别的小参数量,也一举刷新业界记录。据了解,该榜单是目前最受国内外行业公司认可的多语言评测榜单,研究人员以多语言预训练模型在此榜单的表现作为其跨语言迁移能力的评价标准。目前,全球有超过6900种语言,其中大多数语种都没有足够的数据支撑研究者将其单独训练成成熟模型。腾讯云小微深耕知识挖掘、语义理解技术以及预训练技术,“神农MShenNonG”此次登顶XTREME榜单,代表了其从单语言到多语言理解能力的一个显著扩展,将跨语言迁移开发由市场平均的月级降低至10天。同时,“神农”系列的预训练模型已应用于云小微全系列产品矩阵,可显著提升AI语音助手、智能客服机器人、数智人等产品的多项技术指标,助力出海企业快速落地本地化服务。 刷新行业记录,跨语言迁移开发周期缩短至10天 凭借对自然语言应用程序等领域发展研究的积极作用,XTREME榜单备受业界认可。由于大多数的NLP预训练模型主要为中文、英文等高资源语种,低资源小语种的研究并未得到足够重视。2020年,来自 CMU、谷歌研究院和 DeepMind 的科学家们提出了覆盖四十种语言、横跨了12个语系的大规模多语言多任务基准 XTREME,其中包含了9项需要不同句法或语义层面进行推理的任务,并可以为语句文本分类、结构预测、语句检索和跨语言问答等自然语言处理任务提供有效支持。

 

此次登顶XTREME榜单,主要是由于“神农MShenNonG”在以下三个不同维度做了创新性的尝试。

 

首先,在数据层面,预训练模型的训练数据主要由两种形式的数据构成:单语种句子和双语平行句对。此前的模型处理方法是,对于单语种句子,单纯地将单语种信息输入模型,并以MLM作为训练目标,非常依赖相似语系之间“共享词”的预测来建模各语言间的语义对齐关系;对于平行句对,又依赖平行语料的规模和组合,模型对其对齐关系的建模存在一定缺陷。为缓解以上问题,腾讯云小微研究团队提出了基于混合编码的数据构造方式,分别利用双语对齐词典和句子检索工具,构造大量的“多语言混合”训练数据。其次,在模型层面,研究团队提出了一种可插拔的、基于多尺度的多语言信息融合模块,分别从词级别和句子级别多个尺度融入多语言信息,期望在训练过程中,加强所有语种的词向量的更新和对齐,解决多语言模型对低资源语种、低频次词汇建模较弱的问题。第三,在训练方式上,研究团队分别通过语种层面和语义层面引入对比学习策略,使得相同语义的表示相互拉近,不同语义的表示相互远离,进一步强化多语言预训练模型对于多语言的语义建模能力和语义匹配能力。值得注意的是,研究团队重视多尺度的多语言的一致性建模,以强化预训练模型的跨语言迁移能力,并将跨语言迁移开发由市场平均的月级降低至周级,同时,相较市场平均1个月以上的模型迭代周期,“神农MShenNonG”仅需10天。 多次登顶权威榜单 神农以技术优势探索出海场景 “神农MShenNonG”登顶XTREME榜单,依托于腾讯云小微团队技术研发和行业知识的长期积累。此前,腾讯云小微的中文预训练模型ShenNonG就以十亿级参数量一举登顶CLUE总排行榜、1.1分类任务、阅读理解任务和命名实体任务四个榜单,刷新行业记录。专注于语义理解技术以及预训练技术的研发,此次登顶XTREME榜单代表了腾讯云小微从单语言到多语言理解相关技术的一个扩展。目前,“神农”系列的预训练模型已应用于全系列产品矩阵,可显著提升AI语音助手、智能客服机器人、数智人等产品的多项技术指标。随着开发的不断成熟,优势产品向海外拓展成为不少国内企业的选择。但产品出海通常要面临适应新语种、业务本地化的挑战。过往,以机器翻译的方式将单语种迁移到多语言场景,不仅费时费力,效果也差强人意。相对于传统的机器翻译模式,腾讯云小微“神农MShenNonG”预训练模型有着低成本、低门槛的优势,以轻量参数为多行业、小语种提供跨语言迁移服务,助力企业降本增效,落地出海业务。未来,腾讯云小微团队还将持续深耕知识挖掘和深度学习技术,探索更多技术落地场景,以科技助力各行业的企业更好地服务用户,为社会创造更多价值。来源:北国网免责声明:本文来源于网络,仅代表作者本人观点,与TechWeb无关。凡来源非TechWeb的新闻(作品)只代表本网传播该消息,并不代表赞同其观点。TechWeb对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任

 

关键词:

相关阅读

推荐阅读

银鹏控股公司:业务交流促提升互学互鉴共进步|世

3月2日,银鹏控股公司董事长刘懿婷带队前往中粮集团期货公司进行业务学习和交流。中粮期货公司从业多年、具有丰富实战经验的风险管理专家现场更多

2023-03-07 17:52:41

我国首个万吨级钠离子电池材料项目在山西综改区开

山西晚报讯(记者温丽芳通讯员张晓茹)日前,总投资约11亿元的山西华钠铜能(碳能)科技有限责任公司万吨级钠离子电池正(负)极材料项目在山更多

2023-03-07 11:51:14

建行阳江市分行:践行金融惠民理念-全球关注

2月24日,随着客户办妥抵押登记手续并成功放款,标志着阳江市建行 "带押过户 "业务取得历史性突破。根据中国人民银行发布《关于鼓励推广二手房更多

2023-03-07 11:53:21

焦点简讯:证监会同意三超新材向特定对象发行股票

中证网讯(记者昝秀丽)证监会网站3月6日消息,证监会发布关于同意南京三超新材料股份有限公司向特定对象发行股票注册的批复。【来源:中国证更多

2023-03-07 09:57:39

美股航空股6日全线走低

中证网讯(记者赵中昊)当地时间周一(3月6日),美股航空股全线走低。据wind数据,截至收盘,波音跌1 49%,美国航空跌1 47%,达美航空跌1%,更多

2023-03-07 09:43:44

世界热资讯!晋钢控股集团荣登2022山西省品牌十强

近日,“品牌强国(龙城)论坛”在太原举行,发布“2022中国上市公司品牌500强”以及“2022山西省品牌100强”。晋钢控股集团以218 9亿元的品牌更多

2023-03-06 17:38:52

手绘报告:2023预期目标

【来源:中国政府网】声明:转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明发至邮箱newmedia@xx更多

2023-03-06 16:46:31

惠州首笔数字人民币缴纳税费业务成功落地

3月1日,TCL科技集团财务有限公司拿到了全市第一张使用数字人民币账户缴纳税款和非税收入的完税凭证,标志着惠州市首笔数字人民币缴纳税费业务更多

2023-03-06 11:50:50
    首套房公积金利率下调原来贷款也下调吗首套房公积金利率下调原来...
    政府回购商品房意味着什么政府收购商品房的首要目的是稳定市场。...
    把自己房子卖了再买算首套房吗买过一套房卖了再买算首套房。简单...
    买房交首付注意事项有哪些1、核实开发商五证。在交首付时,需要先...
    房屋契税征收比例契税税率的缴纳一般分为以下几种情况:1、面积小...
    房山区住建委近日发布《房山区2022年第二批毕业大学生对接保障性...

关于我们 Copyright   2015-2022 当代财经网  www.ddcjw.cn 版权所有  备案号:京ICP备2021034106号-19  联系邮箱:55 16 53 8 @qq.com