赢8娱乐|赢8国际|赢8娱乐下载安装

 找回密码
 立即注册

对话搜狗口语机器翻译团队:国际冠军的诞生

2019-1-21 21:16| 发布者: D7Fe7EEUTYyRZJU| 查看: 25| 评论: 0

摘要:   继2017年摘取国际顶级机器翻译评测大赛桂冠之后,搜狗又一次在国际大赛拔得头筹,且是在更为前沿的口语机器翻译领域。近日,国际顶级口语机器翻译评测大赛(International Workshop on Spoken Language Translat ...

  继2017年摘取国际顶级机器翻译评测大赛桂冠之后,搜狗又一次在国际大赛拔得头筹,且是在更为前沿的口语机器翻译领域。近日,国际顶级口语机器翻译评测大赛(International Workshop on Spoken Language Translation,以下简称IWSLT)落下帷幕。搜狗击败讯飞、阿里巴巴, APPTEK(美国应用科技公司)、AFRL(美国空军研究实验室)以及KIT(德国卡尔斯鲁厄理工学院)等国际国内多个强劲对手,一举夺得了2018年IWSLT大赛Baseline Model(基线模型)赛道冠军。

  今年的比赛包括两个主要任务,一是英语到德语演讲场景下的语音翻译任务,二是巴斯克语到英语的低资源文本翻译任务。其中,英语到德语演讲场景下的语音翻译任务又分为Baseline Model(基线模型赛道)和End-to-End(端到端赛道)两个赛道。

  由于必须使用大赛提供的数据重新训练语音识别模型和机器翻译模型,搜狗语音团队也花费了不少时间和心力。大赛提供的语音数据大概有500小时,搜狗语音团队首先是做了数据增广,调整语速、降噪、增强之类,最终把数据大小提高了3倍。团队用单机多卡机器做语音识别模型训练,训练一个模型需要两到三天的时间。在翻译方面,大赛提供了大概有六千万到七千万序列的双语平行数据,搜狗投入了10-15台八卡机器做模型训练,每训练一个模型需要花4-5天时间,一共做了多轮的模型迭代更新才得到最佳的效果。

  据雷锋网了解,搜狗目前的AI同传、搜狗翻译宝、录音翻译笔等产品都采用了Baseline Model解决方案。搜狗也认为Baseline是业内最主流、效果最好的语音翻译解决方案,市场上商用机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法。

  在陈伟来看来,目前国内公司在语音识别技术上相差不大,搜狗的语音识别技术处于业内顶尖水平,机器翻译技术则有更大的领先优势。在口语机器翻译这个领域,并不是看语音识别技术或者是机器翻译单方面有多强,而是要看公司是否能处理好细节,将两个环节融合在一起。搜狗在不断的产品落地中已经积累起领先于行业的细节处理能力,能真正做好口语机器翻译和AI同传。

  本次IWSLT大赛还增设了End-to-End赛道,其采用基于神经网络的端到端语音翻译解决方案,输入语音后基于深度神经网络模型直接输出译文。目前业内有观点认为End-to-End代表着更前沿的探索,是语音翻译的新思路和新方向。

  近两年,搜狗已经建立起以语言为核心的长远AI战略,核心产品围绕输入法、搜索、同传和翻译。2016年,搜狗将语音识别与机器翻译技术相结合,推出了全球首款商用AI同传系统-搜狗同传,引领了语音翻译技术的普及与应用。

  在语音识别领域,与一些老牌厂商比,搜狗是后来者。但是从目前已经取得的成绩来看,搜狗已经抹平了时间上的差距,搜狗是如何做到的呢?陈伟谈到:从80年代一直到2010年的这二三十年时间,语音识别的流水线很长,老牌语音识别公司在调节参数、模型训练方面有很强的壁垒,然而深度学习技术应用后,相当于推倒重开,在这样的情况下,整个行业后入者有很好的机会,大家可以快速地弯道超车。搜狗在数据和人才储备上都不输给老牌语音公司,搜狗也是一家C端公司,很注重技术与产品的结合,细节可以做到很极致。有数据、有场景,有技术,搜狗就没有理由做不好语音识别和翻译。

  在AI同传取得成功之后,搜狗也推出了一系列的智能硬件,例如具备离线翻译和拍照翻译功能的搜狗旅行翻译宝;搜狗录音翻译笔,提供录音转写、对话翻译、同声传译等功能,把AI同传落地到了消费级产品之中,开拓了语音翻译的新航道。搜狗也正在跟VIVO、OPPO等手机厂商合作语音翻译的技术合作,将在线和离线的翻译能力在智能手机上上线。

  除此之外,搜狗语音团队也在致力于多模态语音语义技术的探索。在近两天的乌镇世界互联网大会上,搜狗与新华社合作开发的全球第一个“AI合成主播”正式亮相,只用输入新闻文本,AI合成主播就能用和真人一样的声音进行播报,而在播报的过程中唇形、面部表情等也能与真人主播完全吻合,效果惟妙惟肖。

  据雷锋网了解,AI合成主播的技术被称为“搜狗分身”,该技术能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。这项技术让机器首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。

  从IWSLT大赛到“AI同传”再到“搜狗分身”,我们看到搜狗语音团队在基础技术与应用落地两方面的优异成绩,期待这样一个稳扎稳打的团队带给我们更多的惊喜。


鲜花

握手

雷人

路过

鸡蛋

最新评论

赢8娱乐|赢8国际|赢8娱乐下载|yingbayule.com  

GMT+8, 2019-6-25 22:23 , Processed in 0.081863 second(s), 16 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部