您现在的位置是:首页 > 人工智能人工智能
Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!
cc博主2022-10-28【人工智能】296人已围观
作者 | 李梅
编辑 | 陈彩娴
机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而,在世界现存的 7000 多种已知语言中,许多低资源语言还未得到足够的关注,尤其是有近一半的语言没有标准的书面系统,这是构建机器翻译工具的一大障碍,所以目前 AI 翻译主要集中在书面语言上。
在利用 AI 推动自然语言翻译这件事上,Meta 一直致力于“No Language Left Behind”(没有一种语言被落下)的目标。
比如汉语方言之一闽南话,现在也有了专属的机器翻译系统,讲闽南话的人可以与讲英语的人进行无障碍对话了。
这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译系统。来听听这项工作的负责人、Meta AI 研究员 Peng-Jen Chen 与小扎的对话,Chen 出生于中国台湾。
视频见:https://mp.weixin.qq.com/s/38dd-zUEtQkl2woo28wNjQ
该系统可以将闽南话的语音翻译成英语语音,反之亦可。会讲闽南话的读者可以来检验一下,是不是翻译效果还挺不错?
据了解,这个开源翻译系统是 Meta 的通用语音翻译(UST) 项目的一部分,该项目致力于开发新的人工智能方法,帮助实现所有现存语言的实时语音到语音的翻译。目前,Meta 已经开源了该翻译模型和评估数据集,研究论文如下:
论文地址:https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf克服训练数据的挑战
闽南话是汉语方言之一,是一种低资源语言,没有标准的书写系统,人工的英语到闽南话翻译人员也相对很少,所以为模型收集和标注训练数据就变得更加困难。
图注:讲闽南话(Hokkien)的人的数量
为此,来自 Meta AI 的研究团队采用了一种特殊放方案,利用汉语普通话(属于高资源语言)作为中间语言来构建伪标签和人工翻译。他们首先将英语(或闽南话)语音翻译成普通话文本,然后再翻译成闽南话(或英语)并将其添加到训练数据中。这种方法通过利用来自类似高资源语言的数据,极大地提高了模型性能。
语音挖掘是训练数据生成的另一种方法。使用预训练的语音编码器,能够将闽南话语音嵌入编码到与其他语言相同的语义空间中,所以闽南话没有书面形式也不造成问题。闽南话语音可以与语义嵌入相似的英语语音和文本对齐,然后从文本中合成英语语音,产生并行的闽南话和英语语音。
图注:无需人类标注的语音翻译模型
新的建模方法:语音到语音
许多语音翻译系统都依赖转录或者是语音到文本的系统。但是,闽南话的形式主要是口语,缺乏标准的书面文字系统,无法转录成文本作。所以,Meta 所构建的是一个语音到语音的翻译系统。
研究人员使用语音到单元(speech-to-unit,S2UT)翻译,将输入语音直接翻译成一系列的声学单元,这也是 Meta 先前最早开创的一种路径。然后,从这些声学单元中生成波形。此外,研究人员还采用了 UnitY 作为双通道解码机制,第一通道解码器生成相关语言(即汉语普通话)的文本,第二通道解码器创建单元。
图注:UnitY 模型架构
新的准确性评估系统
语音翻译系统的评估工具通常是 ASR-BLEU 指标,该指标首先使用自动语音识别 (ASR) 将翻译后的语音转录为文本,然后将转录文本与人工翻译的文本进行比较,计算 BLEU 分数。
但要评估闽南话的语音翻译系统,难处还是在于它没有标准的书面文字系统。所以,为了实现自动评估,研究人员开发了一个系统,将闽南语语音转录为一种称为 Tâi-lô 的标准化注音符号。这样就能在音节的层面上计算 BLEU 分数,从而比较不同方法的翻译质量。
除了开发这种评估闽-英语音翻译的方法外,研究人员还基于闽南话语料库 Taiwanese Across Taiwan,创建了第一个闽-英双向语音到语音翻译基准数据集。该基准数据集将开源,以方便更多研究人员从事闽南话语音翻译工作。
不止闽南话
这项工作所用技术可以进一步扩展到许多其他书面和非书面语言。
为此,Meta 还发布了 SpeechMatrix,它是一个大型的语音到语音翻译语料库,使用了 Meta 的创新数据挖掘技术 LASER, 从欧洲议会录音的真实演讲中挖掘数据。该数据库包含 136 种语言对的语音对齐,共 41.8 万小时的语音。挖掘的数据和模型都是免费的,研究人员可以创建自己的语音到语音翻译 (S2ST) 系统。
图注:LASER 挖掘获得的语音到语音成对数据
Meta 在无监督语音识别 ( wav2vec-U ) 和无监督机器翻译( mBART )方面的研究进展,也为口语翻译工作提供了支持。比如用于预训练语音模型的无监督域自适应技术,提高了下游无监督语音识别的性能,尤其是对于低资源语言,在没有任何人工标注的情况下,可以构建高质量语音到语音翻译模型。
该模型仍在不断推进中,目前一次只能翻译一个完整的句子,但这迈出了未来实现语言间同声传译的一步。
据 Meta AI 的研究员 Peng-Jen Chen 说,这个闽南话翻译系统其实有一部分是出于他的一个私人心愿。他在中国台湾长大,同时会讲普通话,但是他的父亲普通话不好,他希望他的父亲能够用闽南话与每个人都顺畅地交流。这也是 AI 之于人类的意义之一。
参考链接:https://ai.facebook.com/blog/ai-translation-hokkien/
更多内容,点击下方关注:扫码添加 AI 科技评论 微信号,投稿&进群:雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
Tags:
相关文章
- Marvell传出大规模裁员中国区员工,赔偿方案曝光;羊了个羊清仓式分红10亿,股票涨停;马斯克抱水槽现身推特大楼丨雷峰早报
- 三六零发布三季报 充裕现金流保障数字安全战略发展
- 华为平板走出独特高端化之路,最新品牌视频展现“没得怕的”底气
- 小火箭翻墙怎么用,“小火箭”(Shadowrocket)最全使用教程
- 最新小火箭shadowsock节点下载-v2ray机场推荐2022-每日更新(10/27)
- 已购小火箭id账号共享2022-免费美国小火箭ID分享
- 怎么用ssr在手机上翻墙,手机ssr怎么用
- ssr服务器订阅失败怎么办_服务器订阅更新失败
- ssr订阅地址怎么使用-安卓ssr无法添加订阅
- ssr加速器有什么功能?ssr节点怎么用?
热门文章
- 香港VPS低至6折93元/年,全场8折,香港CN2,洛杉矶CN2 GIA,洛杉矶9929,洛杉矶CMIN2,日本大阪/东京IIJ,日本BGP,韩国BGP,英国伦敦AS9929住宅IP
- 低至4折,2核4GB内存VPS/GPU独服 $2.99/月起,GPU VPS/GPU专用服务器 $13/月起,物理专用服务器$29/月起,可免费试用
- MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷
- 知乎直答亮相“学术酒吧”开放麦,李开复、刘知远相聚“AI上头俱乐部”
- 美国/香港VPS年付99元起,双核/2GB/15GB SSD/500GB流量@100Mbps带宽
- 国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」
- RISC-V要成为「显性」技术,到了关键时期
- 英伟达CFO称Blackwell需求量惊人,已向合作伙伴发出1.3万个样片
- 英伟达SC24六大技术亮点,不止加速超算500强
热评文章
「11月18日」2024年V2ray/Clash/SSR/Shadowrocke泰国-新加坡免费节点
MIT 热门研究:AI 工具“带飞”科研,但也严重加速内卷
国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」
知乎直答亮相“学术酒吧”开放麦,李开复、刘知远相聚“AI上头俱乐部”
黄仁勋亲述创业故事:两次都差点倒闭
低至4折,2核4GB内存VPS/GPU独服 $2.99/月起,GPU VPS/GPU专用服务器 $13/月起,物理专用服务器$29/月起,可免费试用
RISC-V要成为「显性」技术,到了关键时期
香港VPS低至6折93元/年,全场8折,香港CN2,洛杉矶CN2 GIA,洛杉矶9929,洛杉矶CMIN2,日本大阪/东京IIJ,日本BGP,韩国BGP,英国伦敦AS9929住宅IP
英伟达SC24六大技术亮点,不止加速超算500强
美国/香港VPS年付99元起,双核/2GB/15GB SSD/500GB流量@100Mbps带宽