您现在的位置是:首页 > 人工智能人工智能

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平

查看 cc博主 的更多文章cc博主2022-09-23【人工智能】362人已围观

作者 | 黄楠

编辑 | 陈彩娴

9月21日,OpenAI 发布了一个名为「Whisper 」的神经网络,声称其在英语语音识别方面已接近人类水平的鲁棒性和准确性。

「Whisper 」式一个自动语音识别(ASR)系统,研究团队通过使用从网络上收集的68万个小时多语音和多任务监督数据,来对其进行训练。

训练过程中研究团队发现,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。

此前有不同研究表明,虽然无监督预训练可以显著提高音频编码器的质量,但由于缺乏同等高质量的预训练解码器,以及特定于数据集中的微调协议,因此在一定程度上限制了模型的有效性和鲁棒性;而在部分有监督的方式预训练语音识别系统中,其表现会比单一源训练的模型呈现出更高的鲁棒性。

对此,在「Whisper 」中,OpenAI 在新数据集比现有高质量数据集总和大几倍的基础上,将弱监督语音识别的数量级扩展至68万小时;同时,研究团队还演示了在这种规模下,所训练模型在转移现有数据集的零射击表现,可消除任何特定于数据集微调的影响,以实现高质量结果。

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第1张图注:方法概述

在许多不同的语音处理任务中训练一个序列到序列的转换器模型,包括多语言语音识别、语音翻译、口头语言识别和语音活动检测;所有任务都表示为要由解码器预测的标记序列,允许单一模型取代传统语音处理管道的不同阶段;多任务训练格式使用一组特殊的标记,作为任务指定者或分类目标

Whisper 架构采用一种简单的端到端方法,通过编码器-解码器 Transformer 来实现:输入音频被分成30秒的块,转换成 log-Mel 频谱图后传递到编码器。解码器可预测相应的文本标题,并与特殊标记混合,由这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第2张

图注:Whisper 架构

值得一提的是,由于「Whisper 」是在一个庞大且多样的数据集上进行,没有针对任何特定的数据集进行微调,因此它不会击败专门研究 LibriSpeech 性能的模型。

此外研究团队还发现,当在许多不同的数据集上测量「Whisper 」的零样本性能时,「Whisper 」相比其他模型表现更加稳健,错误率降低了 50%。

除了足够大的数据集规模外,「Whisper 」还支持多种语言的转录,以及将这些语言翻译成英语。

当前在68万小时音频中,共11.7万个小时覆盖了96中其他语言,还包括12.5万个小时的转录和翻译数据,即大约有三分之一是非英语的。

「Whisper 」会交替执行以原始语言转录或翻译成英语的任务,对此研究团队发现,这种方法在学习语音到文本的翻译方面特别有效,并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。

目前,「Whisper 」已开源,可用于对语音识别方面的进一步研究。

OpenAI 创始人 Ilya Sutskever 对此表示,“终于有一个能理解我说话的可靠的语音识别系统。”

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第3张

前特斯拉人工智能和自动驾驶部门负责人 Andrej Karpathy 也转发了这一消息称“OpenAI 正处于最好的状态中”。

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第4张

但对使用 Whisper 上,有不少用户也还存在疑虑。

网友 Vincent Lordier 提出,“此前在 GTP-3 和 Dalle-2 中出现对相关言论禁止行为,是否在使用 Whisper 时也会有, 是否会出现 Whisper 编辑/删除用户语音的情况?”

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第5张

那么大家怎么看?

参考链接:https://openai.com/blog/whisper/

更多内容,点击下方关注:扫码添加 AI 科技评论 微信号,投稿&进群:

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第6张OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第7张

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平 第8张

Tags:小火箭免费节点公众号

文章评论

猜你喜欢

  • 百度“推广”标注“广告”

    站长动态百度“推广”标注“广告”

      《互联网广告管理暂行办法》于9月1日实施,该办法明确规定,互联网广告应当具有可识别性,显著标明“广告”,使消费者能够辨明其为广告。  经过搜索发现,百度已经将付费搜索结果由“商业推广”标注为“广告”。而就在一天之前,百度付费搜索仍显示为“商业推广”。36...

    查看 cc博客 的更多文章2022-08-03330人已围观

    阅读更多
  • 阿里云国际版&腾讯云国际版,仅需邮箱即可注册,支持USDT付款

    服务器评测阿里云国际版&腾讯云国际版,仅需邮箱即可注册,支持USDT付款

    阿里云国际版和腾讯云国际版的服务器,不少人是冲着免实名、免备案这一优势来的,前期注册也非常简单,一个国外的手机号(网上平台即可购买)和邮箱号即可按照步骤注册完成,但是到了购买产品支付费用的时候,就是大多数用户所面对的困难点,目前官方支持的支付方式有四种:Pay...

    查看 cc博客 的更多文章2022-07-13426人已围观

    阅读更多
  • “网红”卢克因种族歧视在非洲被捕

    科技动态“网红”卢克因种族歧视在非洲被捕

      中国“网红”卢克在非洲国家马拉维诱骗当地儿童,用中文喊出种族歧视口号,并拍成影片在网络贩售。上周,BBC《非洲之眼》(Africa Eye)节目的报道曝光了他的种种剥削行径后,卢克遭马拉维警方通缉,并在邻国赞比亚东部城市奇帕塔被捕。  根据BBC的...

    查看 cc博客 的更多文章2022-06-26393人已围观

    阅读更多
  • 最新免费ssr飞机场网站,v2rayng免费节点每天更新6月22日

    技术好文最新免费ssr飞机场网站,v2rayng免费节点每天更新6月22日

    最新免费ssr飞机场网站,v2rayng免费节点每天更新,今日周三,为大家提供最新白嫖ssr节点及v2ray节点链接分享账号链接付费节点点击右侧栏目图。资源在2022年6月22日17点更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源,并尽最大努力...

    查看 cc博客 的更多文章2022-06-224032人已围观

    阅读更多
  • 软件开发的「两全」其美:全自动 全栈式

    业界软件开发的「两全」其美:全自动 全栈式

    作者丨何思思编辑丨林觉民企业家、CTO经常会思考一个问题:数字化转型的重要支撑是什么?有人说重在解决方案的选择,有人说贵在运营思维的转变,而无论是什么,最终的落地则是软件的搭建和使用。但现实是,程序员的工作变得愈加繁忙,写不完的代码,沟通不完的流程,...

    查看 cc博客 的更多文章2022-05-25321人已围观

    阅读更多

   有免费节点资源,我们会通知你!  加入纸飞机订阅群  

×
天气预报查看日历分享网页电报扫码留言评论电报频道链接