IBM的人工智能可执行最先进的广播新闻字幕

VR/AR
2019
05/15
17:39
venturebeat
分享
评论

两年前,IBM的研究人员声称,他们用机器学习系统训练了两个公共语音识别数据集,取得了最先进的转录性能。人工智能系统不仅要应对训练语料库音频片段的失真,还要应对一系列的演讲风格、重叠的演讲、中断、重启和参与者之间的交流。

为了开发一种更强大的系统,这家总部位于纽约阿蒙克的公司的研究人员最近在一篇论文中设计了一种架构,该论文名为《人类和机器对英语广播新闻语音识别》(English Broadcast News Speech Recognition by Humans and Machines),将于本周在布莱顿举行的声学、语音和信号处理国际会议上发表。他们说,在初步实验中,它在播放新闻字幕任务上取得了行业领先的结果。

做到这一点并不容易。该系统本身也面临着一系列挑战,比如带有大量背景噪音的音频信号,以及主持人就各种新闻话题发表演讲。虽然大部分培训语料库的演讲都很清晰,但其中包含了现场采访、电视节目剪辑和其他多媒体内容等材料。

正如IBM研究人员Samuel Thomas在一篇博客文章中所解释的那样,人工智能利用了长短时记忆(LSTM)(一种能够学习长期依赖关系的算法)和声学神经网络语言模型,以及互补的语言模型的组合。声学模型包含多达25层的节点(模拟生物神经元的数学函数),它们通过语音谱图或信号频谱的视觉表示进行训练,而六层的LSTM网络学习了“丰富”的各种声学特征,以增强语言建模。

在为整个系统提供1,300小时的广播新闻数据后,研究人员将人工智能放进了一个测试集,测试集包含6个节目的两个小时数据,总共有近100名重叠的演讲者。(第二个测试集包含12个节目的四个小时广播新闻数据,大约有230名重叠的演讲者。)该团队与语音和搜索技术公司Appen合作,对语音识别任务的识别错误率进行了测量,并报告说,该系统在第一组测试中达到6.5%,在第二次测试中达到5.9%,比人类的表现略差一些,分别为3.6%和2.8%。

托马斯写道:“(我们的)新结果……是我们在这项任务中所知的最低水平,(但)在这个领域仍有新技术和改进的空间。”

原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/

来源:venturebeat

THE END
广告、内容合作请点击这里 寻求合作
VR
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

VR Cover是一家领先的头显配件公司,生产一些高品质的面部护罩和其他配件,以改善舒适度和卫生。Oculus Quest将于下周5月21日发布,他们当然也在准备推出一系列新产品。
VR
英特尔处理器再曝新的安全漏洞,它允许黑客窃取处理器最近访问过的任何数据。即使在云计算服务器上也是如此,这可能帮助黑客从运行在同一台PC上的其他虚拟机上窃取信息。
VR
旧金山监事会以8:1的投票通过一项法令,禁止警察和其他政府机构使用人脸识别技术。
VR
华为今日向全球发布了人工智能原生(AI-Native)数据库GaussDB和分布式存储FusionStorage 8.0。华为常务董事、ICT战略与Marketing总裁汪涛表示,人类正在进入智能时代,数据成为新的生产资料,智能成为新...
VR
前段时间小编发了一篇VR面罩的文章,近日,Feelreal这款头显就将适配《亚利桑那阳光》,这款游戏可以说是一款非常出名的丧尸类型VR游戏。
VR

相关推荐

1
3