最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
夏乙 发自 麦蒿寺
第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。
所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。
一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。
其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。
最后,附上传送门~
GitHub地址:
https://github.com/facebookresearch/wav2letter
论文:
wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完—
好看吗?↘↘↘
相关文章
-
产品经理和设计沟通的正确打开方式
-
苹果将推高端三摄iPhone 二代XR升级双摄
-
华为打算明年出5G折叠手机,这是要和三星“正面刚”的节奏?
-
在VR/AR上加快步伐的华为,开发者应该如何把握机会?
-
没有华为的《财富》中国500强迷局:京东称大王,美团巨亏1155亿
-
跟风者陈一舟 怎样一步步丢了人人网
-
“快手家族”成与败:一年10款APP,孵化易,运营难
-
沃尔玛信息回复新出功能-“NoResponseNeeded”
-
最前线丨脉脉、音遇等大批社交软件iOS版下架,或因违反苹果支付规范
-
决不能错过!为推广银联云闪付功能,中国银联推出超级福利活动
-
喜加一:Epic免费领取《装机模拟器》,下周送《僵尸斯塔布斯》
-
为加密货币行业正名,乌克兰制定四年监管计划
-
e成科技融资成功,不做中国版Workday而是要重新定义HRSaaS
-
广东省车联网产业联盟岳浩副主席出席中国(宁波)车联网产业发展大会
-
你以为“偷”看成人网站,别人不知道?其实早已人尽皆知
-
硅谷早知道S4E26|对,我们又和开发者聊了聊今年的WWDC
-
数字化转型开启2.0时代,京东云的突破与裂变
-
LTC≠CRM——两者关系浅谈
-
中国首个AI短视频生成平台新华社造!一条新闻视频只需6秒
-
6大要点!数字化转型服务商如何提升企业客户体验?
-
Dueros设备激活超2亿,百度AI一骑绝尘领跑行业
-
欧洲科学院院士、奥地利国家科学院院士迪特•斯马尔斯逖克:VR和AR的价值链都从现实世界开始
-
五大云巨头:亚马逊称霸全球,阿里云能追赶AWS吗?
-
谁才是最受欢迎的视频会议软件?就一分钟,求投票
-
路透社:高通英特尔等美国芯片巨头,正组团游说放宽限制华为
-
玩家EA账号创建原始邮箱被改,EA账号频繁多次被盗的安全问题
-
iPhoneXS系列再次降价:256GB版便宜2300元
-
支付宝15亿红包正式开奖,网友:分了30块!你呢?
-
线下手机销量榜:华为nova4大涨64.72%小米依旧缺位前十