最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
夏乙 发自 麦蒿寺

第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈,我们来全面了解一下wav2letter++,看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院(FAIR)的语音团队推出,以C++写成,使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说,它是第一个完全由C++写成的语音识别系统,也是第一个全卷积语音识别系统。
所谓“全卷积”,指的是wav2letter++在从声波到文本的处理过程中,所有可学习的部件都是由卷积层构成的,声音建模、语言建模任务全部由CNN完成。

一般来说,在声音和语言建模任务上,循环网络架构才是更常用的。不过,CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中,将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说,某些情况下,wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多,而且用1亿个参数的模型测试,使用从1到64个GPU,训练时间是线性变化的。

其实,wav2letter++还有个不带加号的前身,叫做wav2letter,用Lua语言写成。现在,新版占用了原版的GitHub仓库地址,而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译,CPU、GPU都可用,以求效率和规模的最大化。
最后,附上传送门~
GitHub地址:
https://github.com/facebookresearch/wav2letter
论文:

wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完—
好看吗?↘↘↘
相关文章
-
未来全球嵌入式主板市场将如何发展?
-
CAT实操|如何往DéjàVu项目中添加文件?
-
网易裁员事件新进展:已与员工达成和解,全力协助治疗丨钛快讯
-
京东健康启动赴港IPO,计划募资20亿美金左右
-
拼多多黄峥身家增 17 亿美元,超顺丰王卫;京东双十一借实习压榨职校学生,不配合难毕业;美团回应支付业务违规质疑
-
当年给女主播打赏9000万的小伙,线下娶回家,如今过的怎么样
-
即刻:构建一座基于认同和共鸣的社交城市
-
短信群发和其他媒体对优势有哪些?
-
消息称谷歌英国用户账号将失去欧盟数据保护
-
网站文章要契合优化的要求
-
斗鱼今晚上市:将成湖北最大互联网公司现金储备达12亿美元
-
2020展望|音乐与音频:内部竞争接近收尾,需要应付的是门口的野蛮人
-
炉石传说世界杯中国夺冠,快播王欣狱中信件首次公开
-
Snap第四季度净亏损1.92亿美元,亏损幅度同比收窄
-
联手爱回收成立合资公司,京东能否重塑二手商品交易市场?
-
热点|今年两会互联网大佬都说了啥?
-
前有百度、阿里,后有小米、平安,又一个万亿市场要火?
-
黄爱玲老师生活常识:Switch销量创历史新高
-
市值最高的中国公司,仨月赚了上千亿,连腾讯也比不过!
-
QQ秀的涅盘重生,值得所有PM驻足观看
-
【钛媒体直击达沃斯】建行、花旗与国家金融研究院共论:Libra能否重塑未来金融?
-
教育行业出现很多问题
-
视觉中国:整改结束,5月12日零点开始恢复网站上线运营
-
iPhone14配置和价格曝光,却坐实了“十三香”,苹果又要涨价了?
-
微头条怎么赚钱?有人月入20万,操作方法简单,值得一做
-
即刻CEO回应央视起诉:世界杯期间没有任何视频直播
-
耀眼的贝索斯与灰暗下的亚马逊员工
-
焦点分析 | 大环境影响电商消费,腾讯给京东的爱越来越少
-
湖畔大学今日举行开学典礼马老师在现场收藏了一张明信片