语音识别(ASR)论文优选:端到端模型是否满足工业界落地需求Are E2E ASR models ready for an industrial usage?

声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Are E2E ASR models ready for an industrial usage? 

本文为Orange, 4 rue du Clos Courtel, Cesson-Sevign ´ e, France在2021.12.09更新的文章,主要在多场景下对比E2E的识别模型跟传统混合模型的性能和速度,具体的文章链接https://arxiv.org/pdf/2112.12572.pdf


(本文主要为实验对比。作者可能考虑成本开销,对每种模型训练时长进行限制,该操作造成模型欠拟合,不能表现出模型最优效果)

1 背景

随着端到端E2E模型的兴起,自动语音识别 (ASR) 社区经历了一个重要的转折点。同时,传统的混合模型仍然是语音识别使用的标准选择。本文在多场景下,对主流 E2E 模型和混合模型在性能和运行速度进行对比。实验表明 E2E 模型是混合模型的可行替代方案,甚至在准确性和推理速度方面都优于混合模型。因此,本文呼吁研究人员可以把关注点从性能转移到其它方面,比如端到端模型如何快速适应新的词典​。

2 详细设计

本文强调很多研究都是在开源的单一场景进行试验,而

ASR语音转文字模型——项目落地
weixin_39586997的博客
07-13 3050
1.项目背景 2.技术原理 3.常见模型 4.数据预处理 5.模型复现效果 6.离线服务部署
ASR论文及相关资料
12-03
语音识别论文及教材,包含传统语音识别端到端语音识别
ASR论文阅读
qq_39354864的博客
04-12 282
Mixup Speech
语音识别(ASR)论文优选:Training end-to-end speech-to-text models on mobile phones
低调奋进
12-09 1578
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog
低调奋进
11-22 1361
本文对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验,主要为经验分享。
TensorflowASR:集成了Tensorflow 2版本的端到端语音识别模型,并且RTF(实时率)在0.1左右Tensorflow 2中最先进的自动语音识别
01-30
TensorflowASR 集成了Tensorflow 2版本的端到端语音识别模型,和RTF(实时率)在0.1左右 目前集成了中文的CTC \ Transducer \ LAS三种结构 当前还在开发阶段 欢迎使用并反馈bug |中文版 梅尔层 参照librosa库,用TF2实现了语音频谱特征提取的层,这样在跨平台部署时会更加容易。 使用: am_data.yml use_mel_layer: True mel_layer_type: Melspectrogram #Spectrogram trainable_kernel: True #support train model,not recommend Cpp推论 C ++的demo已经提供。 测试于TensorflowC 2.3.0版本 详细见目录 预训练模型 所有结果测试于AISHELL TEST数据集。 RTF (实时率)测试于CPU单核解码任务。 上午: 型号名称 梅尔层(USE / TRAIN) 链接 码 训练数据 音素CER(%) 参数大小 RTF 合格者CTC(M) 真假 pan.baidu.com/s/
open_stt_e2e:PyTorch 端到端语音识别
05-31
用于 open_stt 数据集的 PyTorch E2E ASR 用于训练语音识别任务的语言和声学模型的最少脚本集。 训练管道包括以下阶段: 基于字符的RNN语言模型 具有 CTC 损失的 CNN-RNN 声学模型 基于字符的 RNN 语言模型和具有 ...
end2end-asr-pytorch:PyTorch上的端到端自动语音识别
05-29
Pytorch 上的端到端语音识别 基于 Transformer 的语音识别模型 如果您在工作中使用了本工具包中包含的任何源代码,请引用以下论文。 Winata,GI,Madotto,A.,Wu,CS,&Fung,P.(2019年)。 使用来自并行句子的...
e2e_asr:Interspeech 2017和SLT 2018端到端语音识别的代码
05-13
ASR端到端编码器解码器模型 使用编码器-解码器模型在较低层具有辅助任务的端到端语音识别。 该代码仍在进行完善,准备数据文件等代码将花费更多时间。 出版物: 具有基于编码器-解码器的语音识别的低级辅助任务...
las-pytorch:聆听,参与和拼写E2E ASR模型。 在Pytorch中实施
05-03
这是我的(LAS)谷歌ASR深度学习模型的pytorch实现。 我同时使用了mozilla 数据集和数据集。 借助torchaudio,在加载文件的同时即可快速完成功能转换。 结果 由于我的GPU没有足够的内存,因此这是采用相当小的体系...
ASR.rar_asr 语音_模型识别_语音识别_语音识别基于KERSE
09-15
语音识别模型,我自己写了一段代码,很好用,准确率百分之九十
端到端asr系统搭建
libeicuo8108的博客
04-01 907
验证了一个端到端语音识别系统,目前cer结果还不错。考虑怎么实际使用: 1)服务器端: 利用kaldi的流式处理方法(http://www.luyixian.cn/news_show_274565.aspx),会用到gsteamer 和kaldi 以及docker 方便部署 2)客户端:需要做做模型的压缩,目前模型参数30M,实现本地部署还是很方便的,下一步可以自己尝试在ios实现本地asr系统。...
语音识别(ASR)论文优选端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
低调奋进
11-04 3656
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
语音识别(ASR)论文优选:自监督学习Self-Supervised Learning for speech recognition with Intermediate layer supervisi
低调奋进
12-20 1858
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
语音识别ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
低调奋进
07-14 344
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进 SynthASR: Unlocking Synthetic Data for Speech Recognition 本文为Alexa Speech, Amazon.com在2021.06.14更新的文章,主要使用tts合成的语料来优化ASR,从而提高ASR的性能,具体的文章链接
语音论文阅读(端到端ASR:从监督学习到具有现代体系结构的半监督学习)
暮木的博客
01-04 824
论文: END-TO-END ASR: FROM SUPERVISED TO SEMI-SUPERVISED LEARNING WITH MODERN ARCHITECTURES 摘要 利用伪标签(pseudo-labeling)ResNet,ConvNets,Transformers,使用CTC或者Seq2Seq损失函数,但半监督可改善整个体系结构和损耗函数中的所有模型,并弥合它们之间的许多性能差距。研究不同数量的未标记音频的效果,提出了几种评估未标记音频特性的方法,这些方法可以...
语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
低调奋进
11-15 1967
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请
端到端语音识别模型
暮木的博客
12-10 3228
端到端语音识别模型(原文地址) 随着端到端神经网络在机器翻译、语音生成等方面的进展,端到端语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),端到端语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。 本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。 ...
E2Echallenge参赛模型汇总
听了个听儿
08-21 986
E2E挑战赛任务就是根据一堆属性生成一句自然话术。该任务使用了新的E2E数据集,有提交的62个模型(方法),所以本文对相关的方法进行了归总,每类方法选出了一些代表,并进行简单介绍。
如何使用飞浆PP-ASR语音识别
最新发布
07-20
您可以按照以下步骤使用飞桨PP-ASR语音识别: 1. 安装飞桨PaddlePaddle:根据您的操作系统,按照官方文档中的指引安装PaddlePaddle。确保您已正确配置了Python环境。 2. 安装PP-ASR库:在命令行中运行以下命令安装PP-ASR库: ``` pip install paddlepaddle paddlepaddle-gpu paddlehub ppocr ``` 3. 导入相关模块: ```python import paddlehub as hub import soundfile as sf ``` 4. 加载并初始化ASR模型: ```python model = hub.Module(name='ppasr_baidu') ``` 5. 读取音频文件: ```python audio, sample_rate = sf.read('path/to/audio.wav') ``` 6. 进行语音识别: ```python results = model.transcription(audio, sample_rate=sample_rate) ``` 7. 打印识别结果: ```python for result in results: print(result['text']) ``` 通过以上步骤,您就可以使用飞桨PP-ASR语音识别进行音频文件的转写了。请确保您已经安装了所需的依赖,并将音频文件的路径替换为实际的文件路径。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • C++学习小疑问:类的名称能否和命名空间的名称相同? 7049
  • 网络牛网:苏剑林和他的科学空间 6776
  • 语音开源项目优选:免费配音网站15.ai 6167
  • ElegantLatex:优美的 LATEX 模板 (对文章,书籍进行排版) 5259
  • 语音识别(ASR)论文优选:WeNet 4033

分类专栏

  • NLP 3篇
  • 语音识别综述 19篇
  • 语音合成综述 44篇
  • 语音识别论文 23篇
  • 随想 3篇
  • 语音开源项目 9篇
  • 声纹识别 1篇
  • 机器学习 3篇
  • 语音信号处理论文 4篇
  • 语音 1篇
  • TaintDroid 5篇
  • 语音合成论文 104篇
  • 编程 1篇

最新评论

  • 语音识别(ASR)论文优选:粤语语料集Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New D

    维生素續C: 你好,请问如何获取数据集

  • LLM文章阅读:Baichuan 2 干货

    qq_37131779: 报告没有提及使用的是Megatron-LM + deepspeed,来源是哪里?

  • 语音开源项目优选:免费配音网站15.ai

    艾克丶艾达: 朋友,这个网站上个月我还能上,突然就上不去了,打开只能选择跳转推特还是Patreon,知道是什么情况吗

  • 语音合成(speech synthesis)方向一:双重学习Dual Learning

    小乐777: 真的是太棒了表情包

  • 语音合成(TTS)论文优选:A Mask-based Model for Mandarin Chinese Polyphone Disambiguation

    pongzjp: 你好,博主,有个疑问,在训练的时候,我们是知道哪些字是多音字,所以用到了Mask矩阵,在测试的时候,还需要用到Mask吗

大家在看

  • 【DevOps】网络安全进阶之路:打造更安全、更可靠的网站 1738
  • 千问Qwen7B chat:简单代码使用
  • 浅谈AIGC的底层技术 1837
  • 欢乐钓鱼大师加速、暴击内置脚本,直接安装
  • apache并发详解

最新文章

  • 快上车,LLM专列:想要的资源统统给你准备好了
  • LLM文章阅读:Baichuan 2 干货
  • Is ChatGPT a general-purpose natural language processing task solver?
2023年5篇
2022年29篇
2021年114篇
2020年46篇
2016年6篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

两个鬼故事幸福精灵展望未来的诗句万能网卡驱动下载小天鹅火锅旅行社名称怎么起新颖的名字好含义的成语起名字西行记剧场版再见悟空2018年开店起名王家男人起名字大全孩子起名网站哪个好辞海起名顽童大人宝宝免费起名打分测试述职述廉述德报告沧海电视剧氵字旁的字有哪些字起名字好听儿童起名女孩午夜dj免费中文字幕免费起名网英文名梦见老虎给服装店起个好名字屈指可数的意思宝宝免费起名的姓名测试结果打分生辰八字杨卓娜李姓好听的男孩起名游戏起个英文名字看看屋官方在线观看给合作社起个名字的妖孽小仙医陆言徐性男起啥名好少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

两个鬼故事 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化