备案 控制台
开发者社区 云计算 文章 正文

语音识别(ASR)基础介绍第四篇——当今流行做法与CTC

简介: 本篇开始,就进入到了asr当前的流行做法。 这里单独提到了CTC算法。  这个算法对当前asr使用deep learning的方法有重大影响。 总体感觉,写到本篇,工作量反而变得很小。因为进入deep learning时代后,神经网络模型基本都是那么几种,已经不再需要挨个详细介绍。而且看图就能理解的很明白。 所以本篇后半部分基本就是贴图了。。:D 一、CTC 在CTC之前,训练语料

本篇开始,就进入到了asr当前的流行做法。 这里单独提到了CTC算法。  这个算法对当前asr使用deep learning的方法有重大影响。

总体感觉,写到本篇,工作量反而变得很小。因为进入deep learning时代后,神经网络模型基本都是那么几种,已经不再需要挨个详细介绍。而且看图就能理解的很明白。 所以本篇后半部分基本就是贴图了。。:D

一、CTC

在CTC之前,训练语料要配合上一篇中提到的方法,需要人工把音频中每个时间段对应的是哪个音素的信息标注清楚。  这个工作量和对人及金钱的需求是巨大的。基本都是百万级别手笔。 有个CTC之后, 给定一个音频,就只要告诉这个音频说的是什么文本就好了。 省掉了对齐的那一步。 由此,其重要性可自行判断。

 

关于CTC,感觉与其这里坑坑洼洼的介绍,不如直接参考这篇知乎的文章—— https://zhuanlan.zhihu.com/p/36488476, 一看就懂。

这里就大概说明下CTC的大致原理,详情还是需要直接看下知乎的那篇文章。

CTC 大致原理

半定义性质的讲:CTC 要解决的问题是,算法输入序列的长度远大于输出序列长度的问题。语音识别问题的输入长度是远大于输出长度的,这是因为语音信号的非平稳性决定的,就比如说 “nihao”, 如果按时间片切分,就变成了"nnnnn iiiiii hhh aaa oo" ,但不论怎么表达,这句话最后的标签都是 “nihao”

CTC 为解决这个问题,做了两个操作:

其一是引入了blank 标签。 还记得wav音频的格式吗? 这里面声音有高峰也有趋近于0的时候。 CTC中认为, 高峰(spike)段的声音对应着音素的label,而归0的部分对应的label则是blank。  这个看起来好像没什么。

CTC引入的第二个操作是:

asr 的过程还是一帧MFCC39维向量进去,然后出一个label。  假设,“你好” 这个音频共有200个MFCC 特征帧。  这200个特征帧对应着200个输出结果,就结果空间而言,共有 音素数目^200 种可能。 而我们关心的,或者说模型训练时已知的, 就是这 所有这   音素数目^200 种可能中,可以达成 “n i h a o” 这5种结果的数目。 

这里就定义了一种非常简单粗暴的映射方法——邻近去重, 比如 ,如果输出的200个结果是 {nnnniiiiii...hhhhhaaaaaooo}  那么就邻近去重 变成->{n i h a o },然后这个结果组合就是有效结果中的一种了。 而{wwwwooooocccccaaaooo} 会映射成{w o c a o} ,自然就无效的结果。

CTC认为,计算目标函数的时候,上例中的200个MFCC特征,得到的200个模型的结果, 每个小结果都对应着所有音素上的一个概率分布。 然后计算 所有能映射成 {n i h a o} 的结果的音素路径的概率值,让这个值越大越好就行了。

但是这样一来,计算量就非常的大,指数级的计算量。  CTC就使用了类似HMM推到的方法。发现求偏导进行反向传导的时候,每一帧MFCC对应的结果的导数,都可以利用前一时刻的两个状态的结果直接求到。 即 类似这样:41b811c42ae88584fc6c286afd502ad1.png

这样一来,整体计算量就急剧萎缩成了 7*T*音素个数。 

 

使用CTC的一个展示:

d6e2c04661b34b2a03513858c0e80abe.png

 

二、流行的模型

2012年,微软邓力和俞栋将前馈神经网络FFDNN(Feed Forward Deep Neural Network)引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率。 从这里开始, DNN-HMM混合系统的风潮起来了。

目前流行的方式大概以下几类(主要还是集中在语音模型领域,而且是直接端到端的):

d0898cee77b33e85e87e99fcde06bef2.png

 

1-2年前最流行的架构

从下图模型可以看到,此时HMM仍然是主要的模型,只是把之前GMM的部分换成了DNN了。

70b2c38f3f97f9bfa594979eb4e0e4c6.png

然后,自然不能少了RNN系列的解决方案:

RNN解决方案

可以看到,最上层仍然是HMM,大致原理,基本可以直接从图中看出来。

396b3dfe1c4dd663b21bfb997b5234bc.png

 

主流模型

紧接着,HMM模型也给去掉了,进入了主流语音模型时代。

以下是几款流行的主要模型(以讯飞的模型居多),这个时候,已经可以直接从图上看出原理了。

cf8dd64bdbe4d7ed2fbd51437ee3ff80.png

 

b1e5f5338ed89a7374ec908550620046.png

 

1d44662ce3b7eec4fb212bd3f3e5447c.png5fccc8f4a95e9f4c7bc7593f6f53d22d.png

 

0a831aa0a47f7b1714fb0bd8800bdeaa.png

 

fcc62f088d894ffff69f8e9cf118564d.png

此前,百度语音每年的模型算法都在不断更新,从 DNN ,到区分度模型,到 CTC 模型,再到如今的 Deep CNN 。基于 LSTM-CTC的声学模型也于 2015 年底已经在所有语音相关产品中得到了上线。比较重点的进展如下:1)2013 年,基于美尔子带的 CNN 模型;2)2014年,Sequence Discriminative Training(区分度模型);3)2015 年初,基于 LSTM-HMM的语音识别 ;4)2015 年底,基于 LSTM-CTC的端对端语音识别;5)2016 年,Deep CNN 模型,目前百度正在基于Deep CNN 开发deep speech3,据说训练采用大数据,调参时有上万小时,做产品时甚至有 10 万小时。

 

4524ee83b13c0761f08fcf79c072e17e.png

 

三 、其它相关技术

 

f89127b36e048ceaa1f7f28164595654.png

 

由于当今流行的模型大部分都是基于deep neural network的, 网络的形态基本在 CNN RNN 以及全连接上更换。 这些大都很通用。 所以这里没有再细讲原理,而是直接贴图展示。 具体哪种方案更好,恐怕要真实的投入并尝试才能得知了。 目前训练所需要的机器代价也是比较高的。开源的语音数据网上倒是不难搜到。如果是真感兴趣的同学,可以考虑租用云服务器的形式来自己做下测试。 

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
egptee
目录
相关文章
楠竹11
|
23天前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
楠竹11
32 1
向量检索服务DashVector
|
23天前
|
存储 算法 搜索推荐
LLM, RAG 背后的支持技术
本文主要说明向量相似性搜索的必要性、经典的ANN算法、当前业界的解决方案,和前沿的ANN算法。
向量检索服务DashVector
102 4
汀丶人工智能
|
23天前
|
人工智能 自然语言处理 安全
探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架
探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架【2月更文挑战第2天】
汀丶人工智能
69 4
探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架
楠竹11
|
15天前
|
人工智能 自动驾驶 机器人
Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
【5月更文挑战第23天】Sora模型是通用世界模拟器的里程碑,展示出在物理法则理解及多领域应用的潜力,尤其在视频生成和自动驾驶中。然而,它仍面临预测能力、模拟复杂物理现象、计算效率及评估体系的挑战。未来研究将聚焦3D模拟、智能体现和安全问题,旨在提升机器对物理世界的理解和适应性,同时应对信息失真、偏见和隐私问题。[论文链接](https://arxiv.org/abs/2405.03520)
楠竹11
34 2
python兴趣圈
|
23天前
|
人工智能 开发者 Python
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
Firefly:开源大模型训练工具助力AI技术进步,让你轻松训练各种主流大模型!
python兴趣圈
225 1
猿人AI
|
23天前
|
机器学习/深度学习 编解码 人工智能
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
OpenAI,永远快别人一步!!!! 像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。 100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。 三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”
猿人AI
214 0
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
热烈的马
|
23天前
|
机器学习/深度学习 自然语言处理
ChatGPT技术基石之Transformer技术的简介(简单易懂)
ChatGPT技术基石之Transformer技术的简介(简单易懂)
热烈的马
61 0
汀丶人工智能
|
6月前
|
算法 API
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
汀丶人工智能
125 0
全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
-开发达人-
|
自然语言处理 PyTorch 算法框架/工具
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型
CLUE社区最新神器!PromptCLUE:大规模多任务Prompt预训练中文开源模型
-开发达人-
408 0
-开发达人-
|
机器学习/深度学习 自然语言处理 算法
谷歌的野心:通用语音识别大模型已经支持100+语言
谷歌的野心:通用语音识别大模型已经支持100+语言
-开发达人-
174 0

热门文章

最新文章

  • 1
    Java9模块化遇坑
  • 2
    查看服务器出口ip
  • 3
    Python零基础学习笔记(二)——数据的存储
  • 4
    pytorch中nn.Parameter()使用方法
  • 5
    linux命令——mv
  • 6
    性能测试之“Windows性能监视器”
  • 7
    Codeforces Round #395 (Div. 2)(A.思维,B,水)
  • 8
    JTA 深度历险 - 原理与实现
  • 9
    jQuery EasyUI API 中文文档 - Documentation 文档
  • 10
    实验一二三命令
  • 1
    基于ssm+vue.js+uniapp小程序的考研论坛附带文章和源代码部署视频讲解等
    42
  • 2
    基于ssm+vue.js+uniapp小程序的动漫手办商城附带文章和源代码部署视频讲解等
    39
  • 3
    基于ssm+vue.js+uniapp小程序的高校超市管理系统附带文章和源代码部署视频讲解等
    38
  • 4
    基于ssm+vue.js+uniapp小程序的高校网上订餐平台附带文章和源代码部署视频讲解等
    27
  • 5
    水墨代码:前端川的诞生——在夏日阴雨中启航
    49
  • 6
    大学物理-实验篇——测量误差与数据处理(测量分类、误差、有效数字、逐差法)
    31
  • 7
    PolarDB产品使用合集之只读结点的上下限 0 ~ 7 ,指的是如果不触发伸缩,就不会有serverless增加的只读结点
    28
  • 8
    基于ssm+vue.js+uniapp小程序的在线图书借阅管理系统附带文章和源代码部署视频讲解等
    22
  • 9
    基于ssm+vue.js+uniapp小程序的原色蛋糕商城附带文章和源代码部署视频讲解等
    23
  • 10
    基于ssm+vue.js+uniapp小程序的兽医站管理系统附带文章和源代码部署视频讲解等
    20
  • 相关课程

    更多
  • 语音识别原理与应用
  • 视觉AI技术体系及趋势概述
  • 【算法实战】1. 机器学习基础
  • 趣味视觉AI应用入门与实战
  • 深度学习原理与实践
  • 机器学习原理与实践
  • 相关电子书

    更多
  • 通用多模态AI构建
  • 《搜索NLP行业模型和轻量化客户定制》
  • PAI-ChatLearn 灵活易用大规模RLHF高训练框架
  • 相关实验场景

    更多
  • 如何快速体验知识检索增强应用
  • 函数计算部署AI艺术字应用,生成新春文字头像
  • 使用函数计算部署通义千问大模型实现AI对话
  • 利用大模型大规模分发技术,实现AIGC在线应用秒级弹性
  • Lindorm AIGC:十分钟搞定智能问答 + 多模态检索
  • 基于函数计算一键搭建手写体OCR识别平台
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    两个鬼故事明天会更好简谱李姓起男孩名字用夏起名女孩取名免费起名大全一千名公司起名字推荐一百分免费起名字名人读书的故事起点被404的著名小说适合拿来起名字的诗词五中录取分数起一个商标名的女性起名名字大全马姓男孩起名腾讯会员最多可以几个人一起登录航天纪念币发行公告起名字 带王字旁qq等级最高的人属马的店铺起名字大全茶的商标起名大全服装厂起名大全生意兴隆窗饰遮阳公司起名为什么网上都在说三叔入狱呼叫大明星电视剧龚起名100分天诺时空女孩起名 单字李周起名飞猪电影院想念一个人的暖心情话英雄无敌5秘籍少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

    两个鬼故事 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化