李宏毅NLP-1-课程介绍
NLP任务包含文本和语音
NLP的任务:
- 听懂人说的话
- 看懂人写的文句
- 写出人懂得句子
- 说出人听得懂的话
课程包含文本处理和语音处理。
很多语音没有存在文字,只有56%的语音才有文字,大约一半是没有文字的。
人类的语音和文本是复杂的
一秒包含16k的样本点,每个点又有256个可能取值。
同一个人说相同的字也会有不同的频谱。
一个句子最长的句子有13955个词汇。
在最长的句子前面或者后面加一点词汇又会破记录。
本课程学习的模型类型6种
- 输入是语音,输出是文本
- 输入是文本,输出是语音
- 输入是语音,输出是语音
- 输入是文本,输出是文本
- 输入是语音,输出是类别
- 输入是文本,输出是类别
自动语音识别ASR(automatic speech recognition)
传统的模型有很多个模块(2GB);
现在的模型也有是end-to-end(80MB);
end2end能够将模型大小下降到很多,能够在移动端运行。
文本语音合成TTS(text-to-speech synthesis)
Speech Separation
声音克隆
输入音频,输出类别
比如唤醒词唤醒
文本处理的任务
模型现在越来越大
文本生成 text-generation
其他应用
- 翻译
- 总结
- 聊天机器人
- 问答系统
- 句法分析树
- meta learning 学会学习
恶意攻击
- 解释性AI