ASR语音纠错
2021-1-16 22:48 更新
项目选型:kenlm、ngram、hadoop、gpu、vim开发 项目描述:本项目用于Breeno语音识别纠错。以垂直领域为数据来源,构建起了以流量包售前也售后为中心的客服问答系统,语料规模1亿。包含错误检测、候选召回、候选排序三个模块。 技术负责: 1、 数据预处理:停用词、语气词、数字、英文等处理; 2、 语言模型构建:字符级别ngram语言模型搭建、词级别语言模型搭建; 3、 错误检测:包括基于字典的错误检测、基于相似拼音的错误检测、基于字符级别的ngram 模型的错误检测,基于词级别的ngram模型的错误检测; 4、 候选找回:主要是对应词典的候选召回; 5、 候选排序:排序主要是通过模型分进行排序; 6、 效果评估:主要看字错率。其他辅助包括句错率、字准确率、字召回率。 7、 后期优化:分析bad case的错误来源,对bad case进行分类,可从错误检测、候选召回、候选排序三个模块解掉bad case;