中文语音识别结果文本分类的研究与实现

被引量 : 0次 | 上传用户:mrchenbx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术的研究始于二十世纪五十年代,经过五十多年的发展,语音识别理论日趋成熟。90年代,随着多媒体时代的来临,语音识别技术进一步成熟,语音识别系统从实验室走向实用。语音识别技术可以运用到语音通信系统、声控电话交换、数据查询、订票系统、宾馆医疗服务、银行服务、计算机控制、工业控制等领域。要想实现这些可能,将语音信号识别出来的文本信息进行分类的工作是必不可缺的。本文从中文语音识别系统的应用出发,在传统的中文文本分类系统框架基础上,实现了基于改进的SVM、KNN和朴素贝叶斯分类算法的中文语音识别文本分类系统,并将语音识别结果文本库分为10个类,1200多个样本,对所构建的系统进行了实验分析。该系统针对语音识别文本已经使用词汇为单位的特点,简化了文本分类的预处理过程,去掉了传统中文文本分类过程中的分词处理。分类构造算法方面,重点研究了支持向量机,比较了SVM的核函数对分类效果的影响,得出径向基核函数具有最好的表现。针对文本库中的样本有混叠和在10个类别中分布不均的情况,偏移支持向量机的分类超平面并且自动优化参数,为正负类样本加权,平衡正负类样本的错分率,提高了支持向量机的推广能力和分类性能。通过实验,分析和比较了不同的特征选择算法。以信息增益(IG)方法进行特征选择能获得最高的查准率、查全率;而采用互信息(MI)方法得到的分类结果非常不理想。还进一步分析比较了三种不同的分类算法,改进的SVM在本分类系统的优势非常明显,而且达到了很高的分类准确率,达到了用做研究平台的要求。
其他文献
<正> 肝硬变患者常有手掌红斑(肝掌),神奈川县立癌症中心内科主任多罗尾和郎曾进行调查,发现同肝硬变一样,酒精性脂肪肝和酒情性肝纤维化患者,也有这种现象。
<正> 二分计数资料是指实验观测的结果只能是相互对立的二种情况之一的资料,如阳性与阴性,有效与无效,生存与死亡等。在统计学上被认为是服从二项分布的资料。 和计量资料一
<正> 一、什么是病例报告病例报告亦称个案报告,是医学文献体裁之一,是临床工作者将其在医疗实践中遇到的少见而具有特殊意义的病例,进行文字总结以供发表或内部交流的医学资
金融地理学是近年来兴起的一门边缘交叉学科。鉴于国内对该学科概念的模糊性,本文从研究内容、工具和发展历程等角度对金融地理学和区域金融学两个学科加以辨析,澄清人们的认
根据幼师生专业特点,把英语教学和传统的故事教学有机地结合在一起,结合课内课外,引领学生进行读英文绘本,阅读经典英文故事,讲述英文故事,创编英文故事,表演英文故事等一系
自上世纪八十年代末以来,词汇被普遍认为是外语学习的中心任务,词汇在英语教学大纲中占据着重要地位。词表是英语教学大纲的一个重要组成部分,它对学习者在英语课程学习中的
为获得吉州区工业园所需的地形测量数据,为工业园区的十三五规划做准备,先通过GPS静态测量作测区的平面控制,通过四等水准测量由一个国家点引点作测区的高程控制,再通过航空
<正>体育游戏是按一定目的和规则开展的一种有组织的体育活动,具有文娱性、智力性,能够激起学生参与体育活动的兴趣和积极性,能够熏陶情操,开发智力,加强体质。如何充分发挥
苎麻是重要的天然纺织纤维之一,江西是我国四个苎麻主产区之一,苎麻的病害主要由线虫、真菌和细菌引起,每年给苎麻生产带来较大的损失,其中老麻园损失更大。在我省老麻园中对苎麻
武汉港是一个历史悠久的港口,因位于长江与汉江的交汇之处,依托四通八达、量大便捷的水路运输,一直是内陆地区最重要的水路交通枢纽,设施装备和生产规模居全国一千多个河港的