贝叶斯与语言模型相结合的中文文本分类方法的研究

来源 :2008年全国模式识别学术会议 | 被引量 : 0次 | 上传用户:jianzhang5555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上可用信息的日益增多,怎样快速而有效地获取有用信息成为人们研究的重要课题,信息自动分类就应运而生了。贝叶斯作为其中的一种分类方法,应用在很多领域。本文将贝叶斯与语言模犁相结合的分类模型应用于中文文本分类中。在复旦大学中文语料库上进行实验,得出如下结论:使用四种平滑技术改进后的贝叶斯分类模型的性能要优于朴素贝叶斯分类模型的性能,特别是采用了改进平滑尺度的Jelinek-Mercer平滑技术后,分类器的性能得到较大改善。
其他文献
美丽是一个较为抽象主观的概念,美丽程度如何量化和评价,一直是一个人们较为关心的问题,但很少有利用计算机图形图像处理及模式分类的方法米进行较客观的评价。本文首次提出
会议
随着生物特征识别产业的迅猛发展,其产品的质量控制问题日趋重要。而对作为生物特征识别产品核心部分的识别算法的测评,则成为了非常重要的一环。这套生物特征识别算法测评方
人脸识别一直是模式识别领域中的一个较为活跃的方向,近年来取得了重要的进展,基于多张图片的人脸识别已经有比较满意的效果,但基于单张图片的人脸识别性能仍然较差。因此,本
会议
结合小波变换、奇异值分解和核主成分分析的特点,提出一种人脸识别方法。首先,利用小波变换对人脸图像进行预处理,保留图像的低频段,有效地降低了罔像维数并去除冗余噪声。然
会议
本文研究了基于细胞DNA定量分析的宫颈癌筛查技术。对宫颈组织样本进行Feulgen染色,通过CCD摄像机采集细胞核的显微图像,综合应用区域和边界的方法实现细胞核的图像分割。计
步态识别足一种新的生物识别技术,它通过人行走的姿势来实现对人身份的鉴别。本文提出了一种新的基于标准差能量图的步态识别方法,首先将视频序列中分成若干个步态周期,然后
会议
为实现CT图像上肝脏区域自动分割,本文提出一种基于梯度向量流-蛇模型的方法。首先采用直方图均衡与各项异性扩散滤波的方法对图像进行预处理,之后采用基于区域分析的方法获
本文针对维吾尔文字的特点,提出了一种应用BP学习算法对维吾尔文字符识别。首先利用投影分离出连体段中的字符,再将预处理后的维吾尔文字符图像利用BP神经网络对子块图像进行
本文提出一种利用自动语音识别技术来有效检测第二语言学习者的错误音素发音系统。本文的方法通过预测语言学习者发音中可能导致错误发音的音素混淆规则来扩展标准发音词典,
会议
音频分类主要以一些主观或者客观的音频特征为基础,音频特征的选取要能够充分体现出音频在时域和频域中的重要分类特性。因此,音频特征的分析与提取也就成为音频分类问题的基