使用最大熵模型进行中文文本分类

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:lvjieidd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.
其他文献
滤波技术是视频跟踪中的一项关键技术,它能够递推估计目标状态,从而成为达到精确跟踪效果的一个重要保障。经典的卡尔曼滤波仅适用于线性系统,改进后的扩展卡尔曼滤波和无迹
<正>笔者曾在《中共党史研究》上连续发表两篇理论文章,以新民主主义革命时期中共革命史或党史为例,对传统革命史观进行反思,提出向"新革命史"转型的理念和方法(1),基本代表
脉冲信号发生器是电子技术领域的一种常用设备,可以产生和模拟测试信号。除作为常规信号源使用外,还可以用于测试或校准其他电子仪器的线性、稳定性。其中的数字波形产生模块
本文研究了基片集成波导(SIW)六端口电路以及半模基片集成波导(HMSIW)六端口电路的设计与应用。首先,本文研究了SIW结构和HMSIW结构的原理与特性。SIW是一种填充介质的矩形波
新一代半导体材料碳化硅(SiC)是制作高温、高频、高功率器件的理想材料,欧姆接触技术是新型半导体材料尤其是宽带隙半导体器件研究的难点和关键技术。欧姆接触不仅与电极材料的
近年来,随着光纤技术取得了巨大的发展,越来越的场合使用光纤旋转连接器来传输信号。本文全面阐述了旋转连接器的发展,指出了多通道光纤旋转连接器和单通道光纤旋转连接器的
随着数据通信与多媒体业务的发展,用户对高速移动数据业务的需求不断增长,面向移动数据、移动计算及移动多媒体的第四代移动通信——LTE-Advanced无线通信系统开始兴起。如何
随着信息技术的发展和计算机网络的普及,信息安全显得尤为重要。考虑到传统密码学的不足和密码分析者破解水平的不断提升,基于混沌的数据加密技术正成为当前密码学研究的一大
教学有效性的理念源于20世纪上半叶西方的教学科学化运动。经过近一个世纪研究的发展,教学有效性在理论研究上取得了很大的进展。国内学者关于教学有效性的研究,始于20世纪90
中国是世界上最大的山茶油生产基地。油茶主要分布在我国的西南及湘、赣南部的山地丘陵,它是我国特有的油料树种,另外,油茶在东南亚、日本等国也有极少量分布。油茶籽提取出