基于SVM的中文文本分类系统的建模与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xrzs011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。基于支持向量机(SVM)的文本分类算法,更是成为当前的一个研究热点。构建一个开放的灵活的SVM研究平台,有助于进一步推动将SVM用于中文文本分类的研究。 本文在Microsoft Windows 2000的Visual C++ 6.0和MS SQL Server2000平台下设计并实现了一个基于支持向量机的、便于重组重构并能实时统计分析各类中间结果的中文文本分类系统,并在此系统上对SVM用于中文文本分类的性状作了部分研究。 本文在传统中文文本自动分类模型框架的基础上,采用数据库作为耦合中介,松解了模块间的紧耦合,建立了SVM研究平台的系统模型框架。基于新模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条之间的各种统计运算,而且可以灵活地变更不同的算法模块,比较其性状,达到了研究平台的要求。 本文对文本分类的关键技术做了研究。在特征提取部分,结合了基于文档频率(DF)、x~2分布(CHI)、信息增益(IG)以及互信息(MI)等几种不同的特征选择方法,通过实验结果的比较,证明在本文的系统中基于IG的特征选择方法要优于其他方法。在文本表示部分,采用了TFIDF权重计算方法,实现了向量空间模型。在多类分类算法中,采用一对余类方法实现多类分类问题,分类结果较为理想。 本文利用构建的系统平台,对SVM的性状作了实验研究。在训练过程中,采用了计算机、艺术、教育、交通、环境、经济、医药、军事、政治、体育等10个类别的近2000篇文本,为了测试分类器的性能,选用了10个不同类别的近1000篇文本,实验结果表明该系统的查准率达到97.84%,查全率达到89.93%,分类效果较为理想。还与Rocchio、KNN等传统的文本分类算法进行了比较实验,结果证明基于SVM的文本分类系统在分类性能和分类速度上都体现了较大的优势。
其他文献
随着疝修补技术的不断发展,规范化治疗的问题已得到更进一步的认识,中华医学会疝和腹壁外科学组在2001年和2003年制订了我国疝外科专业的学术指南。《成人腹股沟疝和股疝治疗
在移动互联时代,场景成为一个新的入口,重新塑造着用户、企业、服务在特定场景下的智能衔接,开启了场景时代。以人们消遣时间为主的短视频,在最近几年如火如荼地发展着,其中,
我国国民经济的各个组成部分都离不开物流产业的服务,其经济带动作用极其强大。将现代物流产业持续加速发展,对于互联网络、机械、电子、基础设施等行业的发展都有着积极的带
研究确定了平煤十三矿己15-17煤层突出风险因素,从工作面与断层下盘距离、与应力集中区距离、软分层厚度、煤厚变化率、日常预测、动力现象、瓦斯涌出、措施缺陷等方面建立了
煮糖工序是强非线性的工序。在这个过程中既有传热,又有传质,是一个复杂的化学和物理过程。从制糖工艺学中可知,在众多过程工艺参数中,母液的过饱和度对煮糖质量的影响最为显
一般来说,如果奶牛胎衣在产后12小时以内不能自然完全脱落而滞留于子宫内,就称为胎衣不下。胎衣不下的发病率通常在10~25%,有的牛场为30~40%,甚至某些季节高达50%以上,是奶牛产
刘长发:2019年被普遍认为是5G元年。每一轮新技术革命,都会对新闻业带来冲击。媒体人是社会的瞭望者,对趋势应该有更敏锐的洞察,对机遇也当有更精准的把握。正如2019年1月25
目的探讨重症急性胰腺炎(SAP)患者营养支持的护理效果。方法 52例SAP患者,采取营养支持及针对性护理干预,对其临床效果给予分析研究。结果 52例患者恢复良好,营养状况得到明
绩效基础建设是党的执政基础建设的重要内容,我们党始终高度重视巩固执政的绩效基础建设。在新的历史时期,巩固党执政的绩效基础建设,需要从以下途径进行:一是加快转变经济发
本文的研究对象是公安行政诉讼。所谓公安行政诉讼,是指公民、法人或者其他组织认为公安机关的具体行政行为侵犯了自己的合法权益,依照行政诉讼法的规定向人民法院起诉,人民