中文文本自动分类中特征向量选择的一种改进算法

来源 :全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 | 被引量 : 0次 | 上传用户:honglou123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,对海量的信息进行处理再加工显得尤为重要.文本自动分类是信息检索方面一个基础性的研究工作,即,研究在特定的分类体系下,如何根据文本的内容自动判别文本的类别,以减少信息检索的范围.本文介绍了文本分类的一些关键技术,包括文本表示,特征向量的选择,分类算法等,并且对常用的特征向量选择算法进行了比较,分析其中存在的问题并提出一种特征向量选择的改进算法,即找出一类有较强类别区分意义的特征词,构成特征向量.利用改进后的算法对语料库进行训练和测试,实验结果表明,在使用各种分类算法对中文文本进行分类的过程中,改进后的特征向量选择算法对分类准确率有不同程度的提高.
其他文献
军用软件测评实验室作为独立测试方,其承担的测试任务具有特殊性,目前缺乏适用的测试过程模型指导,测试过程模型MSTLM依据相关标准提出了针对军用软件测评实验室具有较普遍适
针对我军信息集成中出现的"信息孤岛",为了解决现代军事信息集成中的语义集成问题,给出了一种基于混合本体结构的本体集成框架,并探讨了本体映射在该框架中的实现.通过该框架
本文采用双剪应力线性屈服准则,共线矢量曲面积分、变上限积分对小林史郎三维轧制速度场进行理论解析得到了轧制力、力矩的解析解.通过轧制纯铅实验,将轧制力、力矩的计算结
本文对基于Agent的工作流系统的通讯机制进行了研究。文章介绍了一种Agent通信框架,在这个框架之上能够快速构建基于Agent的工作流系统,系统开发者不必关心通讯机制的内部实现,
本文阐述了武钢通信公司专网综合营帐系统的建设特点、系统架构、系统功能,对企业专网的建设有一定参考价值.
目前时间序列的数据挖掘集中于部分周期模式的发现[4]、似然发现[5]、新模式发现[6]、基于特征分类[7]等方法,但都没有解决整个时序样本的表示方法问题.本文提出了一种时间序
目的:制备大蒜辣素前体包芯片,使其口服后在短时间内促发酶促反应,生成大蒜辣素。方法:以蒜氨酸和蒜酶双层片为片芯,控酸颗粒为外层压制得到包芯片。并以人工胃液为介质小杯
一、对我國古代血吸虫病流行情况的研究近数年來中医治療研究血吸虫病有了長足的進展,中医治療的病例数以万計,大大地提高了我們对这一疾病辨証論治的旣有水平,中西医对于我
传统的基于向量空间的文本分类方法很难处理文本的高维特性,本文首先综述了潜在语义分析的理论及方法,并且解释其数学意义,提出基于潜在语义分析的Web文本分类方法,给出Web文
文本分类是信息检索的一个重要问题,而文本-词频矩阵的词频维数过大和过于稀疏两个特点,给计算造成了相当困难.为解决这一问题,本文提出了一套新的基于词聚类的文本主题自动