中文文本自动分类中特征向量选择的一种改进算法

来源 :全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会 | 被引量 : 0次 | 上传用户：honglou123

【摘要】

：

随着互联网的迅速发展,对海量的信息进行处理再加工显得尤为重要.文本自动分类是信息检索方面一个基础性的研究工作,即,研究在特定的分类体系下,如何根据文本的内容自动判别

【作者】

：

王若翔刘亚军

【机构】

：

东南大学计算机与科学工程学院,南京,210096

【出处】

：

全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会

【发表日期】

：

2006年10期

【关键词】

：

文本分类特征向量信息检索分类算法语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的迅速发展,对海量的信息进行处理再加工显得尤为重要.文本自动分类是信息检索方面一个基础性的研究工作,即,研究在特定的分类体系下,如何根据文本的内容自动判别文本的类别,以减少信息检索的范围.本文介绍了文本分类的一些关键技术,包括文本表示,特征向量的选择,分类算法等,并且对常用的特征向量选择算法进行了比较,分析其中存在的问题并提出一种特征向量选择的改进算法,即找出一类有较强类别区分意义的特征词,构成特征向量.利用改进后的算法对语料库进行训练和测试,实验结果表明,在使用各种分类算法对中文文本进行分类的过程中,改进后的特征向量选择算法对分类准确率有不同程度的提高.

其他文献

军用软件测评实验室过程模型MSTLM的研究和实践

军用软件测评实验室作为独立测试方,其承担的测试任务具有特殊性,目前缺乏适用的测试过程模型指导,测试过程模型MSTLM依据相关标准提出了针对军用软件测评实验室具有较普遍适

会议

军用软件测评实验室过程模型测试任务普遍适用性标准

基于本体的军事信息集成研究

针对我军信息集成中出现的"信息孤岛",为了解决现代军事信息集成中的语义集成问题,给出了一种基于混合本体结构的本体集成框架,并探讨了本体映射在该框架中的实现.通过该框架

会议

本体映射军事信息信息集成集成框架语义互操作语义集成信息孤岛本体结构

双剪应力线性屈服准则解析三维轧制

本文采用双剪应力线性屈服准则,共线矢量曲面积分、变上限积分对小林史郎三维轧制速度场进行理论解析得到了轧制力、力矩的解析解.通过轧制纯铅实验,将轧制力、力矩的计算结

会议

双剪应力线性屈服准则理论解析三维轧制力公式计算道次压下率变上限积分实测结果曲面积分力矩速度场解析解矢量实验纯铅

一种基于Agent的工作流系统的通讯机制

本文对基于Agent的工作流系统的通讯机制进行了研究。文章介绍了一种Agent通信框架，在这个框架之上能够快速构建基于Agent的工作流系统，系统开发者不必关心通讯机制的内部实现，

会议

工作流系统通讯机制应用程序移动能力消息处理通讯语言通信框架扩展能力开发者定模板运行软件接口构建封装

武钢综合营帐系统改造

本文阐述了武钢通信公司专网综合营帐系统的建设特点、系统架构、系统功能,对企业专网的建设有一定参考价值.

会议

武钢合营企业专网营帐系统系统架构系统功能通信公司建设特点价值

基于小波分析获取的分段区间特征向量的时间序列表示方法研究

目前时间序列的数据挖掘集中于部分周期模式的发现[4]、似然发现[5]、新模式发现[6]、基于特征分类[7]等方法,但都没有解决整个时序样本的表示方法问题.本文提出了一种时间序

会议

数据挖掘时间序列特征向量内容检索相似性比较小波分析

大蒜辣素前体包芯片的制备

目的:制备大蒜辣素前体包芯片,使其口服后在短时间内促发酶促反应,生成大蒜辣素。方法:以蒜氨酸和蒜酶双层片为片芯,控酸颗粒为外层压制得到包芯片。并以人工胃液为介质小杯

期刊

大蒜辣素蒜氨酸蒜酶包芯片人工胃液

血吸虫病中医治疗研究的回顾与前赡

一、对我國古代血吸虫病流行情况的研究近数年來中医治療研究血吸虫病有了長足的進展,中医治療的病例数以万計,大大地提高了我們对这一疾病辨証論治的旣有水平,中西医对于我

期刊

血吸虫病中医治疗医史学晚期血吸虫病日本血吸虫病消痞丸逐水剂茄丸血吸虫消痞

基于潜在语义分析的Web文本分类

传统的基于向量空间的文本分类方法很难处理文本的高维特性,本文首先综述了潜在语义分析的理论及方法,并且解释其数学意义,提出基于潜在语义分析的Web文本分类方法,给出Web文

会议

潜在语义分析Web文本支持向量机文本分类

基于词聚类的多阶段文本主题自动划分

文本分类是信息检索的一个重要问题,而文本-词频矩阵的词频维数过大和过于稀疏两个特点,给计算造成了相当困难.为解决这一问题,本文提出了一套新的基于词聚类的文本主题自动

会议

文本分类文本聚类词聚类信息检索主题关键词

中文文本自动分类中特征向量选择的一种改进算法

与本文相关的学术论文