文本特征降维与分类规则抽取方法研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:dishunzhaopin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息量爆炸性的增长,人们很难从大量的信息中迅速有效的提取出所需信息,出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大的改善目前用户面临的困境和提高信息使用效率。而大部分信息都是以文本的形式存在的。因此,文本分类的问题成为近期的研究热点。本文从文本分类的具体的每个工作环节出发,研究了文本分类的各个具体环节。首先,从特征降维方面,针对传统的特征权值计算的不足,针对特征与文本之间的实际相关度,在传统的CHI值计算方法基础上添加了正负相关度的因子,将特征与文本的正负相关度得到很好的体现。然后,针对传统特征降维阶段只采用单一的特征选择或者特征抽取,本文采用的特征降维方法,综合了特征抽取和特征选择两个过程。首先采用模式聚合理论进行特征抽取,将对文本分类具有相似贡献的特征合并,映射为新的特征空间。在此基础上,将文本表示为粗糙集的决策表模型,采用粗糙集的属性约简算法进行特征选择,即文本特征的进一步降维,从而得到对于每篇文档的最终的特征表示集。然后采用粗糙集的值约简算法来进行文本分类规则的抽取,从而得到最终的文本分类规则。在得到分类规则后,对于测试文档,采用规则匹配的方法进行分类测试,从而判断出该文本文章所属类别,得到对文本分类的目的。本文从公用文本数据集抽取一部分数据进行实验,从最终特征维数、规则长度、分类准确率和召回率等各个评价指标对本文给出的分类规则抽取方法进行评价。实验所得的较高的分类准确率和召回率证明本文给出的方法是有效的,并将该分类规则抽取方法应用到公安局案例文本数据库的分类汇总中,取得较理想的效果。
其他文献
因特网技术和移动通信技术的不断发展和进步,使移动计算成为当前计算机科学领域一个十分活跃的研究课题。Ad hoc网络,作为一种特殊形式的移动计算机网络,可广泛应用于战场指
磁共振成像技术(MRI)是近年来医学影像学中有效的诊断途径。但是快速成像以及高分辨率MRI使重构后的磁共振(MR)图像呈现出较大的噪声伪影,影响后续的临床诊断和治疗。用于视
现在企业在发展过程中,由于信息与信息之间的屏蔽,很容易在企业中形成一个个的信息孤岛,即企业中各个部门有各自的生产系统和管理系统,但是各个部门之间由于种种原因造成部门
过去人事职称及教师工作量的评定十分烦琐,都是手工填写,然后人事处进行核对和审查,工作进度缓慢、效率低下。随着学校教工数量增多,这种评定方式已难以适应,因此必须进行现代化管
虚拟化技术通过将应用程序封装到虚拟机,使管理员能够更灵活的部署和迁移虚拟机来适应应用负载和物理资源变化。本文研究了云环境下虚拟机迁移行为对整个数据中心的网络开销
近年来,Internet中涌入了大量的音频、视频等实时流媒体应用,如视频点播、IP电话、远程教育等等。随着无线网络技术的迅速发展,实时流媒体流业务将在无线网络中得到广泛的应
虹膜是环绕在瞳孔周围那一圈有颜色和凹凸不平的纹理结构的环状组织,科学家将虹膜划分为30多个区,每个区域对应人体的一种器官,虹膜诊断学通过观察虹膜纹理的形状,深度以及所
随着云计算技术的迅猛发展,越来越多的用户将他们的数据外包给云服务器,以减轻其复杂的管理任务,为了确保存储在不可信云服务器中敏感信息的安全性,数据拥有者会先施行加密操
随着信息化社会的到来,多媒体技术及智能信息处理技术的迅速发展,各行业对图像的使用越来越广泛,图像信息资源的管理和检索显得日益重要。怎样有效地组织管理和检索这些大规
在嵌入式系统中集成TCP/IP协议,将嵌入式系统接入Internet(互联网),已经成为嵌入式技术发展的重要方向。但随着互联网规模的不断扩大,尤其是大量的嵌入式设备接入后,IPv4已逐