文本特征抽取方法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:bulocom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断普及,人类的知识正通过互联网这个平台不断的实现资源共享。但是,由于互联网上的资源是非常庞大、无组织且不断更新的,人们想要从浩瀚的互联网资源中及时地提取出自己关注的内容是非常困难的。因此,文本挖掘技术应运而生。而文本特征抽取,是提高文本挖掘效率和正确率的根本前提。   粗糙集理论是20世纪发展起来的一种新的处理模糊性和不确定性知识集合的数学工具。在信息系统分析,数据挖掘等领域具有很高的应用价值。   本文重点介绍了粗糙集理论的基本概念、基本方法。分析了当前比较流行的文本特征抽取的方法,从算法的特征约简率和文本正确分类率两个方面,对当前算法进行了比较与分析。在此基础上,本文根据文本特征约简的根本目的,以及粗糙集理论关于决策属性相对于条件属性的依赖程度的基本原理,提出了新的文本特征属性重要度的计算方法,该文本特征属性重要度是基于特征权重在文本类内方差和类间方差而计算得到的。这种文本特征属性重要度的计算方式,可以根据文本特征属性的分类能力确定该特征属性的重要度。在文本预处理阶段,本文的基于WordNet将文本词条向量提升为文本概念向量,解决了“同义词”问题。为了进一步提高文本特征的约简率,本文提出了属性相关度分析方法,该方法可以确定两个特征属性相对文本分类所起到作用的近似程度,并在此基础上剔除相关度较高的属性,从而提高属性约简率。结合WordNet、新的特征属性重要度定义,以及属性相关度分析理论,本文设计了一套完整的文本特征约简算法(Text Feature Extraction based on Rough Set,TFERS),该算法充分提高了文本特征的约简率和文本正确分类率。   最后,本文在Reuters-21578测试集合上对经典的LSI算法、Songbo Tan等人的DB2算法、以及本文提出的TFERS算法进行了对比实验,并分析实验结果数据,每种方法的优劣及其形成的原因。为文本特征抽取算法的进一步研究积累了一定的经验。
其他文献
随着我国交通管理部门信息化程度的不断提高,系统各业务部门累积了大量异构的业务数据,针对如何更加高效地利用各个业务部门的数据信息,并能从这些海量数据中更加有效地提取信息
啤酒发酵过程是一种典型的具有大时滞性和时变不确定性的工业过程。一般控制方式在此过程中不能达到理想要求,因此设计出一种既方便可行又满足啤酒发酵过程温度控制要求的智能
由于我国煤矿开采条件复杂、自然灾害严重,煤炭企业生产力水平整体偏低、安全生产基础比较薄弱,煤炭企业生产与安全的矛盾突出,特大事故时有发生,煤矿仍是我国当前安全生产事
随着计算机技术以及三维成像的软硬件技术的迅猛发展,三维数字化技术愈来愈多地得到人们的关注和应用。三维数字化技术概括地说可以分为数据采集、表面网格重建和表面信息获
刚体的姿态控制属于控制领域中的热门问题,在航空航天工程、机器人控制、车辆工程等领域有着广泛的应用。刚体姿态控制系统性能的好坏直接关系到其通讯、测量、数据传输等任务
随着社会经济的发展以及各领域对安全的不断重视,对于身份认证的需求越发迫切。而基于人体固有的物理特征和行为特征作为认证信息的生物认证技术得到了广泛关注和应用,即通过
基于机器视觉的目标识别是一门复杂的学科,结合了数字图像处理、模式识别、机器人理论等学科,现已充分融入到了工业自动化、军事、国防以及医疗等领域。由于基于移动机器人的目
随着信息技术的发展,条码在许多领域中得到了广泛的应用,大大提高了各行业的生产工作效率。进入20世纪80年代以来,人们围绕如何提高条码符号的信息密度,展开了多项研究工作。与此
在科学技术高速发展和信息爆炸式膨胀的时代,如何快速和有效的从海量信息中获取有用信息是信息检索技术主要的研究课题。当前应用广泛的后缀树和后缀数组全文搜索方法在搜索
近年来我国煤矿事故频繁发生,造成重大经济损失和人员伤亡。目前矿用传感器一般只能测量某一个量,而且分布在矿井巷道中不同的地方,因此每个传感器与井下分站之间都需用数据