基于信息增益的中文特征提取算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zxqqqzxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是要快速、准确地定位需要的信息却越来越困难。如何在海量的信息中提取有价值的信息成为信息处理的一大热点,各种信息组织和处理的技术被提出来,文本分类技术就是其中之一。文本分类能够处理大量的文本,较大程度解决信息资源杂乱无章的现状,方便用户准确定位所需信息。文本分类涉及文本预处理、中文分词、特征选取等多个过程。其中特征词权重算法和分类算法一直是文本分类过程中的研究热点,算法的优劣将直接影响分类的效果。本文将特征词权重算法和分类算法作为重点研究对象,针对它们存在的不足进行改进。本文主要工作如下:①分析权重公式TFIDF和TF.IDF.IG。②对TF.IDF.IG的进一步分析,发现TF.IDF.IG对TFIDF的改进并不彻底,TF.IDF.IG只考虑了词语在文档集合中的分布情况,没有考虑词语在不同层次的分布情况对权重的影响。本文将从类别层次和文档层次两个层面去改进TF.IDF.IG,提出新的特征词权重计算公式。③对现有分类算法KNN进行分析,针对其在决定测试样本的类别时,把测试样本的k个最近邻等同看待的缺点,本文将模糊数学的隶属度函数引入KNN算法来改进其类别属性函数,从而区别对待测试样本的k个最近邻。④为了验证本文改进的TF.IDF.IG方法的正确性和KNN算法用于中文文本分类的效果,本文将完成两个实验:1)将改进的TF.IDF.IG权重算法和TF.IDF.IG对比实验;2)将改进的KNN算法和原始KNN分类结果比较。实验结果证明,本文改进的TF.IDF.IG算法是成功的,正确的,并且是可行的;改进KNN算法也是同样有效的。
其他文献
借助计算机来进行医学图像处理和分析,是图像处理技术结合医学影像特点的重要应用。计算机辅助诊断系统在医学研究和临床诊断中,尤其是缺少专家的情况下具有十分重要的意义。
随着智能电网建设的不断发展,系统中采集点越来越多。一个中等规模地区的采集量可以达到2万至10万条记录,而一个大型地区未来面临50万至100万条记录的数据采集规模,一个地区
目前移动运营商正在从移动通信专家向移动信息专家转型,随着移动运营商角色策略的转变,整个增值业务市场也在转变,移动运营商已经开始对市场进行整合,同时开始自营业务的试探。按
呼叫中心(Call Center CC)是企业与客户沟通的桥梁,为客户提供信息服务的系统。呼叫中心以计算机电话集成(Computer Telephony Integration CTI)技术为基础,结合通信网、计算
人工免疫系统研究旨在抽取生物免疫系统中独特的信息处理机制,研究和设计相应的模型和算法,进而应用与解决各种复杂问题。人工免疫作为计算智能领域的研究热点,已经在信息安
近年来移动互联网和半导体技术迅速发展,人们对家居生活的网络化、智能化、节能化的需求越来越强烈,传统的照明系统已不能满足现代人旳生活和品质需求,在这样的背景下智能照
计算机技术高速发展的趋势下,电厂出现了解决各类实际问题的不同应用系统,不同应用在各方面提高了电厂运行、管理和工作效率,然而应用的复杂多样性也存在一定的弊端:增加维护成本,系统之间存在数据冗余和数据不一致,跨应用间的宏观优化和分析存在一定难度等问题,致使电厂在运行管理和决策上到达了“瓶颈”。因此,解决各应用之间的“信息孤岛”问题是电厂提高效率的必由之路。另一方面,在大数据、云计算等技术的充斥下,对数
随着全球竞争的不断加剧,制造业在产品的设计、制造与市场方面正面临着前所未有的挑战,传统的串行设计方法已经不能满足不断快速变化的市场需求。随着信息化进程的不断深入,
诱导多能干细胞(Induced Pluripotent Stem Cells,IPS)是一种通过引入外源基因诱导体细胞去分化得到的多能干细胞。诱导多能干细胞能进行体外细胞分化,培养出各种组织器官,为
在人们的生活逐渐进入数字化的今天,数字产品的版权保护问题也日益突出。数字水印技术通过将特定的信息嵌入到载体作品中,为数字产品的版权保护与完整性认证提供了一种有效的