中文文档分类中若干关键技术的研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:queenie88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,我们步入了一个信息化的社会,信息量呈几何级数增加。人们对信息资源的依赖性越来越大,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。 文本分类是指对于带有类别的文本集合,根据每一个类别的文本子集合的共有特点,找出一个分类函数或分类模型,根据该模型可以把其它文本映射到已有类别中的一个,从而实现对文本的自动分类。它使得用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。 本文研究了文本分类的背景和发展现状,阐述了其系统结构。在系统的构建过程中,重点针对中文分词技术,文本表示,特征选取算法和分类算法四部分进行了详细的分析和深入的研究,并在现有方法的基础上分别予以改进。在下面的四点中,分别简单介绍了本文针对以上四个关键部分所做的主要工作。 (1).在中文分词部分,针对基于字典的分词方法中词典的容量有限,随现代社会发展迅速,新词不断出现导致分词方法极大地受到了词典的约束这个问题,本文提出了一种渐进式扩充词典的分词方法,在这种方法中结合了基于字符串匹配和基于统计相结合的分词方法。可以用统计的方法识别出词典中没有的新词,并将其补充进词典中,不断地扩大词典的规模,从而极大地提高了分词的准确度。 (2).在文本表示这一部分,本文通过分析经典的TF-IDF公式存在的问题:该公式在计算特征词权重时,仅考虑了词频因素而忽略了特征词在文章中的位置、特征词的长度、特征词出现在类内类间的文本频数这三个因素对词条权重的影响,提出了一种新的特征词权重的计算方法,该方法将这三方面的因素考虑进来,在TF-IDF 公式的基础上又进行了进一步的改进。 (3).在DF方法中,本研究发现以整篇文章为单位来衡量词条的重要程度往往没有以段为单位更精确些。另外,词条所属类的文本总段数与整个训练文本集的文本总段数的比例对词条的代表性也有很大的影响。本文针对这两方面的特点对DF 公式进行了改进,简称为NDF。 (4).文本分类算法是一种有监督的学习算法,它需要一个分类好的,类别己标识的文本数据集来训练分类器。本文通过将聚类的无监督性和样本的先验知识结合起来进行文本的分类,构造了应用范围更加广泛的分类学习模型。利用未标识文档进行学习的半监督学习算法已成为分类算法研究的重点。
其他文献
随着移动通信行业的高速发展,移动通信用户迅速增长,移动设备已成为人们不可或缺的工具,同时随着移动设备功能的不断增强,它的使用范围也从单纯的打电话、发信息扩展到了企业、银
当前,我们所处的时代数据爆炸式增长,是一个名副其实的大数据时代,商业交易记录、社交网络信息等等每天都产生海量数据,而这些数据的利用率相当低,从中发掘出有用的信息指导
本论文结合了国内部分企业在渠道业务调整中的客户关系处理的实际情况,以及企业对客户关系管理的重视程度和CRM软件实施的实际处理效果。 在分析了大量的市场案例并结合CRM
当今世界,信息技术代表着先进生产力的发展方向,它促进了经济结构调整的发展,需要一个高效的税收管理体制和征管机制与之相适应,同时也要求税收管理必须按照国际惯例运行。因此,积
本文的目的在于设计与实现基于Symbian OS的Series60(S60)手机游戏开发引擎。通过实际的游戏编程经验和对多个经典游戏代码的分析,找出游戏开发过程中共性的东西,结合相关技术
可信计算在强调安全硬件的基础上同时加强软件的安全性,能够从根本上加强网络的安全性。Ad Hoc网络由于其自身的特点,安全性存在很大的问题,可信计算技术在Ad Hoc网络中的应用,能
随着计算机网络技术与多媒体技术的迅速发展,多媒体数字产品越来越需要一种有效的版权保护方法。为防止越来越多的电子信息产品的盗版、恶意攻击和非法篡改问题,数字视频水印技
电子商务是指基于互联网平台实现商业交易电子化的行为。本文以天津国贸与航运中心电子商务系统模型为原型进行了研究,首先介绍了课题的背景及其意义,然后进行了系统的需求分析
学位
随着网络技术的飞速发展及其应用的普及,网络安全问题正成为人们关注的焦点。黑客技术站点的增多和黑客工具的智能化,使成为一名黑客的门槛越来越低。作为黑客攻击的第一步,就是