文档分类技术的研究与应用

被引量 : 2次 | 上传用户:aiggo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索技术是信息检索领域内的一项关键技术。在此基础上发展起来的文档分类技术,是指对一系列文档按照预先定义的分类体系进行分类的一门新技术。作为机器学习和信息检索的交叉领域,文档分类已被广泛应用于各个领域,现已成为现在信息科学领域的一门重要学科。本文研究的文档指的是文本信息。随着互联网信息技术的迅猛发展,微博作为自媒体的重要表现形式,平均每天新发布量超千万条,其中蕴藏着丰富的舆论热点、新闻资讯等有价值的信息。针对微博的文本处理技术已经成为了中文信息处理中的热点问题,并且具有广阔的应用前景。但是国内外针对较短文本的研究主要是在语义拓展、特征处理等方面,现有的主流分类技术不一定适用于微博文本分类。因此基于现有的微博检索系统进行完善,深入研究面向微博的文档分类技术有着很现实的意义。本文的主要工作包括:1.阅读文档分类技术相关文献和高水平论文。了解和分析文档分类技术所要解决的主要问题及其解决方法。根据该项技术的发展现状趋势进行分析,并提交报告。2.学习全文检索技术,实现中文分词,并对词的统计特征如词频、文档频率、逆向文档频率等指标的含义及用途进行分析验证。并用Lucene针对微博文本建立全文索引系统。3.研究现如今文档分类技术中常用的有督导特征提取算法,如信息增益、互信息等;无督导特征提取算法,如词频、TFIDF、词贡献度、词方差等。并用实验数据证明各个特征的意义以及这些特征提取算法的优缺点。4.完善现有的微博查询系统,改进面向微博的全文检索及分类系统的系统架构。实现了该系统中的六个主要模块:初始化模块、爬虫模块,索引模块,文本聚类模块、分类索引模块以及查询模块。5.提出一种增量的面向微博的聚类算法。每一批聚类得出的结果中心作为参考进行保留,第二次聚类得出中心结果参照前一批聚类中心,通过比较类别之间相似性来进行类别之间的合并与融合,从而得到新的类别。再从新的类别中发现新词,可以做到持续性的发现新词。同时增量的对微博文档进行了类别划分。6.提出一种增量的面对微博的主题词和新词发现算法。针对微博的数量庞大以及更新迅速等特征,专门研究适用于微博的新词发现算法。爬取微博之后,利用改进增量k-means的聚类特性,对于每个类别按照本地的词频选取高频词汇作为候选词汇。然后利用在索引中查找高频词汇的位置以及出现频率来判断两个候选词汇是否可以组合成为新词。7.对最终的系统进行功能和性能的测试并提交最终报告
其他文献
<正> 去年秋季开学,我接受了一班一年级,怎样带好这个新班呢?毛主席教导我们说:“一切实际工作者必须向下作调查。”我在孩子入学前进行了访问,和他们见了面,从家长和邻居口
2013年7月1日修正后的《中华人民共和国老年人权益保障法》(下文简称《老年人权益保障法》)正式颁布实施,该法第17条对老年人的精神赡养作了明确的规定1,被人们称为“常回家看看
目的:探讨冠心病心绞痛患者焦虑抑郁评分的高低及抗焦虑抑郁治疗的疗效。方法:2010年3月~2012年2月于本院心内科治疗的冠心病心绞痛患者120例,对照组为健康志愿者20例,行焦虑
通过优化轧制工艺,改善了中低牌号无取向硅钢电磁性能及表面质量,提高了轧制过程中的稳定性,克服了XG1300WR、XG1000WR、XG800WR带钢热轧生产中易出现的拉窄、厚度波动较大、
目的:探讨盆底肌电刺激(PES)改善脊髓损伤(SCI)后神经源性膀胱的疗效。方法:本研究对21例骶段以上SCI患者进行PES治疗8周,并在PES治疗前1周、PES治疗开始后第2周、第4周、第8
<正>自1996年以来,经B超检查诊断为子宫颈部囊肿即那勃囊肿者,分析如下。 资料与方法 108例患者均已婚,年龄最大51岁,最小28岁,且以宫颈肥大伴发者居多。使用仪器 Aloka-256
行政行为传统四效力理论在学术界一直占据着主导地位,即行政行为的效力包括公定力、确定力、拘束力和执行力。其中公定力在行政行为的效力体系中居于基础性地位,是一种“对世”
民法为私法,不仅体系完整、逻辑严密,同时极富思想,饱含人类社会所追求的自由、平等等价值理念。法律行为制度做为民法的一项重要、基本的制度,其所体现的精神贯穿于合同、婚姻、
在等精度测量、服从正态分布的前提下,主要针对标准偏差和平均值的标准偏差的意义进行较深入的探讨,以解决人们对其模糊认识和在化学检测领域的实际应用等问题。主要涉及的具
简述了高碳钢小方坯裂纹的形成机理,并分别对高碳钢小方坯表面裂纹和内部裂纹产生的机理进行了分析,提出了改进小方坯质量的一些方法。由于连铸坯各种裂纹形成机理的不同,以