论文部分内容阅读
全文检索技术是信息检索领域内的一项关键技术。在此基础上发展起来的文档分类技术,是指对一系列文档按照预先定义的分类体系进行分类的一门新技术。作为机器学习和信息检索的交叉领域,文档分类已被广泛应用于各个领域,现已成为现在信息科学领域的一门重要学科。本文研究的文档指的是文本信息。随着互联网信息技术的迅猛发展,微博作为自媒体的重要表现形式,平均每天新发布量超千万条,其中蕴藏着丰富的舆论热点、新闻资讯等有价值的信息。针对微博的文本处理技术已经成为了中文信息处理中的热点问题,并且具有广阔的应用前景。但是国内外针对较短文本的研究主要是在语义拓展、特征处理等方面,现有的主流分类技术不一定适用于微博文本分类。因此基于现有的微博检索系统进行完善,深入研究面向微博的文档分类技术有着很现实的意义。本文的主要工作包括:1.阅读文档分类技术相关文献和高水平论文。了解和分析文档分类技术所要解决的主要问题及其解决方法。根据该项技术的发展现状趋势进行分析,并提交报告。2.学习全文检索技术,实现中文分词,并对词的统计特征如词频、文档频率、逆向文档频率等指标的含义及用途进行分析验证。并用Lucene针对微博文本建立全文索引系统。3.研究现如今文档分类技术中常用的有督导特征提取算法,如信息增益、互信息等;无督导特征提取算法,如词频、TFIDF、词贡献度、词方差等。并用实验数据证明各个特征的意义以及这些特征提取算法的优缺点。4.完善现有的微博查询系统,改进面向微博的全文检索及分类系统的系统架构。实现了该系统中的六个主要模块:初始化模块、爬虫模块,索引模块,文本聚类模块、分类索引模块以及查询模块。5.提出一种增量的面向微博的聚类算法。每一批聚类得出的结果中心作为参考进行保留,第二次聚类得出中心结果参照前一批聚类中心,通过比较类别之间相似性来进行类别之间的合并与融合,从而得到新的类别。再从新的类别中发现新词,可以做到持续性的发现新词。同时增量的对微博文档进行了类别划分。6.提出一种增量的面对微博的主题词和新词发现算法。针对微博的数量庞大以及更新迅速等特征,专门研究适用于微博的新词发现算法。爬取微博之后,利用改进增量k-means的聚类特性,对于每个类别按照本地的词频选取高频词汇作为候选词汇。然后利用在索引中查找高频词汇的位置以及出现频率来判断两个候选词汇是否可以组合成为新词。7.对最终的系统进行功能和性能的测试并提交最终报告