论文部分内容阅读
信息检索技术的发展始于上世纪四十年代,最初是用来管理数量巨大的科学文献。随着信息时代的到来,数字化文本的数量以及用户获取信息的需求迅速膨胀,使得信息检索技术日益重要。全文检索技术和文本分类技术是信息检索领域的两项重要内容。文本分类是一种基于内容的文档管理技术,在很大程度上依赖于全文检索的基础技术,因而与全文检索有着许多的共同点。微博是一种传播速度快、实时性高、信息源广泛的信息媒介。本文对全文检索技术开展研究,设计并完成了基于Lucene的全文检索系统。在全文检索技术的基础上,对而向微博的文本分类技术展开进一步的研究工作,设计并完成了面向微博的全文检索与文本分类系统。本文的工作可分为两个部分:全文检索相关技术的研究与应用,以及面向微博的文本分类技术的研究与应用。主要内容包括:1、通过对全文检索技术的研究和对工作任务的分析,解决了基于Lucene的全文检索技术中涉及的诸如信息获取、文件管理以及索引管理等问题,设计并完成了基于Lucene的全文检索系统;2、对影响基于欧式距离和余弦相似度的聚类算法的性能的因素展开研究,论证了基于微博的文本分类系统中应该选择的度量指标是余弦相似度;3、基于对微博的统计特征分析,对微博的特征矢量进行建模,提出一种而向微博的K-means的改进算法,该算法可以根据微博文档集自动计算K-means中的K值并初始化该算法,能够动态的适应微博文档集并取得较好的聚类效果;4、基于上述K-means改进算法,提出一种而向微博的未登录词识别算法,该算法可以在保证准确率的同时有效的降低计算复杂度;5、基于全文检索系统和对而向微博的文本分类技术的研究,解决了面向微博的文本分类中涉及的文本聚类、分类索引以及分类查询等问题,设计并完成了而向微博的全文检索及分类系统。