全文检索技术的研究和应用

来源 :北京邮电大学 | 被引量 : 12次 | 上传用户：forest_28

【摘要】

：

信息检索技术的发展始于上世纪四十年代,最初是用来管理数量巨大的科学文献。随着信息时代的到来,数字化文本的数量以及用户获取信息的需求迅速膨胀,使得信息检索技术日益重

【作者】

：

张帅

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2012年01期

【关键词】

：

信息检索全文检索微博文本分类文本聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索技术的发展始于上世纪四十年代,最初是用来管理数量巨大的科学文献。随着信息时代的到来,数字化文本的数量以及用户获取信息的需求迅速膨胀,使得信息检索技术日益重要。全文检索技术和文本分类技术是信息检索领域的两项重要内容。文本分类是一种基于内容的文档管理技术,在很大程度上依赖于全文检索的基础技术,因而与全文检索有着许多的共同点。微博是一种传播速度快、实时性高、信息源广泛的信息媒介。本文对全文检索技术开展研究,设计并完成了基于Lucene的全文检索系统。在全文检索技术的基础上,对而向微博的文本分类技术展开进一步的研究工作,设计并完成了面向微博的全文检索与文本分类系统。本文的工作可分为两个部分：全文检索相关技术的研究与应用,以及面向微博的文本分类技术的研究与应用。主要内容包括：1、通过对全文检索技术的研究和对工作任务的分析,解决了基于Lucene的全文检索技术中涉及的诸如信息获取、文件管理以及索引管理等问题,设计并完成了基于Lucene的全文检索系统；2、对影响基于欧式距离和余弦相似度的聚类算法的性能的因素展开研究,论证了基于微博的文本分类系统中应该选择的度量指标是余弦相似度；3、基于对微博的统计特征分析,对微博的特征矢量进行建模,提出一种而向微博的K-means的改进算法,该算法可以根据微博文档集自动计算K-means中的K值并初始化该算法,能够动态的适应微博文档集并取得较好的聚类效果；4、基于上述K-means改进算法,提出一种而向微博的未登录词识别算法,该算法可以在保证准确率的同时有效的降低计算复杂度；5、基于全文检索系统和对而向微博的文本分类技术的研究,解决了面向微博的文本分类中涉及的文本聚类、分类索引以及分类查询等问题,设计并完成了而向微博的全文检索及分类系统。

其他文献

高速信元交换结构性能分析与调度算法研究

该文以作者承担的国家"九五"攻关项目"高速路由器的研制"为背景,对高速信元交换结构及调度算法进行了深入系统的分析和研究.

学位

路由器ATM交换机QoS算法

IP网可视通信平台的研究和实现

该文所做的工作结合了国家计委"九五"科技攻关项目"基于IP网的多媒体增值业务平台的研制".论文对H.323协议进行分析和讨论,提出了符合H.323的通信开发平台的实现方案,采用模

学位

IP网络多媒体通信标准H.323通信平台

因为惨败而获胜

期刊

高分“突围”,志愿有窍门