全文检索技术的研究和应用

来源 :北京邮电大学 | 被引量 : 12次 | 上传用户:forest_28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索技术的发展始于上世纪四十年代,最初是用来管理数量巨大的科学文献。随着信息时代的到来,数字化文本的数量以及用户获取信息的需求迅速膨胀,使得信息检索技术日益重要。全文检索技术和文本分类技术是信息检索领域的两项重要内容。文本分类是一种基于内容的文档管理技术,在很大程度上依赖于全文检索的基础技术,因而与全文检索有着许多的共同点。微博是一种传播速度快、实时性高、信息源广泛的信息媒介。本文对全文检索技术开展研究,设计并完成了基于Lucene的全文检索系统。在全文检索技术的基础上,对而向微博的文本分类技术展开进一步的研究工作,设计并完成了面向微博的全文检索与文本分类系统。本文的工作可分为两个部分:全文检索相关技术的研究与应用,以及面向微博的文本分类技术的研究与应用。主要内容包括:1、通过对全文检索技术的研究和对工作任务的分析,解决了基于Lucene的全文检索技术中涉及的诸如信息获取、文件管理以及索引管理等问题,设计并完成了基于Lucene的全文检索系统;2、对影响基于欧式距离和余弦相似度的聚类算法的性能的因素展开研究,论证了基于微博的文本分类系统中应该选择的度量指标是余弦相似度;3、基于对微博的统计特征分析,对微博的特征矢量进行建模,提出一种而向微博的K-means的改进算法,该算法可以根据微博文档集自动计算K-means中的K值并初始化该算法,能够动态的适应微博文档集并取得较好的聚类效果;4、基于上述K-means改进算法,提出一种而向微博的未登录词识别算法,该算法可以在保证准确率的同时有效的降低计算复杂度;5、基于全文检索系统和对而向微博的文本分类技术的研究,解决了面向微博的文本分类中涉及的文本聚类、分类索引以及分类查询等问题,设计并完成了而向微博的全文检索及分类系统。
其他文献
该文以作者承担的国家"九五"攻关项目"高速路由器的研制"为背景,对高速信元交换结构及调度算法进行了深入系统的分析和研究.
该文所做的工作结合了国家计委"九五"科技攻关项目"基于IP网的多媒体增值业务平台的研制".论文对H.323协议进行分析和讨论,提出了符合H.323的通信开发平台的实现方案,采用模
期刊
期刊
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种主动式微波遥感设备,其结合脉冲压缩技术和合成孔径技术,实现了利用小孔径天线取得高分辨率的成像特性。因具有全天候、全
"天达"代理型防火墙是针对园区网中www访问控制与优化而设计的.系统平台是Red Hat Linux 6.0,使用的语言是c语言并使用GNU gcc编译.该系统设计的目标是在Linux平 台上为园区
从二维图象精确地获取景物的三维信息是计算机视觉研究的首要任务,也是难点之一.以往侧重于在定标系统下研究三维信息的获取,但静态定标过程复杂而且不方便.该文首先研究未定
随着现代无线通信技术的飞速发展,新兴的通信技术如雨后春笋般层出不穷,而传统的定位技术已经被大家广泛熟知与应用,继而衍生出对于新型无线定位技术的渴求与渴望。自然环境
在论文的绪论部分,文章结合现场的实测,分析了中压配电网作为通信信道的基本特性;在第二章,文章介绍了中压配电网调妥调器所用π/4-QPSK调制方式的基本原理,在第 三章,文章给