基于元搜索与内容聚类的情报获取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:YOYO654321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前网络信息已经成为主要的情报源,其获取的主要方式之一就是使用搜索引擎。但是,利用搜索引擎获取的网络信息仍存在很多问题:例如获取的信息量很大但是有用信息很少;获取的信息多样但是用户无法识别相关信息群体等。有用信息资源的获取已经逐渐成为情报业发展的一个瓶颈。因此,如何从海量信息中剔除无用信息,迅速定位至信息群,从而快速、高效地获取情报资源,并对其进行加工整理并提供给情报用户,是情报界人士面临的一大挑战,也是目前亟需解决的问题。本论文以提高情报获取效率与质量为主要目标,研究和实现了基于元搜索与内容聚类的情报获取系统。主要创新点:(1)设计了情报获取系统的总体框架,提出了搜索模块、运算模块、用户模块三大功能模块,并阐述各模块的功能流程。(2)提出了基于网页标题摘要分析方法进行元搜索引擎结果相关性判断。实验结果表明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。(3)结合当前两种主要的聚类算法—K-means划分法和BIRCH聚类算法,提出了在元搜索结果处理基础上进行聚类的方法。实验证明,该方法在聚类效果上有较明显的改善,并且效率得到了很大提高。(4)在情报获取系统的设计实现方面,提出了数据库系统、软件系统、人机界面的设计方案,实现了基于网页标题摘要分析的信息检索、基于元搜索结果和K-means与BIRCH算法结合算法的聚类分析,以及基于OLAM的多维分析。
其他文献
林业病虫害防治是一项长久而艰巨的工程。本文结合目前的形势,对我国林业病虫害问题进行研究,分析病虫害在我国产生的原因,提出一些无公害防治林业病虫害的对策。
外贸出口对花生仁的破损粒、霉变粒、大小、外形等外观品质有着明确的规定,但目前市场上除了光电色选机可以对霉变粒进行分拣外,其他外观品质指标主要依靠人工进行,难以满足
<正>英语作为一门外语,无论是教学方法还是教学要求上都有其特殊性。我们在教学过程中总会发现,本来都是从起点开始学习英语的孩子,可是到了高年级以后,学生的成绩差距就越来
本文主要是通过对玉米螟的形态特征以及对玉米的危害还有生活习性进行阐述,并且针对玉米螟的特征制定防治措施,为大家提供参考。
<正>在初中物理学习现状调查中,发现约占四成的学生普遍存在物理成绩上不去的现象,学习物理的畏难情绪严重,造成这种现状的主要原因之一是教师没有落实高效课堂。新课改下背
<正>当前,全军各级政工网以丰富的资源新颖的形式受到广大官兵的欢迎,成为官兵获取知识、增进交流的平台。政工网的普及,有效促进了政治工作信息化的发展,但从目前政工网建设
湟水流域地处青藏高原与黄土高原两大区域边缘地带,居住着汉、藏、蒙、土、回和撒拉等众多民族,是季风区和非季风区、农业区和牧业区、汉文化和藏文化的交汇处,具有浓郁的多
回鹘文《玄奘传》约在公元10—11世纪由新疆别失八里人胜光法师译自汉文,它是20世纪以来新疆出土的重要回鹘文文献之一,就其价值而言,可与之相比的只有《金光明经》、《弥勒会见
<正>从经济学维度审视,雷锋精神不仅深度契合市场经济里"经济人"、"道德人"的内含属性,而且完全交融社会主义市场经济的本质吁求及根本原则。换言之,社会
作为林业发展过程中的一个重要的影响因素,林业病虫害每年都将造成非常巨大的损失,所以做好防治工作关系到林业和社会的健康持续发展,意义重大。现阶段,林业病虫防治过程中存