基于文本聚类搜索引擎查询扩展算法的研究与实现

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:shabi12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的出现使得信息不断激增,搜索引擎给人们提供了一种从海量信息中定位信息的有效工具。然而信息增长的速度超乎人们的想象,在信息爆炸面前,传统的通用搜索引擎查询方式已不能继续满足人们的需求,如何有效组织浩瀚汪洋中的多样化信息并以合理有效的方式提供给用户是搜索引擎面临的巨大挑战。数据挖掘、模式识别、语义网、本体、查询扩展等技术在搜索引擎领域大显身手,被人们广泛的应用以解决搜索引擎面临的挑战和问题。本文首先介绍了搜索引擎的发展,国内外的研究现状,传统全文检索搜索引擎的基本原理及存在的问题。之后阐述了本文的研究重点查询扩展的发展及趋势。接着从聚类算法选取策略、扩展词选取策略、相似度计算方法等方面详细介绍了本文提出的基于文本聚类搜索引擎的查询扩展算法,该算法结合本文实现的文本聚类搜索引擎系统的实际应用做了一些改进,针对基于文本聚类搜索引擎存在的深入查询问题提供了一种解决方案。然后介绍了本文实现的文本聚类搜索引擎原型系统的模块设计及数据库设计,并通过实验验证了本文提出的查询扩展算法的有效性。
其他文献
随着集成电路的发展,功耗问题已经成为制约现代片上系统设计的重要因素。功耗的增加不仅导致芯片消耗更多的能量,增加芯片的封装和散热成本,而且会对芯片的性能和可靠性造成
嵌入标识是人工添加到视频上的具有特定含义的标识,如电视标识、栏目标识、网站标识等等。视频中的嵌入标识包含着重要的语义信息,对其识别可以为视频内容分析提供重要语义信
随着网络服务的不断增长,尤其是近年来云存储的发展,使得需要存储的数据量越来越多。与此同时,数据价值的重要性使得企业和个人都难以容忍数据的丢失,大型商业应用对连续性存
税收是保障国家经济有序发展、政治持续稳定的强制性管理手段,严格、准确、及时地收缴税款体现着国家的意志和利益。因此国内厂家基于GB18240标准纷纷研制税控管理系统,完善现
随着信息技术应用的普及和深入,各种信息系统存储并积累了丰富的数据。人们对于数据的需求极大地促进了数据的采集、存储、发布、共享和分析。然而,数据集里通常包含着个人的隐
随着计算机及网络技术的飞速发展,人类被推向了信息网络化时代。网络在给人们的工作、生活和学习带来便利,给社会的发展带来强大动力的同时,它的开放性也给社会及个人的安全带来
进程的在线迁移是分布式集群系统中的关键技术,一直以来是国内外活跃的研究课题。然而之前研究人员主要关注无用户交互的进程,如服务器守护进程,而本文的研究重点是GUI应用的在
心电图(ECG)记录着一个心脏的电活动,是与心脏搏动相关的电位变化图。心电图在诊断各种心血管疾病诸如冠状动脉疾病、心肌缺血、损伤和梗死等疾病时具有特别重要的意义。本文
随着航空航天技术不断发展,空间通讯协议规范种类日益增多,不同国家不同项目所选用的通信协议通常有或大或小的差异。在合作项目中,对通信协议理解上的差异或者使用的协议规范版
中国煤炭企业的安全生产问题面临着严峻的挑战,物联网的广泛应用,提供了对煤矿安全进行实时监控的可行方案。本文通过对物联网应用以及煤矿信息监控需求的调研,提出了基于物