主题搜索引擎聚类算法的研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:Garyzhaoqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当互联网走入我们的生活并逐渐改变这个世界的时候,搜索引擎,作为信息检索最有效的工具也逐渐被我们熟悉和使用。互联网给我们带来了信息共享的一次巨大革命,搜索引擎给这场革命注入了鲜活的血液。面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。根据最近统计,在中国搜索引擎使用率达到81.9%,用户规模3.75亿。搜索引擎已经成为第一大网络应用服务,是用户获取信息的首要途径。本文首先介绍了国内外搜索引擎技术的发展及研究现状,总结了目前常用的全文检索搜索引擎的基本工作原理和存在的问题,接着详细讨论了文本聚类的原理以及几种常有聚类算法和改进方向。本文通过大量实验,提出了词频变差的理论,并将该理论应用于主题词的提取。通过对聚类算法的研究,提出了最优密度选择聚类算法。并将此算法和层次聚类算法结合在一起进行文本聚类,优化了文本聚类技术,提升了搜索引擎查询性能。在此基础上实现了面向主题的文本聚类算法的搜索引擎。该搜索引擎与同类搜索引擎相比,更具有专业化特点,查询信息的准确度也有所提升。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
基于选择实验法,通过问卷走访调查实证分析了消费者对鲜活类水产品的质量可追溯体系、机构认证信息、品牌知名度和产品鲜度4个质量安全属性的支付意愿和偏好情况。结果表明,
随着计算机技术和国际互联网的飞速发展,包括图像在内的各种多媒体数据的数量正以惊人的速度增长。如何有效、快速地从大规模图像数据库中检索出所需要的图像是目前一个急需
格拉斯在其作品中赋予了饮食丰富的内涵和寓意,将其当作一面三棱镜,折射出饮食和叙事、历史、权力、文明、女性、生活意义等众多内容之间隐匿、复杂而有趣的关联。饮食既体现
在生物识别问题中,特别是人脸识别领域,由于原始图像的维数相当高,直接在原始图像的基础上进行处理,将加大算法的复杂度,并且对计算机的硬件性能也是一个挑战,因此特征抽取成
仿真已成为复杂系统分析的有力工具,广泛用于性能评估、系统设计与决策支持等领域。复杂系统(特别是高分辨率的)仿真一般需要较大的计算量,仿真数据的产生代价很高。基于仿真
和牙龈出血指数明显低于对照组,且牙周附着水平高于对照组(P<0.05);随访2年,观察组的年均缺牙数少于对照组,慢性牙周炎复发率11.63%低于对照组30.23%(P<0.05)。结论慢性牙周炎患者在常