基于Nutch的聚类搜索引擎的研究与实现

被引量 : 0次 | 上传用户:h2302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网蓬勃发展的今天,网络信息呈指数式增长。面对海量的网络信息,如何以最快捷、准确的方式获取信息,也许是每一个网民最大的需求。在这种情况下,谷歌、百度、雅虎等搜索引擎顺势而生,为网民获取信息打开了通路。但是,传统的搜索引擎远非完美,其以线性列表的方式显示搜索结果,给网民快速获、准确地取信息带来了困难。因此,研究者们将文本聚类引入到对搜索引擎返回结果进行分析的过程中,以帮助用户快速找到所求。本文的研究工作主要围绕如何提高聚类质量和聚类算法计算效率展开。具体做法是从非负矩阵分解算法、向量空间模型、后缀数组排序和中文分词模块四个方面着手,对中文聚类算法的关键技术进行深入的研究,并以Lingo聚类算法为原型,研究提出了一种用于对中小规模文档集进行聚类分析的中文聚类算法Rlingo。本文所做的主要工作是:第一、首次将基于板仓-斋藤散度的非负矩阵分解引入到聚类分析中,提高了聚类标签的可读性和聚类结果的整体质量;第二、将位置因素和词性因素引入对传统的向量空间模型进行改进,进一步提高了聚类结果的质量;第三、基于线性后缀数组排序算法:skew算法,提出了一种能消除无实际意义特征词对特征抽取质量干扰的改进型skew后缀数组排序算法,减少了聚类算法对中小规模文档集进行聚类分析的处理时间;第四、基于Nutch,利用Rlingo实现了一个面向旅游的聚类系统,系统性能基本达到预期效果。最后,本文设置了对照实验,比较了Rlingo、Lingo、K-means和STC的综合性能。实验表明:Rlingo聚类算法对中小文档集的聚类结果明显优于其他三种聚类算法,改进的聚类算法基本达到预期效果。
其他文献
目的探讨影响2型糖尿病患者血糖控制的相关因素。方法随机抽取辖区社区卫生服务中心管理的2型糖尿病患者376例,对一般资料进行调查,同时进行体格检查及空腹血糖检查,分析结果
本文使用占位填料法和凝胶铸造法制备多孔钛,通过调整孔隙率使多孔钛力学性能与骨组织力学性能匹配,以减轻钛植入体材料与骨组织的应力屏蔽。使用占位填料法制备多孔钛,选取
研究目的:本课题采用中药自拟方配合耳穴贴压治疗围绝经期失眠,以观察其临床疗效,探讨其作用机理,为本法在临床上应用及推广提供理论依据。研究方法:本课题将符合纳入标准的96
近年来地方各级政府都不断加大对水利建设的投入,在全国各地陆续发生了一系列重大的水利建设中,每一场重大水利建设的成功背后都有着水利专项资金的强力支撑。县级政府应该如
目前随着原卫生部癌痛规范化治疗的提出,癌痛规范化管理也逐渐被重视起来。规范癌痛管理,能有效控制癌痛,减轻癌痛患者的痛苦,改善其心理功能,进一步提高癌痛患者的生活质量,
目的:观察俞募配穴埋线对免疫性不育症的临床疗效及对血清β-内啡肽(β-EP)的影响。方法:将符合本研究诊断标准的120例男性免疫性不育症患者随机分为埋线组(60例)和西药组(60
目的:通过对比静脉应用托拉塞米和呋塞米,探讨托拉塞米的临床安全性及对心功能改善的影响。方法:选取40例充血性心力衰竭患者,随机分为两组,在心衰基础治疗一致的情况下,记录
叙事是一种思维和表述方式,它能够引领我们认识和理解世界。新闻再现原初事实的过程正是一种叙事过程,把握一定的叙事策略无论对事实信息有效传递还是对观点的传输都具有积极意
现代制造业正向更高的生产效率、更高的制造精度发展,在零件加工中如果能够掌握刀具的切削参数以及最大寿命,在刀具进入急剧磨损阶段前,且达到工件最大加工数量时,更换刀具或刀片
随着我国经济的发展,农村城市化正成为社会结构变迁的一种表现形式,城市化离不开土地的开发利用。我国现行的土地制度是城乡二元制,土地分为国家所有和农村集体所有,但城市开发和