搜索引擎搜索结果的聚类研究

被引量 : 0次 | 上传用户:betteryear2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,搜索引擎技术是互联网的一个非常热门的研究领域,并且出现了一批非常优秀的搜索引擎。但目前大多数的搜索引擎以线性列表的形式为用户返回搜索结果,而搜索结果往往是成千上万的,这使得用户可能用很多时间才能找到自己需要的结果。如果对搜索的结果进行聚类,把搜索结果组织成具有层次的类结构,并给每个类赋予一个具有良好描述性的标签,那么将会大大减少用户查找自己所需要的结果的时间。我们论文的主要工作是实现了DIRS(Document Information Retrieval System)系统, DIRS系统是基于Eclipse Plug-in机制的一个对HTML文档进行检索并对搜索结果进行聚类的搜索引擎。DIRS系统实现了从索引、检索整个过程,并提供了丰富的附加功能,比如DIRS系统提供了让用户对搜索结果进行评分的功能,使得用户对搜索结果的评价可以影响到最终的搜索结果的显示。在此基础上,我们还实现了一个聚类模块。聚类模块所使用的聚类算法具有两个重要的特点:Semantic(语义的),Hierarchical (层次的)。这一方法的主要思想是首先根据语义信息找到具有良好描述性的类标签,然后将类标签组织成一棵有层次的标签树。在标签树的基础上,将相关的文档分配到各个标签下,最后确定每个类的实际内容,完成类别树的构建。本文将详述如何使用隐含语义分析的方法来发现类别标签以及将标签组织为层次型标签树。最后,我们使用经典的向量空间模型来实现文档的分配。
其他文献
<正>在人生这个大舞台上,每个人对于成功的理解是不一样的,但有一点──快乐充实地实现自身所承担的责任──是成功人生所共同具有的。
<正>不是简单的国有资本加上民间资本就是混合所有制,要看它能不能培育企业家精神,能不能成为伟大的企业。混合所有制的本质就是产权多元化,十六届三中全会提出产权多元化的
从不同疾病中涉及便秘的病案入手,总结出叶氏所论便秘的病机有胃阴虚、胃阳虚、脾阴虚、肝肾阴虚、肝血肾精久伤延及胃府、三焦气机阻滞、肺失宣降、及阳明久病入络,血瘀气滞
X初级中学作为一所城区全日制公立初级中学,一直面临教师队伍整体素质参差不齐、学生生源差距大、生源结构不合理等现实问题。本研究从这些实际问题出发,对该学校教师工作效
本论文采用D61、D72离子交换树脂催化多元醇、单羧酸等非酸催化剂进行酯化反应,合成羧酸酯。通过研究非酸催化剂催化合成羧酸酯的不同影响因素不断改进合成羧酸酯的方法,以便
加强全面质量管理,推动企业质量提升,推广应用先进质量管理方法,提高全员全过程全方位质量控制水平,有利于企业健康发展,提升企业形象,提高企业质量管理水平和核心竞争力,进
叠石艺术是中国传统园林的重要组成部分,太湖石是叠石艺术的代表。太湖石之所以受到推崇是由于造园主受道家思想的影响,同时道家思想也渗透到了整个中国传统园林文化中。无论
冷鲜禽加工将成为未来我国肉禽产业发展的必然趋势。文章就冷鲜禽肉加工的主要环节及关键技术、副产物的深加工与利用技术等进行分析,指出目前我国冷鲜禽加工产业发展存在问
在多年关注怎样树立生态文明观问题研究的基础上,根据"生态文明观"的内涵和学者专家的现有研究,构建可以有效测评公民生态文明观现状的测度指标体系,并进一步确立其权重以及
"一带一路"战略的实施,为中国推动边疆经济发展和经济分配、整合民族认同和国家认同、维护社会稳定和国家统一、协调陆地边疆和海洋边疆战略等行动带来了前所未有的机遇。同