基于链接结构的站点主题层次抽取方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yjf11230301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的普及以及互联网的快速发展,网络已经成为人类信息资源的重要组成部分。互联网上信息的爆炸式增长,使得来自各个领域的用户从互联网中获取信息变得越来越困难。互联网技术的快速发展产生了很多的应用和相关技术的研究,在这些研究领域中,如何帮助用户方便快捷的找到所需要的信息一直是一个研究热点。从互联网上查找信息的两个主要的方法是浏览和搜索。由于网站结构的复杂化,快速有效的从一个大的站点中定位到用户想要的页面就变得更为困难。为了克服这个问题,不少站点通过提供表示站点主题层次的站点地图来帮助用户浏览。同样,对于搜索引擎来说,将站点的主题层次应用到搜索引擎,可以为用户提供一个更有效的搜索结果呈现的方法。目前,网站提供的站点地图都是由网站制作人员手工添加的,需要花费不少的人力,并且只能覆盖到站点的少部分页面。本文研究的目的是实现一种可以覆盖到站点全部页面的站点主题层次的自动抽取方法。本文概要介绍了近年来国内外站点主题层次抽取算法的基本原理,并分析其各自的优缺点及其适应范围。介绍了主题层次提取的现状及其主要技术,详细分析了基于链接结构的主题层次抽取算法的设计与实现。本文的研究内容主要包括以下几个方面:(1)通过对网站内页面间的链接结构分析,建立起网站的链接结构模型。将站点页面链接结构表示成一个以页面为点,页面间的链接为边的有向图。(2)通过链接指向分析对链接类型进行分类,消除upward链接的影响使基于URL目录信息的链接加权更为准确。引入页面的类型分析,区分页面中的主题入口页面和内容页面。并通过向量空间模型计算出的页面主题相似度来为链接加权,从而完成站点加权链接库的建立。(3)通过对链接结构的有向图中的边进行加权,我们得到整个站点的一个加权有向图。以站点的首页为起点,应用单源最短路径算法,为图中的每一个节点找到一条从根节点到它的最短路,从而抽取出了站点的主题层次结构。(4)对改进的主题层次结构抽取算法的准确性进行评测,并将算法的结果与前人的算法进行对比评测,验证抽取系统的有效性和准确性。最后将抽取出的站点层次信息应用到搜索引擎的结果展示中去,给出带有上下文主题信息的站内搜索演示系统。通过系统演示表明,本文所做的研究,在搜索结果的上下文主题展示上达到了很好的预期效果。
其他文献
在信息化进程中,引入XML技术研究数据的集成和共享是当前的研究热点。网络发展导致全球化竞争愈演愈烈,为了提高竞争力,企业越来越重视体现用户个性差异的个性化信息服务。目
Java虚拟机是Java的核心技术之一,是Java技术实现“平台无关”特性的基础。Kaffe虚拟机是一款能够净室执行的开源Java虚拟机,是需要执行Java应用程序的开源嵌入式系统的很好
在大数据时代,数据作为公共组织、企业越来越重要的资产,正历史性的改变着企业资产的发展进程。作为数据挖掘的一个重要研究方向和技术,关联规则旨在从大量数据中发现某些特
近年来,随着越来越多对等软件的问世,对等系统迅速成为人们关注的一个热点。对等数据管理系统是一类用于共享结构化数据的对等系统,然而,数据映射表作为系统中重要的查询翻译
如今人们在互联网上不仅仅上网冲浪娱乐,很多商务活动也通过网络的形式开展。网络应用的发展带来了很多安全问题,其中对个人隐私的保护是其中很重要的一个。考虑这样一个很普
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
[摘 要] 随着科学技术的不断发展和完善,慕课已经成为大学英语教学的重要组成部分,为学生提供了良好的在线学习和实践环境,为学生发展奠定了良好的基础。本文主要从慕课的概念和内容出发,对慕课时代下大学英语教学的机遇进行分析,并结合教学经验,深入挖掘慕课时代背景下大学英语教学面临的课程挑战、资源挑战、素质挑战等,望为大学英语教学改革提供一定的参考。  [关键词] 大学英语;教学改革;慕课;机遇;挑战  
多媒体网络教学平台能够充分调动学生参与体育活动的积极性,提高体育教学的效果,使体育教学更加系统化、专业化.对此,本文从多媒体网络教学平台的系统组合与功能出发,对其在
随着互联网的发展,Web服务逐渐成为人们日常生活的一个基本部分,人们的生活也因互联网变得更加便利和丰富多彩。Web服务在带给人们便利的同时也带来了新的安全问题。基于Web
本文从宏观和微观两个方面,通过实例探讨文化对译者主体、文本客体以及译者和文本的相互作用等翻译各环节的制约,指出汉英翻译研究的重点应由文字层面延伸到文化层面以及文化