实体搜索爬虫和信息抽取研究

被引量 : 9次 | 上传用户:q520fang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,Web上的网页数量呈现出指数式增长,使得Web已经成为一个巨大的信息资源库。但同时Web信息的海量、异构性、动态性也给当前的信息检索技术提出了前所未有的挑战。一方面,目前以关键字搜索为特征的搜索引擎技术已经取得了很大进步,基本能够满足用户的信息需求。但另一方面,基于关键字的信息检索技术本身存在一些固有的缺陷。例如主要以查询关键字在文档中的出现特征(词频、文档频率等)以及文档的链接特征等指标来确定当前检索的页面与查询的相关性,却不具备对用户查询意图以及页面内容的语义理解能力。另外,查询的结果是一些排序的文档列表,用户需要手工定位所需要的信息,而无法对查询结果进行自动集成。从本质上看,目前的Web搜索引擎是基于页面层的搜索。但在很多情况下,用户的查询是基于实体的:如人、论文、地名、组织、产品,甚至抽象的事件等。如果Web信息检索系统按实体方式对信息进行表示、抽取、集成和显示,那么它将给用户提供更加精确和丰富的搜索结果,从而能更好地满足人们的信息需求。本论文针对以上基于关键字的搜索引擎技术存在的问题,以实体层搜索技术为目标展开研究。本论文的主要贡献包括如下四个方面:(1)针对特定领域Web资源的获取问题,提出了一种基于联合链接相似度评估的聚焦爬行算法。其基本思想为:首先通过计算当前链接的锚链文本的主题相似度来获得直接证据。然后利用聚焦爬行过程中得到的结果页面,建立一个Web链接图,并使用一个基于Q学习的增量学习算法来学习该链接图,以获取当前链接与链接主题相似度之间的映射关系,从而获得当前链接的近似主题相似度,并以此作为间接证据。最后结合直接证据和间接证据,计算出当前链接的主题相似度,以指导聚焦爬行。实验结果表明该算法可以显著提高聚焦爬行的召回率和精度。(2)针对目前Web信息抽取任务大多以整个页面为基本处理单位的粗粒度信息抽取问题,提出了一个基于视觉的页面分割算法-WPBL.该算法首先将Web页面转化为DOM树表示,然后根据DOM树节点的文本和链接特征,将Web页面分割成三种不同类型的块:文本块、混合块和链接块,并自动对这些块进行标记。然后调用一个高效的块排序算法,来标识这些块的重要度。该排序算法利用了页面块的在页面中的位置和视觉特征,如宽度、高度、背景色、字体等。利用WPBL算法可以快速发现页面中重要的文本内容或链接,排除页面的一些噪音信息:如导航条、版权信息、广告和装饰信息等。利用WPBL算法可以在细粒度的层面上执行Web信息抽取任务。实验结果表明该算法能明显改善信息抽取的精度。(3)系统地研究了实体层Web信息抽取相关技术,提出了一个基于迭代抽取的实体信息抽取框架。该框架的主要原理为:首先对特定领域的Web实体进行建模,然后采用条件随机域模型抽取实体的标识属性信息。使用关键字搜索技术和实体的标识属性信息来获取特定实体的相关页面,然后再利用WPBL算法对Web页而进行分割,并抽取其中相关的文本块,然后使用朴素贝叶斯分类器来识别目标文本块,最后提取相关的实体属性信息。经过多次迭代抽取之后,最后得到有关特定领域实体的完整信息描述。(4)探讨了在实体搜索引擎中集成用户社会数据推荐的相关技术。该技术可以为系统提供用户推荐的更加精确的信启、,以弥补系统自动爬取Web信息的不足。其目标是使搜索引擎也成为一个内容的提供者,并使搜索引擎能够有效利用这些信息,以解决目前传统搜索引擎架构所面临的一些挑战,如资源受限和精准搜索等。为此,我们描述了用户提交的社会数据的存储格式和提交方法。为了在实体搜索引擎中有效融合这些结构化信息,我们对Web实体融合的相关概念进行了形式化定义,给出几个重要的融合算子,并讨论了它们的属性。最后提出了Web实体融合算法,该算法利用了一些与自然语言处理相关的技术,如语句相似度计算和语句融合。实验结果表明所提出的算法是有效的。
其他文献
表面活性剂能够降低油水界面张力,改变原油在地层中的乳化特性,因此能大幅度的提高洗油效率,从而提高原油采收率。由于油藏环境复杂,表面活性剂在地层中与油相和水相的作用机
耀州窑,是中国古代名窑之一,创烧于唐代,宋代达到巅峰,凭借其犀利、流畅的刻花工艺,被冯先铭先生誉为“宋代同类装饰之冠”。北宋时期的耀州窑,凭借其高超的烧制工艺和艺术水
蛹虫草(Cordyceps militaris)是一种药用真菌,在中医学上应用历史悠久。近年来国内外研究结果表明,蛹虫草有多种生物活性作用,尤其能够有效地抑制某些肿瘤和病毒。本试验使用
【正】 据报道,美国每年申请注册企业达75万个,但5年之内真正生存下来的仅为5%,而95%的企业则在竞争中关闭或被兼并或转产。随着我国市场经济日渐成熟,企业既可踏上鲜花铺成的
<正>2017年7月21日,广东省全省召开"雪亮工程"建设推进会,广州市作为第一批被中央综治办列入全国"雪亮工程"示范城市,重点介绍了"雪亮工程"建设"五个抓、五突出"的经验做法,
随着信息技术的快速增长和应用规模的不断扩大,医院信息化项目的复杂性也在持续增长,并始终制约着项目建设效率和质量的有效提升。如何实现对项目全生命周期的有效管理,是当
随着移动互联网的发展,移动设备使用FLASH的局限性导致其发展受限,取代它的HTML5得到了广泛的应用,本文设计实现的基于HTML5的拼图游戏是一款网页游戏,主要利用HTML5新增的拖
随着互联网的飞速发展,新兴的第二代互联网(Web2.0)使得整个网络信息组织的方式出现了革命性变革。本文通过研究传统经典领域对有序性的定义,提出了情报领域,特别是在Web2.0环境下的
将一、二、三次文献的划分、灰白文献的划分、文献链视为文献动态序性结构的三大类型,对迄今国内外的相关研究进展做了简要述评,对今后的研究方向提出了几点建议.
虚拟环境下的三维地形建模和可视化显示一直都是虚拟现实在地学中的重要研究领域,而大范围地形场景的三维可视化又是一项非常富有挑战性的课题,对于大范围的地形特征来说,一