基于领域特征的Web数据实体抽取的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：WANGBING0425

【摘要】

：

随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息集成的研究可以帮助人们有效的

【作者】

：

王生辉

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2009年期

【关键词】

：

市场情报信息检索中文分词页面分块命名实体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息集成的研究可以帮助人们有效的找到感兴趣的、比较完整的信息,帮助用户发现对自己有用的知识。目前,90%的全球500强企业已建立完善的市场情报分析系统,有效地分析市场情报对于企业的生存和发展具有十分重要的意义。Web已经成为如今人们获取信息的主要来源,但是随着Web上数据信息量的日益增加,人们从Web上获取真正需要的信息已经变得不再容易。因此,如何对Web信息进行过滤和发现,帮助人们方便地查找“真正需要的数据”成为一个至关重要的问题。有些数据处理系统针对某一个行业的信息进行搜集,以结构化数据为最小单位,关注的是有一定结构的数据,主要通过定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。然而,如何从无结构化的文本中抽取数据实体仍然存在很多困难。本文主要研究了基于领域的Surface Web中数据实体的提取方法,在领域特征的基础上,结合传统信息检索技术,设计了基于领域词汇的数据实体抽取框架,并在此基础上提出了一个面向旅游线路信息的Web数据实体抽取系统。围绕着该框架,本文对如何从特定领域相关的Web页面中进行数据实体抽取涉及的若干关键问题进行了研究。本文的主要研究内容和工作包括:1.描述Surface Web中的实体类型,构建了面向旅游线路信息的Web数据实体抽取框架,并以此为本文的研究基础。该框架建立在传统信息检索的分词和索引技术的基础之上,根据数据实体抽取的特定需求,增加了特有的工作步骤,将Surface Web页面信息进行分词后再过滤以进行领域信息实体的识别。2.在数据实体抽取方面,本文提出了如何根据领域词汇表来对信息进行过滤,并采用XML存储旅游线路信息。旅游景点信息的发现是渐进式的,利用XML可以表现旅游城市与其景点信息之间的关联,便于信息的逐渐完善与表达。3.基于已有的对命名实体的研究,可以发现新的旅游景点词汇,用于丰富旅游线路信息的内容;通过对页面进行分割,使处理的数据描述具有更强的相关性,以提高抽取的准确性。4.将XML与传统信息检索的索引模型相结合,便于信息的快速获取。本文利用XML对旅游线路信息进行描述,同时将其与索引模型相结合,这样在进行信息的定位时可以同时定位特定地域信息以及相关旅游路线信息。本文对如何有效的抽取特定领域的实体信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息处理领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。

其他文献

面向蠕虫的检测技术的研究

随着信息技术的迅速发展,特别是Internet与Internet应用的飞速发展,信息共享、信息交换通过开放式网络形成一个方便快捷的信息传播平台,为计算机的普及提供了有利的条件。同

学位

蠕虫入侵检测协议分析协议状态机

基于语义的树形UDDI架构的研究

UDDI(Universal Description,Discovery and Integration)是业界应用最广泛的服务发现标准,其定义了Registry(注册中心)来存储查找服务所需要的各种信息。针对传统UDDI中心的

学位

Web服务UDDI本体领域本体语义WebOWL-SQoS

基于特征的图像分割与匹配的研究和应用

图像分割与匹配是数字图像处理技术中两个重要的研究方向,近年来,随着信息技术的发展和计算机硬件成本的降低,图像分割与匹配开始广泛应用在很多领域。在医学图像上,通过将病

学位

特征区域特征点分割匹配

基于知识导航的路径规划方法研究

学位

Linux平台自动软件发布系统的设计和实现

随着企业信息化程度的提高,企业应用软件的管理负担也随之提高。企业中的信息部门承担着对企业应用软件的维护,更新,打安全补丁等任务。很多公司目前主要的软件部署方式是依

学位

Linux软件自动发布系统软件部署系统调用截获inotify

基于Gnutella协议的P2P网络激励机制模型的研究

P2P是英文peer-to-peer的缩写,即对等网络或对等计算。在对等网络系统中每个节点的地位都是相同的,无服务器与客户机之分。随着Napster等P2P系统的出现,人们开始关注P2P技术

学位

P2PGnutella协议激励机制模型

基于通用多核处理器的报文处理引擎并行体系架构设计与实现

随着云计算、物联网、大数据等众多新技术和应用的空前发展以及智能终端的爆炸式增长,要求网络必须能够像用户应用程序一样可以被定制和编程,基于专用硬件的网络设备已经很难

学位

报文处理引擎并行多任务体系架构动态负载均衡任务调度无锁通信机制

面向层次式存储系统的I/O性能评价

在高性能计算领域,I/O性能已经成为影响计算机性能的重要因素。为了提高I/O性能,人们开发了层次式存储系统。而当前常用的I/O性能评价基准如S3D I/O、,BTIO、MADbench2、FLAS

学位

层次式存储系统I/O性能评价IDX数据结构I/O benchmarkIDX I/O bench

Ad Hoc网络多路径路由算法研究

Ad Hoc网络是一种由一组无线节点组成的没有预定基础设施支撑的自组织可重构的多跳无线网络。在该网络中,网络的拓扑、信道的环境和业务的模式是随节点的移动而动态改变的。A

学位

Ad Hoc网络n分多路径路由算法网络生存时间OMNET++仿真

基于改进的多级模糊模式识别的分类研究

随着人类社会和计算机技术的飞速发展，电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识，而传统的数据分析工具只能利用其中的

学位

数据挖掘对象属性分类多级模糊模式识别属性约简分明矩阵隶属度矩阵

基于领域特征的Web数据实体抽取的研究

与本文相关的学术论文