基于Gate框架的信息抽取系统的研究与实现

被引量 : 0次 | 上传用户:huangwj03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展及其应用的深入,Web俨然已经成为全球最大的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web信息抽取技术在近年来引起了越来越多的研究者关注。由于Web页面缺乏规范的语法结构,所以传统的自然语言处理技术并不能很好的适用于Web信息抽取,另外Web页面中的大部分内容都以属性列表的形式呈现,如果把Web的这种结构特征应用于信息抽取,就可以避免使用复杂的语言学知识。因此,如何将基于自然语言理解方式和基于结构方式有效的结合起来克服各自的缺点,混合使用各种方法进行信息抽取成为当前研究的重点之一。本文结合自然语言处理技术和HTML页面结构特征在信息抽取中的应用,进行了以下研究工作:1.提出一种基于命名实体标注的DOM树(NE-DOM)分析方法进行信息抽取。该方法利用自然语言处理中命名实体识别技术对文档进行标注来提供简单的语义信息;然后在此基础上构建NE-DOM,通过对NE-DOM结构的分析产生基于XPath的抽取规则。2.在NE-DOM分析的过程中提出了基于竞争分类的BOI(用户感兴趣区域)确定算法,该算法可以显著的降低噪声数据对抽取结果的影响。同时在抽取过程中使用了大量成熟的XML技术来提高抽取的效率。3.研究了Sheffield大学的自然语言处理平台Gate,并在此基础上设计和实现了一个基于上述原理的信息抽取原型系统GateWebIE。经验证该系统达到了预期的效果,提高了系统的召回率、抽取效率和对页面变化的适应能力。本论文中已经完成的GateWebIE系统符合Gate的标准,实验结果令人满意,可以作为组件部署和集成到其它电子商务类的信息系统中,有较高的应用价值,并值得做进一步研究。
其他文献
本文结合高中历史新课程体系特点,以《近代中国经济结构的变动》这一课的导入为例,探讨了挖掘单元之间的联系,主张加强学习内容整合,形成整体史观,从宏观联系层面导入新课,这
在现行的工艺条件下,高炉的燃料主要以焦炭为主,降低高炉焦比能极大地提高炼铁的生产率。研究高炉的热平衡是保证高炉的热效率,提高高炉热能利用能力的重要方法。通过对各类
在当今全球经济一体化的环境中,任何有实力的企业都不可能单独地出色完成企业的所有业务,而必须要联合其上下游企业实施供应链管理,协同完成全部业务过程。然而,随着科学技术和经
让学生热爱祖国语文,提高学生的语文素养,培养学生成为具有健全人格的生命个体,首先要从重视情感教育做起。在新的课程理念下,对语文情感教育的重视与强调已成为语文教育界的
针对空间机器人关节的快速跟踪控制问题,提出一种边界层厚度可变的两级滑模控制方法.首先对研究对象建模,运用拉格朗日法推导出系统的动力学方程.考虑其刚柔混合特性,结合奇
电视传媒制作频道形象宣传片旨在以系列精心雕塑的视觉形象来传播其频道定位理念,打造频道品牌.但是任何一个视觉形象都蕴含着特定时代特定社会所拥有的文化意义.而长期存在
随着物联网(IOT)技术的广泛应用,它给传统的应用管理模式带来了重大改进。作为物联网信息采集端的无线传感器网络(WSN),对于其关键技术的研究又重新引起人们的重视。目前,物联网应用
目的探讨循证护理干预对腹泻患儿静脉输液不良事件及家属满意度的影响。方法选取2017年1月—2018年1月在浙江省永康市第一人民医院静脉输液的101例腹泻患儿作为研究对象,采用
风景道是旅游与交通功能相结合的景观道路,具有交通价值、景观价值、游憩价值、历史价值、文化价值、自然价值、文物价值等多重功能。风景道作为一种大尺度空间下寻求人地和谐
脾阴及脾阴虚证究属如何?历来对二者的论述较少。且由于临床上辨别脾阴虚证不易,故一个时期内,全国高等中医药院校教材也未将其列入。20世纪80年代以来,接连有不少作者撰文探