Web信息抽取规则自动生成技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:eva37
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,越来越多的企业和机构采用Web网站来发布信息,Web逐渐成为人们最大的数据信息来源。于是越来越多的研究和应用希望从Web中获取有用的信息,以便进行深入的分析处理,从而提供深度信息服务。Web网页上存在部分结构化的数据,但是大部分都是非结构化的数据;而数据分析工具却需要基于结构化数据才能工作。如何从非结构化的Web页面中抽取用户或应用感兴趣的结构化数据,就是Web信息抽取的研究工作。在过去的二十年里,Web信息抽取技术的相关研究取得了较大进步,然而现有的Web信息抽取系统中,半自动化系统的自动化程度不够高,自动化系统的抽取精度和召回率不够高。针对现有研究工作的不足,本文研究了 Web信息抽取规则自动生成技术,主要包括以下四个方面:(1)研究并提出Web信息抽取的几个基本模型:Web信息抽取全过程模型、网页数据抽取模型、以及网页记录抽取模型和网页数据项抽取模型。在这些模型的基础上,本文设计具有较强描述能力的Web信息抽取规则语言。(2)研究并提出网页的多特征综合自动分析技术。针对现有自动化Web信息抽取系统的抽取精度和召回率不够高的问题,本文综合利用DOM树结构特征,视觉特征以及文本语义特征等多种特征来自动识别网页数据记录和数据项,并对齐不同数据记录间的数据项;本文还研究了如何基于对齐的数据项进行数据项自动标注。(3)研究并提出基于网页自动分析的抽取规则生成技术。本文研究了如何基于样本页面自动分析得到的结果生成抽取规则。该抽取规则生成技术包括数据区,数据记录和数据项的抽取规则自动生成。(4)设计并实现了一个自动化Web信息抽取的原型系统。除此之外,为了满足大规模Web信息抽取的需求,本文还提出了基于Hadoop的大规模Web信息抽取并行化方法。我们对上述技术进行了实验验证。实验结果表明,网页的多特征综合自动分析技术能够取得较高的抽取精度和召回率;基于自动分析结果自动生成的抽取规则也具有较高的抽取精度和召回率;大规模Web信息抽取的并行化方法能够实现线性加速。
其他文献
<正>2017年,中国厨电市场规模实现高速增长。捷孚凯(GfK中国)全国零售市场预测数据显示,2017年,中国厨电市场零售量将达到5852万台,同比增长10%;零售额将达到941亿元,同比增
目的 探讨调脂药辛伐他汀联合降压药硝苯地平对高血压患者动态血压及血压变异性的影响.方法 226例诊断为高血压病的患者,按入院随机号分为2组,每组各113例,对照组单纯给予硝
<正> 在我国新闻学与其他学科的交叉研究项目中,新闻心理学是起步较早、目前出版论著最多的。1981年,我国新闻学界开始发表新闻心理学的论文。以后这方面的文章越来越多,并且
自从国家层面将推广PPP(Public-private-partnership)模式界定为不仅是微观层面的“操作方式升级”,更是宏观层面“机制体制创新”以来,PPP几乎成为流行词。据悉,国家发展改革委目
报纸
海桑自1994年引种到深圳湾,1999年出现天然更新,在海桑林、天然林和裸滩上均有分布,更新频度达45 0%,幼苗密度最多达69株·m-2,幼苗的扩散距离至少达90m。充足的种源和温暖的
<正>根据财政部党组审议通过的2015年专项检查工作计划,财政部决定组织驻各地财政监察专员办事处以及各省、自治区、直辖市、计划单列市财政厅(局),开展地方预决算公开情况专
文章介绍了嵩山煤矿立井泄露通讯系统的结构以及改造后能实现的功能和主要特点。
对信阳群体种所制的不同嫩度、不同等级的15个信阳毛尖样品的主要化学成分进行分析测定,采用主成分分析(principal components analysis,PCA)法,提取3个主成分(即3综合变量),
丁佛言是近代有影响的学者和社会活动家。他曾为推翻封建帝制、再造共和立下了不朽功勋,后摆脱官场风云,全神贯注致力于古文字的研究及书法、篆刻的修炼,著述颇多,被誉为"鲁
了解注入井吸水剖面,对油田的开发有着非常重要的作用。文章介绍了油田常使用的几种注入剖面测井方法,包括同位素示踪注入剖面测井、电磁流量测井、脉冲中子氧活化测井。文章