Web环境下基于语义模式匹配的实体关系提取方法的研究

被引量 : 0次 | 上传用户:lin_yuqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,Web信息资源已成为全球最大的知识库,为了应对信息爆炸带来的挑战,合理而高效地利用Web信息资源,迅速找到有价值的信息,研究者们提出了Web信息抽取(Web Information Exrtaction)的概念。Web信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。Web信息抽取有三个基本任务,命名实体识别、实体关系抽取和事件发现。实体关系抽取不仅是信息抽取的一项重要任务,也是事件发现和多种应用系统的基础,具有重要意义。模式匹配作为Web信息提取的主要方法之一,近年来备受研究者关注。本文分析了现有的实体关系抽取技术并进行了总结。在此基础上提出了一种基于语义模式匹配的实体关系抽取模型(SPMREM)。该方法采用机器学习思想,可以将一个包含有限数目个已确知关系的实体元组的集合作为训练集,从Web页面中提取蕴含命名实体的关系模式,再由此关系模式从特定领域的Web页面中提取实体关系。SPMREM首先采用面向Web页面的关系模式提取方法。通过分析自然语言语句的语义结构,提出一种合理的字符串匹配方法;结合改进的单词语义相似度计算技术,提出一种字符串语义相似度计算方法,可以准确高效的计算字符串之间的语义相关性。并通过基于相似密度的聚类方法,对关系模式进行聚类,提取关系模式集。其次提出一种基于模式匹配的Web页面的实体提取方法,包括基于关系模式匹配的目标实体定位噪音过滤,有效地对Web页面中描述的实体关系进行提取。经过实验验证,本文提出的模式匹配方法能够真正有效地从训练集中抽象出实体关系模式,进而在Web页面中通过模式匹配方法提取出未知的实体关系,并且在准确率和召回率方面都要优于现有方法,使得Web页面中信息得到充分利用,具有很高的应用价值,可以广泛的应用到Web信息集成中。
其他文献
在煤炭燃烧过程中,会伴随汞的排放。现有的电厂污染物控制设备可以脱除大部分颗粒态汞和二价汞,但气态单质汞需要吸附剂喷射技术来进行控制。该技术的重点是吸附剂的选择,目前运用最多的是活性炭吸附剂,但由于成本较高等原因受到了一定限制。而矿物吸附剂具有价格低廉、来源广泛及独特的化学性质等方面的优势,正逐渐成为新的研究热点。本文通过对比各载体材料的价格和物理化学性质,选择蒙脱土作为载体,同时分别选择氧化铜与氯
目的:糖尿病肾病(diabetic nephropathy,DN)是糖尿病常见的并发症,是终末期肾病(ESRD)的主要原因之一。临床上对于临床糖尿病肾病尚缺乏有效治疗方法。成体干细胞(Adult stem cell
党的十六大、特别是党的十六届四中全会,把构建社会主义和谐社会作为一项重大的战略任务,提上我们党的议事日程。在我国城市的微观层面,是由一个个社区组成的,它们是我们建设
提高思想政治教育的“一感三性”是重大现实课题。我军的思想政治教育理论日渐丰富和成熟,但随着新问题的不断涌现,其效能还没有得到充分发挥。义务兵的个体需要是人之本性,
在查阅大量文献资料和访谈专家的基础上,收集了我国27名一级女子铅球运动员65次运动成绩以及与其所对应的专项身体素质指标测验结果,通过主成份分析和因子分析,并对结果利用优势
“町人”的历史演变经历了镰仓室町时代、织丰时代和江户时代三个比较重要的时期。江户时代的町人指生活在“士农工商”身份制下的手工业者、商人阶层。江户时代,商品经济高
对军事决策方案(决心方案)的评估,是军事决策过程中的一个重要环节,其评估结论直接影响军事决策的结果.提高方案评估的科学性和可信度,是军事辅助决策迫切需要解决的问题.该
思维在人的智力结构中处于核心地位。随着新世纪的到来,高科技的迅速发展使经济增长方式发生了转变,社会越来越依赖于智能型劳动人才。社会的需求对学校的人才培养模式提出了
英语素养是一个复合性概念,其内容和构成要素十分丰富。中职学生英语素养的养成不仅包括掌握英语基础知识、技能和实际应用能力外,还包括中职学生学习英语的动机、情感态度、
大理市社会救助信息管理系统是一个网络版的自动化交互平台,它具有强大的自动化功能、友好的界面、方便直观的操作,提高了基层民政办的工作效率,达到民政社会救助工作进一步