面向非结构化文本的实体属性抽取关键技术研究

来源 :哈尔滨理工大学 | 被引量 : 2次 | 上传用户:hynyjhnyjn66656
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临以及互联网技术的快速发展和大量普及,互联网已经成为大多数人日常生活中不可或缺的一部分。在互联网上,存在着大量的描述某一个主体的非结构化文本,面对这样庞大的网页数据,如何帮助人们快速地从这些海量的非结构化文本中获取相对应的信息,理解信息的内容,就显得越来越重要。那么信息抽取技术的研究正是为了解决这个问题。因此,实体属性抽取(槽填充)技术等到了学术界和工业界的广泛关注,目前也是一个非常热门的课题。本论文针对面向非结构化文本的实体属性抽取关键技术展开研究,研究内容有:首先,对于有监督实体属性抽取方法,针对过去采用规则的方法造成的抽取性能不高、召回率低以及难以推广到大规模文本的问题,提出基于双向LSTM(Long Short-Term Memory)加CRF(Conditional Random Field)的实体属性抽取方法,该方法不依赖于规则和特征工程,利用双向LSTM(Long Short-Term Memory)从原始文本中自动地学习语句的语义表示,通过对有标注训练数据的学习,获得了属性的语义表示和上下文关系,然后利用CRF(Conditional Random Field)对属性进行一个分类,将文本中每一个短语或者词汇分类到它应属于的标签(比如:出生日期、职业等)。实验结果表明,与基线系统相比,该方法在实体属性抽取(槽填充)任务上有很大的提升,而且可以应用于大规模的文本。其次,相比于有监督的学习方法,要想获得性能很好的模型,必须要有大量的人工标注数据。但是,有时候人工标注很困难,标注成本很高,就无法获得大量的人工标注数据。为了减轻人工标注的负担,我们采用主动学习(Active Learning)的方式来训练模型,减少了训练模型需要的人工标注数据,大量减少了标注成本。最后,实体属性抽取是构建知识图谱的一个重要技术,我们在对非结构化文本进行属性抽取之后,获得了大量的实体信息,就可以以此来构建知识图谱。目前,本文采取上述技术,与大百科全书合作构建了一个百科知识图谱,实现了一个可视化的网站,现在已经上线。
其他文献
浮选是目前选煤厂处理细粒级煤泥的主要方法,然而浮选入料的泥化程度越来越严重,会导致上浮的精煤很容易夹带细泥,造成浮选精煤灰分升高,极大地影响浮选精煤的质量。选择性絮凝可以改变煤的表面性质,先使煤与矿物杂质分散,再利用合适的选择性絮凝剂对煤粒进行选择性絮凝,而矿物杂质仍处于分散状态,最后通过浮选将絮团收集出来。因此,通过选择性絮凝—浮选的方法提高高灰细泥煤的浮选效果具有现实意义。本论文以马兰8#煤为
本文介绍了水性双组分聚氨酯涂料在工程机械领域的应用现状、存在的问题、解决方案以及工程机械水性涂装未来发展思路和水性聚氨酯涂料的发展方向。
绘本是当前幼儿园开展早期阅读的重要载体,以其丰富的图画内容和明亮的色彩符合幼儿认知特点,而被专家学者和教师所青睐。对于早期阅读技能逐步发展的幼儿来说,绘本阅读需要教师的指导与支持,特别是对处于图画符号敏感期的中班幼儿来说,教师的提问引导能够帮助幼儿获得阅读技能,进而提高口语表达能力。立足于素质教育的现代化理念,要求教师在幼儿园绘本教学过程中摒弃识字讲读,一问到底的传统教法,通过有效提问与启发诱导,
学位
《太极熊猫》诉《花千骨》一案二审判决的一锤定音再次将学术界、实务界的目光聚焦于电子游戏规则的著作权保护之上。电子游戏作为新兴产业,著作权纠纷不断增加的背后,是滞后
特定目标情感分类(aspect-based sentiment analysis,ABSA)是情感分类领域中的一项基础任务,它的主要任务是在给定目标实体的情况下对短语或者文本进行情感分类。在早期完成
按照《中共中央关于国有企业改革和发展若干重大问题的决定》要求,国有企业要“坚持有进有退,有所为有所不为”。近几年来,在国有资产退出问题上,各地采取了多种方式进行探索
会议
随着经济的发展和人民生活水平的提高,汽车逐步进入千家万户。汽车普及率的上升,也必然会引起环境污染、能源短缺等问题。电动汽车作为一种新型的低碳、环保型交通工具,是解
目的本研究通过观察土茯苓总黄酮(TFSG)对断乳后铅中毒大鼠肾功能、肾氧化损伤指标的影响,探讨TFSG对断乳后铅中毒大鼠肾脏氧化损伤的保护作用;通过观察TFSG对断乳后铅中毒大
目标检测在计算机视觉学科中是一个重要的研究方向,其具有广泛的应用,如文字识别、流水线生产、机器人等。其中,海上船舶目标检测对于无人船自主航行、海洋环境监测、海上事
核燃料循环后端项目是一个知识密集、信息密集的领域,主要是通过化工手段,从核电站乏燃料中提取有用成分以重新加工后返回核电站中继续使用,并将废物最小化处理。其既包含化