文本挖掘中的中文实体关系抽取

被引量 : 2次 | 上传用户:rliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,随着科技的迅速发展,数据特别是网络数据正以指数规律飞速地增长。而作为网络数据中非常重要的一部分,文本数据受到了相当大的重视。为了应对海量文本数据带来的挑战,有效地存储、管理以至于利用文本数据,人们迫切地需要一些能够在海量信息源中迅速找到真正需要信息的自动化工具。信息抽取(Information Extraction)的研究正是为了解决这个问题。信息抽取,是从结构化或者半结构化的文本自动动抽取特定信息,并以结构化的形式(例如数据库或者XML文档)存储。信息抽取任务一般都会包含了两个紧密相连的任务:命名实体识别和实体关系抽取。本文主要研究的就是基于网络数据的实体关系抽取系统,即如何获取两个命名实体之间关系的问题。主要包括:1.根据网络数据的特点,设计了基础数据收集的相关方案。该方案允分利用了网络数据的特点以及搜索引擎的功能,并结合页面结构的整体特性,达到了以较低的成本,简洁方便地获取大量相关的网络资源,并抽取中其中的正文文本2.深入研究了当前主流的关系抽取的方法,并对各种方法的优缺点进行分析,并在此基础上提出了一种关系抽取的方法。该方法同时结合了语句的结构关系以及词语特性两方面的特征,有效地实现了对句子中实体关系的抽取。3.在以上研究的基础上,实现了从网络数据收集到关系抽取的原型系统。该系统基于B/S框架,完成了本文提出的关系抽取算法,同时提供可视化的展示模块,能够在浏览器中直观地展示关系抽取的相关结果。并利用此系统进行了相关的实验,验证了关系抽取算法的有效性。
其他文献
邱村镇前路村高村组村民李纪要,1990年毕业于邱村中学后,回乡参加农业生产,全家五口人,生活很艰难。为了摆脱贫困,李纪要根据邓小平同志提出“科学技术是第一生产力”的论断,加上自
期刊
随着我国工业自动化和信息化的发展,制造企业对制造执行系统(MES)的需求不断增多。数据采集系统作为MES的一个功能模块,负责为MES提供基础的监控数据,是MES中重要的组成部分。OPC
在文化研究中,眼睛和耳朵的斗争终将听觉摆在了次要的位置,然而,视觉霸权和长期以来忽视听觉的结果却是文化研究结构上的不平衡以及听觉文化的不健康发展。鉴于听觉的重要性
汶川8.0级地震给我国造成了巨大的人员伤亡和经济损失,其中因校舍坍塌导致遇难的中小学生达到5335名。关于中小学校舍抗震性能鉴定与加固的问题已成为国内外学术界和工程界共
如何在高达350km/h的列车移动速度下,为用户提供高速率高质量的服务,已经成为移动通信领域的一个重要研究方向。LTE-A系统具有扁平化和IP化网络结构,高达1Gbps的下行和500Mbp
聚己内酯(PCL)因其优异的生物降解性和生物相容性而备受青睐,可用于药物控释、医疗器械等领域。然而,PCL因强度不高、降解缓慢、水溶性差且无功能基团,使其应用领域受限。因
近年来,随着我国城市轨道交通事业的迅猛发展,在为市民提供极大便利的同时,也带来了巨大的能源消耗和极高的运营成本。城市轨道交通系统运营过程中能耗的主要形式为电能消耗,
径向基函数(RBF)神经网络具有结构简单、可以逼近任意非线性系统等特点,使其成为一种不依赖于控制对象模型的有效工具,适合于对水处理系统这类非线性不确定系统进行控制。然
税收司法是税收法制的突破口,想要推动我国税收法治建设必须以提升我国的税收司法为前提,只有充分的理论水平和完善的税收司法相结合才能提高我国的税收法治建设。本文借鉴国
城市生活垃圾经过8-10年以上的填埋可转化为矿化垃圾。矿化垃圾的开采和资源化利用不仅可以腾出空间用于填埋新鲜垃圾,实现填埋场的可持续填埋,还能够回收其中的可利用资源。由