汉语专业领域命名实体语义关系自动抽取研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:tianwang800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们处于一个信息爆炸的时代,互联网上的中文信息在飞速地增长。通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。而命名实体语义关系抽取是信息抽取中的主要任务之一,所以近年来命名实体语义关系抽取研究也成为了我国自然语言处理研究领域中的一个热点。当前汉语的命名实体语义关系抽取研究主要是有指导(Supervised)或弱有导(Weakly Supervise)的方法,且研究对象大多是一般领域的语料。这些方法在训练语料库的标注、关系抽取规则的编制以及初始关系种子的选取上都费时费力;此外,适用于一般领域语料的关系抽取方法难以满足一些专业领域的需求。所以,本文提出了一套适用于专业语料的无指导命名实体语义关系抽取的方案,并实现了该系统。此外,本文还尝试了利用该系统的抽取结果构造关系模板和关系种子。本研究针对专业领域的语料特性,运用语言资源工具对向量空间模型(VSM)进行改进和优化,解决了专业领域语料的特征模糊问题;根据潜在关系信息分布特征,设计了专业领域语料中实体-关系网络的构造方法;利用复杂网络(Complex Networks)理论中的网络社区(Community)特性,实现了在专业领域语料中关系类别的自动发现;通过对词语在上下文中的重要性分析,采用了提取重要性权重最高词作为关系描述词的关系描述方法。本文在专业领域语料平台上对该系统进行了实验,并结合权威评价手段对实验进行了评估,另外还构造了有指导关系抽取系统对实验系统获得的关系进行验证。最终结果表明:本系统在专业领域语料中不但能发现几乎所有的人们已知的关系种类,而且能发现一些不为人知的关系种类;系统在无指导的情况下,可以快速并比较准确地得到命名实体之间的关系描述。实验证实了本文构造的系统在专业领域语料中及无指导情况下具有良好的性能,同时实验还证实了无指导关系抽取结果对有指导关系抽取系统具有辅助作用。此外,本文还发现该系统提取的关系描述可以为专业领域中关系本体(Ontology)的建设提供依据。
其他文献
WLAN是指采用无线传输媒介的计算机局域网。随着WLAN技术的飞速发展,无线局域网的安全问题成为大家关注的一个焦点,由于WLAN采用公共的电磁波作为载体,因此对越权存取和窃听的行
随着现代科技的高速发展,报纸、书籍、科技文献等以文字为载体的信息大量涌现。尤其是在计算机和国际互联网络高速发展的带动下,每天都会有不断涌现的海量信息。为了能从这些海
Web服务作为下一代Web的标志性技术,能够有效地解决企业集成环境中存在的软件接口复杂、难以升级和集成等方面问题,并使得服务供求双方有机地形成商业供求链。单个Web服务难
智能化是计算机发展的必然趋势,无论是计算机控制,还是商用民用软件,都要求含有越来越高的智能因素,因此人工智能的研究越来越受到重视。20世纪80年代,基于结构演化的人工智能理论
近几年来,在“211工程”及相关计划的推动下,数字化校园建设也有了重大进展。各大高校在网络基础设施、信息系统建设方面日益完善。一方面,这些信息系统都是各个部门根据自己的
本论文研究工作的背景是四川省网络通信技术重点实验室的与核工业部九院的合作预研项目:无人机战术网络(UAS-TN-Unmanned Aerial System Tactic Network)。UAS-TN是一种特殊的
本论文研究的是为四川省某商业集团建立一个企业应用系统的集成平台,为该集团的各应用系统提供工作流服务。此集成平台称为工作流平台(Workflow Platform,WFP),亦称工作流管理系
近几年,随着智能电子产品的广泛流行,语音技术尤其是自动语音识别技术也迎来了新的研究热潮。在现实环境中,语音信号通常会受到各种噪声的干扰,降低了信号的质量以及识别度,从而导
近年来,随着Internet及Web技术的发展以及W3C和相关机构对数学表达式在网络上的表示、传输及转换等方面的研究取得重要成果,国内外众多机构开始深入研究和开发基于Web的数学教
随着信息科学技术的快速发展,网络上的各种信息急剧增长,丰富的信息资源虽然使用户更容易获取所需要的知识,但同时也使人们受到垃圾信息和冗余信息的困扰,这些垃圾信息和冗余信息