基于深度学习的关系分类方法研究及应用

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:sheeperds
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模知识库在自然语言处理、网页搜索和自动问答等方面得到广泛应用。这些知识库的核心是大量形如“(Mark Zuckerberg,founder of,Facebook)”的事实关系元组。诚然,目前这些知识库还远不够准确描述真实世界中的海量知识。为进一步丰富现有知识库,新近的研究希望通过机器学习的自动化方法来提升知识库的体量,尤其是增加事实关系的数量。这个过程称作关系抽取,即从无格式文本中识别并生成实体之间的语义关系。关系分类是关系抽取的一种实现方法,通过对实体对的关系进行分类来获取语义关系。本文首先介绍了关系抽取技术和基于深度学习的关系分类技术在国内外的研究现状,发现基于卷积神经网络(CNN)的方法在本身仅包含一个标准卷积层、池化层和softmax层的情况下,就能取得和其他各类方法相当的效果。但是传统CNN方法忽略了实体间的词语与其语义关系高度相关这一特性,并且仅使用单层卷积抽取句子特征,没有获取高层特征。针对这两个问题,本文提出一个简单模型:将句子依据实体位置划分为3段处理并使用层次CNN融合句子的底层和高层特征。通过实验证明了该方法相比传统方法有所改进,并发现现有CNN模型两点不足:处理大间距实体的样本时,CNN难以提取有效特征甚至提取出从句中的错误特征;现有方法在输入同一样本的正向实例和反向实例时,会出现结果不一致的情况。针对CNN模型的不足,本文设计了基于选择性注意力的卷积神经网络句子编码器和结合双向实例的关系分类模型(SA-CNN+BDI)。利用两实体间最短依存路径得到关键词语,通过卷积后添加选择性注意层来增强关键词语的隐含特征;利用两类决策融合策略来结合正向实例和反向实例关系分类结果,避免正反实例关系冲突,最终得到更准确的目标关系。实验证明了该模型两部分各自的有效性,并且该模型也取得了领域最优的效果。最后在人物情报分析的应用背景中,利用人工构造的真实数据集展示了本文提出模型在关系抽取和知识图谱构建领域中的应用。本文实现的原型系统能够自动抽取中文文本中人物关系并通过可视化界面进行展示。
其他文献
为深入了解九安古茶树资源香气特性并进一步开发其资源生产特色古茶树红茶产品,依据叶部形态的差异,将久安古茶树资源分为长叶类、大叶类、圆叶类、小叶类、紫叶类5类,统一制
低频信号的测量在现代光学精密测量中占有重要的地位,例如,作为当代物理学最重要的前沿领域之一的引力波信号的探测波段就是在声频段甚至更低的频率。由于低频压缩态光场可用
目前,车辆交通已经成为全球性公共安全的重要环节,智能交通系统的发展,旨在为道路交通提供各种安全信息,而作为智能交通系统重要基础之一的车联网(Vehicular Networks)的概念
DZQ48高分辨率地震仪是重庆地质仪器厂在DZQ24地震仪(获2002年国家科技进步三等奖)的基础上,结合我国国情研制的新一代全中文WinXP系统下工作的真24位数字地震仪器。它既融入了
大规模的新能源电源接入电网,其很强的随机性和不确定性给发电并网带来了很大的挑战。为了能够消纳新能源,增强火电机组的变负荷运行能力,特别是利用机组储热提高供热机组的
影视剧音乐的文化价值、传播价值与影视剧的互动作用以及受众的审美接受方式等。
相对于双列配置,风机单列布置机组烟风系统的运行大为简化,并具有升降负荷迅速﹑操作简单等优点,但如何保证机组稳定运行成为单列配置方案的关键,同时也是电力工程界争议的焦点
对初等数学与高等数学建立有效的路径衔接,是保障学生能够尽快适应高等数学学习的有效手段。通过对数学思想的分析,文章从数形结合的思想、化归与转化的思想、分类讨论的思想
<正>万能险近年受到热捧作为一类兼具投资和保障双重功能的投资型寿险产品,近年来万能险以其灵活性和保底收益受到投保人的热捧。在万能险所缴纳的保费中,一部分进入风险保障
粗根组(Sect.Bromatorrhiza Ekberg)隶属于广义百合科(Liliaceae s.J.)葱属(Allium L.),有10种3变种,为东亚特有。全部种类集中分布于我国西南部,主产横断山区。仅4个种的分布区