中文文本蕴涵识别技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:mailabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本蕴涵识别在自然语言处理的各种应用中具有重要作用,是当前的研究热点问题之一。本文针对中文文本蕴涵关系自动分类问题,提出了以下三种方法:1.基于特征融合的中文文本蕴涵识别。该方法通过提取统计特征、词汇语义特征构造特征空间,利用朴素贝叶斯和支持向量机的统计模型算法得到蕴涵关系分类器,并结合修正模块的处理信息得到文本蕴涵关系的判别结果。在特征选择过程中,将一些有利于蕴涵关系判别的非结构化特征以及利用语义资源信息得到的词汇语义特征作为前期蕴涵关系判别的特征进行使用。2.融合句法结构树裁剪的中文文本蕴涵识别。该方法将句法结构特征融入系统蕴涵关系的识别,以弥补传统词汇统计特征对于句法结构信息捕获的不足。通过聚合句法分析树的节点,将树中无用信息节点删除,生成两棵最小信息子树并进行相似度计算。相比于原句法树,裁剪得到的最小信息树在节点数量上大大减少,但又保留了对蕴涵关系识别有用的语义信息。3.融合词向量的中文文本蕴涵识别。由于词向量本身的类比特性可以有效地识别词汇间的蕴涵关系,因此利用Word2vec训练的词向量,来判断词对之间是否存在词汇蕴涵关系。根据已知存在某种蕴涵关系的词对的词向量,来寻找、判别新的词对是否存在相同关系,并将文本对之间的词汇蕴涵关系作为蕴涵关系分类的重要特征。此外,本文在研究过程中,参加了日本NTCIR组织的文本蕴涵国际评测。评测过程中实现了特征融合以及融合句法结构树裁剪的中文文本蕴涵识别系统,并取得了F值为59.71%的成绩。
其他文献
作为Web 2.0时代的典型代表,微博在近年得到了迅猛的发展和广泛的应用。作为一个基于用户关系的信息分享、传播以及获取的社交网络平台,它不仅可以扩大人际圈实现社会交往,更
数据挖掘是计算机科学、人工智能和数据库研究方向的一项重要课题,它是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、
随着Internet的高速发展,从阿帕网到今天覆盖全球的信息海洋,各种网络服务与信息服务已遍及全世界。因特网已不再局限于门户网站、电子贸易等服务活动,微信、微博、网上银行
P2P技术自1999年发布以来,作为一种全新的互联网应用模式开始风靡全球,被财富杂志评为影响互联网的四大科技之一,主导着互联网的发展方向。P2P流量也成为当前网络流量的主要
入侵检测系统(Intrusion Detection System, IDS)就是通过分析计算机系统的网络连接数据和审计日志记录等相关数据信息,来检测入侵行为的系统。入侵行为是对目标系统的非授权
随着计算机技术的发展以及网络应用的普及,传统的基于被动防御的安全防护措施已经无法适应当今不断变化的网络环境。如何有效保护计算机中的重要信息以及如何为用户营造一个
电容层析成像(ECT)系统是近年来发展起来的一种新技术。该技术具有非侵入,无辐射,结构简单且成本低廉等优点,因此在检测多相流问题上具有广阔的应用前景。但由于现在离实际应
曲面细分技术是计算机图形学的一个重要分支,因为该方法规则简单、效率高、造型效果好而在CAD和动画的造型中都有广泛的应用,曲面细分的基本思想是对一个粗糙的初始网格应用
模糊C均值算法(FCM)是当前比较流行且应用广泛的一种模糊聚类算法,已经成功应用于模式识别、图像处理等诸多领域。但是,它存在着需要聚类数目先验知识、对初始值敏感和易陷入
随着计算机技术的不断深入发展,信息和数据处理能力的不断提高,多层次的复杂分布式结构越来越多的出现在大型信息/数据系统当中。相比于传统集中式系统的单一结构,多级分布式