基于KSVM的中文实体关系抽取研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:jgxyjg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取的主要目的是将非结构化的文本转换为结构化的信息,这既可以满足人们从海量信息中得到有价值信息的需求,同时也是信息检索、自动问答系统等方面的基础技术。实体关系抽取是信息抽取的重要环节,目前已经成为热门的研究课题且具有广阔的应用前景。在近年的研究中,人们把实体之间的关系抽取转化为分类问题,构造相关的关系实例,通过机器学习算法训练得到分类器,来判断候选关系属于哪一类预定义关系。  在机器学习算法中,SVM(Support Vector Machine)分类的精确度最高,KNN(K-Nearest Neighbor)居于其次。由于SVM所采用的核函数可以将非线性的分类转换为线性的分类问题,而且具有隐含的高维分类特点,因此基于核函数的实体关系抽取方法成为目前应用最为广泛的方法。针对采用SVM进行分类以及核函数本身在中文实体关系抽取中的不足,本文的主要工作以及创新点如下:  1.在基于SVM的中文实体关系抽取方法中,错分的样本点大多数都分布在特征空间中最优分界面的附近,是因为采用SVM进行分类时只取一个代表点进行分类,本文针对这一问题提出了一种基于KSVM的中文实体关系抽取的方法。该方法结合SVM和KNN算法各自的优势,对于在分界面附近的样本点使用KNN进行分类,因为使用KNN进行分类时把每一个样本点都看做是代表点;对于离分界面较远的样本点使用SVM进行分类。最后在中文语料库上进行了实验,验证了该方法具有更好的分类效果。  2.采用基于树核函数方法进行关系抽取时,关系实例结构语法树所包含的信息越丰富且冗余信息越少,则其抽取效果越好。为此,本文参照Moschitti提出的三种树型拓展结构,提出了一种基于PartialTree核函数的中文实体关系抽取方法。该方法依然使用语法结构树为处理对象,借鉴序列挖掘算法,挖掘出包含更为详细信息的结构化子树,再使用本文设计的PartialTree核函数计算两个关系实例之间的相似度来进行分类。最后通过在中文语料上的实验证明了该方法的有效性。
其他文献
遗传算法是近年兴起的一种用于解决优化问题的并行寻优算法,已被用于分布式系统的任务调度中。经研究表明遗传算法比启发式算法有较大的优越性。本文提出了一种用广义遗传算
近年来,随着高速计算机网络、数字视频压缩以及大容量存储器等技术的快速发展,视频点播(Video-on-Demand,VOD)服务得到了广泛应用,人们能够快速和方便地从网上获得各种视频信
本文以回采工作面为研究对象,详细阐述了回采工作面顶板动态预测专家系统的分析设计及技术实现,主要研究内容如下: ①应用面向对象的知识表示方法建立专家系统的知识库,以对象
随着图象技术在社会各领域中的广泛应用,越来越多的专家学者关注着图象处理的研究进展。边界在图象中所占比例较小,是图象的一个重要特征;其相关技术可应用于图象识别、工业
随着机器人技术的不断发展,机器人仿真作为机器人设计和研究的安全可靠、灵活方便的工具,在机器人的研制、设计、开发与应用中发挥着越来越重要的作用。本文主要研究了基于三维
组播是一种能使数据流高效的从一点传输至多点的IP技术,具有广阔的应用前景,近年来倍受全球研究人员的密切关注。IPv6是下一代互联网的核心协议,它成功的解决了IPv4协议地址空间
随着Internet的发展,通过网络传输的数据正在以指数形式急剧增加,许多新的多媒体业务正在成为信息传送的重要组成部分。人们对网络的需求由简单的数据传输向综合的多媒体业务
个人身份识别的准确性以及个人隐私信息的安全性,在身份识别中已发展成了亟待解决的重要社会问题。由于传统的身份识别方法暴露出了很多弊端,已经不能适应科技的发展和社会进
信息过滤是自然信息处理中的一个重要课题。近年来,过滤系统在各类应用领域中得到了广泛的应用,它们阻断无用或不良信息,为用户提供定制的信息服务,使得他们在有限的阅读时间
随着现代信息化的发展,钢铁企业的业务运作和经营管理实现了在线监控,使管理层可以获得实时、完整和明确的生产管理信息,不断提高企业自身在信息化道路上的核心竞争力。现代