基于SVM和TSVM的中文实体关系抽取

被引量 : 0次 | 上传用户:wqvb1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取技术自动将无结构文本转化为有结构文本,既可以自成系统满足人们的强烈需求,同时还是其它应用如信息检索、文本分类、自动问题回答等的重要基础技术。实体关系抽取是信息抽取技术中的重要环节,正成为越来越热门的研究课题。中文实体关系抽取工作尚处于起步阶段,还有大量的工作需要完成。本文针对中文实体关系的特点,设计了一系列的特征,包括词、词性标注、实体属性和提及信息、实体间交迭关系和知网提供的概念信息等,以构成实体间关系的上下文特征向量并使用SVM分类器进行中文实体关系抽取。以ACE2004的训练语料作为实验数据,得到了较好的识别性能。同时根据分级实验的结果,详细考察了各种特征集和不同训练样例数目对中文实体关系性能的影响。实验结果表明:不同细化程度的任务应该选取不同抽象程度特征集组合。其中词性特征集较适合关系发现任务,知网概念特征集较适合关系大类和子类识别任务,词特征集是最基本特征集,实体间交迭特征集对抽取性能贡献最大。训练语料库规模的增加可以提高识别性能,开发较大规模的训练语料库对使用SVM分类器是很有必要的;但当语料库达到一定规模后,语料库规模的增加对性能的影响变弱,这时则应该把主要的注意力放在特征集构造上。在上述研究的基础上,针对SVM对大规模训练语料库的依赖,将半监督学习方法TSVM引入到中文实体关系抽取工作中。实验结果显示,在训练向量数目非常小时TSVM的性能远远超过SVM,但在训练向量数目较大后,TSVM的性能反而不如SVM。在关系发现这样相对简单的问题上,TSVM分类器仅使用少量标注语料和大量未标注语料,就可以得到不错的性能,降低了抽取系统的成本、改善了其可移植性;但在更复杂的关系类别识别问题上,TSVM分类器的性能仍不甚理想,应该考虑更多其他的半监督学习方法。同时本文研究并实现了TSVM多分类器构造。进一步的工作包括两个方面,一是改善现有的特征集如将更多的特征如组块识别、知网概念结构等加入到特征集以提高关系抽取性能和进行更精确的参数选择,二是定量研究标注数据的选择对性能的影响以及SVM和TSVM要求的标注数据规模规律。
其他文献
沙龙音乐是法国浪漫主义时期一个独特的音乐现象,它受沙龙文化的影响而产生,随着沙龙文化的繁荣而繁荣,因此在沙龙文化中有着十分重要的地位。音乐演出是沙龙里最频繁的活动
开放式基金作为一种汇集资金、分散投资的金融制度安排,是金融发展过程中的重大创新。开放式基金凭借其较低的初始投资规模限制、便利的申购一赎回机制,为投资者提供了不同期
长沙工业园区在近五年的发展过程中,依靠政府主导型投资体制,完成了大量的基础设施建设,形成了良好的投资环境。但在可持续发展的新形势下,现行投融资体制的弊端逐渐暴露出来
研究了在常温(20±1)℃和冷藏(0±0.5)℃条件下澳洲青苹苹果不同采收期对果实采后品质、生理和虎皮病发病率的影响。结果表明,晚采果实的品质和风味相对较好。常温贮藏条
目的分析不同方法及药物治疗无排卵性功血的效果,对女性激素、肝功能、血脂等的影响以及其他不良反应情况。方法对2007年3月至2008年3月就诊于本院妇科门诊经诊断为无排卵性
目前国内远程高等教育在快速发展的同时质量管理中存在许多问题,主要包括缺乏完善统一的质量管理标准、质量管理的思想观念比较落后、宏观管理机制不健全、内部质量管理机制
本论文研究的主要内容是有限域算术、椭圆曲线加密算法和有限域乘法器。椭圆曲线加密算法是目前提供了最短的密钥长度和最优的每比特加密强度的公钥加密算法。而椭圆曲线加密
明代词学上承宋元,下启清代,在中国词学史的发展链条上是不可缺少的重要一环。本文主要从古典文献学与古典文学理论两方面对其进行观照研究。文献方面,对明代词学批评文献进
生态学马克思主义作为“西方马克思主义”的一个重要派别,在当代世界产生着越来越大的影响,尤其在苏东剧变,它成了“西方马克思主义”的主流之一,代表了马克思主义发展的最新
中国作为农业大国,农民问题就是国家的根本问题。而与农民生活息息相关的居住建筑的发展历程一直处于“没有建筑师指导”的自足发展过程。当前农村正处于前所未有的发展期,在