中文句间关系识别及其应用研究

被引量 : 0次 | 上传用户:xianwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,底层信息抽取技术发展的日趋成熟,搜索引擎等互联网应用也对文本分析提出了更高的要求,不仅仅希望理解一个句子,更希望理解篇章,篇章语义分析逐渐引起了大家的重视。句间关系对篇章语义的分析具有重要的作用,在自然语言处理和信息检索的各个领域都有着重要的作用。句间关系中的因果关系对于问答系统的应用显而易见。所谓句间关系就是指在一个篇章中两个文本单元之间具有的语义关联。本文针对中文句间关系进行系统性的研究。首先我们构建了由1096篇文本构成的句间关系语料,针对语料库的标注内容进行了数据分析,用以挖掘中文句间关系的语言表述特点。分析句间关系各关系之间语义歧义性等问题。句间关系可以分为显示句间关系和隐式句间关系两大类,本文分别针对这两类关系根据其语言特点进行了识别研究。显示句间关系是指具有明显关联词词连接的两个文本单元之间的关系,通过对语料的分析发现关联词对于句间关系具有很强的代表性,因此利用关联词规则的方法对显式句间关系识别进行了研究,研究发现利用关联词规则的方法针对显式关系的识别取得了较好的效果,更近一步利用机器学习与规则结合的方法取得了更为理想的效果,其中条件关系的F值达到了94.93%。隐式句间关系相对于显式关系则相对具有更大的难度和挑战性,因为没有明显的关联词来关联两个文本单元。所以采用了基于机器学习的方法进行识别研究。分别利用最大熵模型和SVM模型进行建模,针对隐式关系抽取了相应的特征,实验发现SVM模型取得了更好的实验结果,最高扩展关系的F值达到了72.36%。同时针对实验所用特征进行了特征分析,其中关键词特征的表现最为出色,对各个关系都起到了很大的表征作用。由于有指导的构建训练语料对语料数量的限制,本文利用过滤后的显式关联词针对因果关系抽取了大量的关系实例,去掉关联词后构成了隐式关系,加入到训练语料中,实验结果表明此种方法使得实验结果的F值有了较为明显的提高。最后,本文考察了句间关系在事件关系识别问题上的应用,以事件因果关系为例,发现加入句间关系特征后事件因果关系的识别效果要比传统的方法实验效果有明显的提升。
其他文献
目的:评价凉血解毒法治疗慢性乙型重型肝炎的疗效,为中医药治疗慢性乙型重型肝炎提供重要的循证医学证据。方法:采用临床随机对照的设计方法,观察北京地坛医院2009~2010两年间接
铝合金管材内高压成形技术是实现结构减重的先进制造技术,已经得到了广泛的应用。而铝合金的室温成形性能差,破裂是铝合金管材内高压成形过程中的主要缺陷之一。材料的宏观响应
目的:初步评价血塞通滴丸治疗冠心病心绞痛(心血瘀阻证)的有效性与安全性,推测其作用机制,进一步确定该药的适应证范围。方法:1.以血塞通片为对照,采用随机、双盲临床试验方法,
目的:本研究主要采用随机对照的方法,通过观察三组清洁级SD大鼠的的差异,来探讨艾灸对绝经后骨质疏松大鼠的作用,并从分子、器官水平为中医“肾主骨”理论提供现代实验依据,为
[目的]非线性现象在自然界中普遍存在,非线性现象是物体由规则运动向不规则运动的一种过渡状态,混沌是非线性现象的一种特殊运动形式。人体中存在着非线性现象。心率变异性(H
低能见度不仅影响道路通行能力,而且极易引发交通事故,威胁生命与财产安全,尤其在行驶速度较大的高速公路上,其安全危害更大。传统能见度检测方法主要有目测估计与仪器检测,
随着全球能源危机和环境污染日益严重,电动汽车凭借其无污染、高性能等优势,逐渐成为当代汽车的发展方向。电池管理系统是电动汽车的关键组成模块,电池要配备电池管理系统才能正
偏头痛是一种原发性头痛,为一种发作性疾病,是世界上最为常见的神经系统疾病之一。偏头痛患病率较高,严重影响着人类的生存质量。其发病机理颇为复杂,目前治疗上西医尚缺乏一
舵机是飞行器控制系统中的执行装置。它的核心部分就是一套电液伺服系统,它的原理是根据放大器传来的控制信号,以规定的输出速度和输出力推动飞机的舵面。从而达到控制飞行器
目的探讨肥胖对肺切除术后并发症发生和手术死亡率的影响。方法回顾性分析2003年9月至2007年12月上海市肺科医院3 494例肺部疾病行肺切除术患者的临床资料,依据体重指数(body