基于搭配强度的复句关系词自动标识方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：cxx163252

【摘要】

：

目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复

【作者】

：

宋林森

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2014年期

【关键词】

：

复句关系词自动标识搭配强度相对词频

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复句的自动标识更加重要,但复句的自动标识及其艰难,目前很少有人涉及。关系词在复句中是一个重要组成部分,一个句子的逻辑语义就主要体现在关系词上,因此,自动标识复句关系词是识别复句的关键环节。但是,复句中的“准关系词”有时充当关系词,有时又不充当关系词,所以要实现计算机自动标识复句关系词也非常困难。搭配强度是指两个词之间相互吸引的程度,搭配强度越大意味着这两个词共现的概率越大。搭配强度大、共现频率高的两个词我们就称作它们具备搭配关系。本文对复句中的关系词自动标注是针对具有搭配关系的关系词来进行的。对于现代汉语复句关系词的自动标识,一般有基于规则的方法、基于统计的方法以及规则和统计相结合的方法。本文提出的方法是基于大规模语料库的,完全基于统计的方法。本文首先基于复句关系词本体知识库,提取已经经过分词标注处理的复句中的准关系词,然后设计一种搭配强度的评估方法先判别从复句中提取出来的多个准关系词是否符合搭配关系。其中,搭配强度的评估方法主要是基于对大规模语料库的统计,统计出关系词的出现频率、搭配关系词的搭配距离、共现频率,基于这些信息计算出搭配关系词的搭配强度,观察其是否满足一定的阂值,然后判定它们之间是否存在搭配关系。在判别了搭配关系后,在搭配环境下对这两个准关系词进行自动标识。先将待标注的准关系词及其上下文语境分为标注为关系词和不标注为关系词的两个序列,利用相对词频,分别计算它们和搭配词的搭配强度,然后进行比较,取较大值的标注结果,从而完成准关系词的自动标识。

其他文献

基于图挖掘的程序忽略条件漏洞检测方法研究

随着软件产业的迅速发展，特别是随着网络技术的发展，软件中存在的微小漏洞都有可能被恶意攻击者利用，从而对企业或者普通用户造成难以估量的损失。因此，如何运用测试技术更好地发

学位

最大频繁子图闭频繁子图忽略条件漏洞检测

山西古代壁画及其保护路径思考

文章主要针对山西地区现存的古代壁画,分析古代壁画所具有的艺术性,了解其中蕴含的历史价值与美术价值,并对保护、修复工作展开探讨,分析壁画保护的一系列流程,提出了原地保

期刊

山西古代壁画墙壁壁质临摹

机器学习算法在视频指纹识别中的应用研究

近年来,生物特征识别技术受到了人们的普遍关注。与传统的基于物品的(例如身份证)或基于记忆的(例如密码)身份验证方式不同,生物特征是随身携带、不会丢失、不会被遗忘、不容

学位

指纹识别指纹视频机器学习异常点检测

视频监控中场景自适应建模及其在目标跟踪中的应用

现今视频监控系统实时监控被监视对象的行为,在管理和监测城市的任务上具有越来越重要的地位,可以说是无处不在。而视频监控系统需要朝着智能化的方向前进,要尽可能地减少人工干预或完全自动化地完成所需的任务。智能视频监控技术主要是用计算机视觉的方法实现所需完成的视觉任务,例如场景中的目标定位、目标识别、目标跟踪等视觉任务,智能监控的过程不需要人为进行干预。智能视频监控技术在摄像机拍录的视频图像序列上进行自动

学位

视频监控场景信息自适应建模目标跟踪

基于搭配强度的复句关系词自动标识方法研究

与本文相关的学术论文