汉语句子的组块识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:liwl11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组块识别是自然语言浅层句法分析的重要任务之一。它通过采用“分而治之”的策略把句子解析成较小的单元来简化句子结构,并为进一步揭示这些单元间的句法关系提供基础。组块识别作为一种确定性很高的部分分析结果,有利于解决机器翻译中的歧义问题。组块识别还在信息检索、信息抽取、文本分类及语音识别等领域具有重要的应用价值。本文的目的是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。本文利用条件随机域(Conditional Random Fields,CRFs)方法进行汉语句子的组块识别研究,提出了基于CRFs的分布式策略与错误驱动技术相结合的组块识别方法。为了克服单一模板识别多类型组块的局限性,本文给出了一种分布式策略方法,它将11种类型的汉语组块进行分组,对不同组的组块类型选取适合该组类型识别的敏感特征,结合CRFs构建不同组的组块识别模型;为进一步提高组块识别结果,本文利用基于CRFs的错误驱动技术对组块进行自动纠错,将第一阶段CRFs的组块识别结果作为一般特征加入到第二阶段CRFs识别的特征模板中,通过CRFs统计学习其中的错误规律来进行纠错识别;最后本文通过分析并列关系结构对组块识别错误的影响,利用CRFs在选取上下文特征上的灵活性优势,抽取了并列关系词的上下文信息作为特征,来进一步改善组块的识别效果。实验结果表明,基于CRFs的分布式策略与错误驱动技术相结合的组块识别方法取得了较好的结果,系统开式测试的精确率、召回率和F值分别达到95.52%、91.21%和93.32%,好于CRFs方法和其他组合方法的组块识别结果。本文的研究成果可以应用于实际的机器翻译系统中,达到简化句子结构、提高机器翻译系统性能的目的。另外还可以进一步应用到信息检索、文本分类等自然语言处理领域。
其他文献
互联网中,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面传统搜索引擎的召回率和精确率都不能令人满意。面向主题的垂直搜索引擎的目的是提供分类精确、数
当前,全球信息技术产业正着一场声势浩大的“云计算”浪潮。云计算的资源存储在云供应商的虚拟机集群上,本地计算机只需要通过互联网发送一个任务请求,云端就能够根据用户的
互联网技术的发展日新月异,参与到网络中的用户越来越多,各类方便快捷的网络社交平台,例如国外的Twitter、Face Book和国内的新浪微博、网易微博等,极大的改变了人们获取信息
你真的了解自己的网站吗?每天有多少人访问您的网站?现在有谁正在您的网站上?他们做了什么?他们从何而来?搜索引擎为您带来多少点击?访问者搜索的关键词是什么?您的哪个栏目
随着移动互联网与智能手机的普及,人们处理事务的方式已经从线下转移到线上,申请书签字、在线购票与换票、开锁等日常生活事务都可以用手机来完成。因此本文设计并实现了一个
道路交通标志提供指示、警告信息,规范驾驶员的行为,为安全、便利的驾驶提供可靠保障。交通标志自动检测与识别作为驾驶辅助系统的首要任务之一,近年来受到越来越多的关注。
随着移动互联网的蓬勃发展,面对海量用户数据,如何对其进行有效存储成为一个亟待解决的问题。压缩存储技术借助高效的压缩算法对用户数据进行压缩后存储,极大减小了数据存储
数据流研究是目前一个新兴的热门领域,国内外学者提出了各种数据流处理的技术、算法和具体应用。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、高速的、数据分
混合存储系统解决了以传统机械硬盘为主的存储系统性能不佳,使用固态硬盘替换机械硬盘成本又过高的问题,具有很高的应用价值。EnhanceIO是由STEC公司开发,应用于Linux平台下
基础数据管理与指标分析系统是基于国家电网公司“十一五”信息发展规划的前提下开展实施的,其中“数据交换统一平台”是该系统的基础,它负责从各个业务系统对应的数据库里定