汉语最长名词短语的自动识别与分析

被引量 : 5次 | 上传用户:wayl1s1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最长名词短语作为名词短语的一个特殊类别,在句子中一般充当主语和宾语,因此自动识别出句子中的最长名词短语,不仅有助于浅层句法分析,并且最长名词短语的识别和分析对于自然语言处理领域中的许多应用研究,如信息检索、信息抽取、机器翻译等,都具有重要的应用价值。本文在分析国内外研究现状的基础上,通过对不同方法的实验对比,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法,并实现了最长名词短语的短语结构语法分析,主要工作包括以下两方面:1.最长名词短语的识别研究:首先对最长名词短语的识别任务进行了形式化描述,转化为序列标注问题,采用两种通用统计模型,最大熵和条件随机场模型分别进行了实验,对比分析后选定条件随机场作为识别系统的统计模型;在此基础上通过分析错误识别结果建立后处理规则库对识别结果进行基于规则的后处理,识别系统开放测试结果中F值达到了90.0%。2.最长名词短语的分析研究:通过对短语结构语法树的层次抽象,将其转化为层次标注问题,提出一种基于层叠条件随机场的最长名词短语分析方法,实现了层次间的短语规约与转移,最终得到最长名词短语的短语结构分析树,分析系统开放测试实验中正确率为85.1%。通过以上两方面的工作,确定了系统中的识别和分析方法,构建出最终的汉语最长名词短语的识别和分析系统,实现对输入文本或句子的识别和分析。为了得到更好的性能,还需要进一步的研究。
其他文献
谈起如何营造构建和谐社会的舆论环境。想起了两句话:一是“报纸是党委、政府和人民群众的喉舌”;二是“和谐”从解字角度看,含有人人有饭吃,人人能发言的意思。琢磨这两句话,从中
"家国情怀"是指一个人对自己的家和国所表现出来的热爱之情。本文着眼于当前我国所处的扩大开放的历史形势,从文化传承的角度,就高中历史中的"家国情怀"教育谈两点必要性和可
《中国果树病虫志》自1960年出版以来,对果树科研、教学和生产起了重要作用,深受广大读者欢迎.随着科学技术的发展和研究的深入,为了及时总结新的研究成果和防治技术,以适应
儿童诗教学对于陶冶儿童情操,开发儿童思维,发展儿童语言有着重要积极的意义。儿童诗中洋溢的诗意折射着童心的光辉。本文尝试运用"媒体创境、反复诵读、组诗赏读、深度想象
"互联网+"背景下,宁波作为全国首批跨境电子商务试点城市之一,其电商发展基础优越,业务规模迅速增长。本文通过对宁波跨境电商发展规模、交易商品结构、政策促进、体系保障等
科学发展观是文明社会的永恒主题,更是当前经济社会生活中的一个重大现实课题.发展观与领导观有密切的内在联系,二者相辅相成,相互作用.贯彻落实科学发展观,必须努力提高领导
机器玻璃钢(Fiberglass-Reinforced Plastics)覆盖件作为一种复合材料覆盖件,广泛应用在航天航空、交通运输、电力电讯、常规武器、建筑装饰、化工防腐、游艺体休等方面,已构
PPP项目公司的增值税贯穿于PPP项目全生命周期,对整个项目的现金流、运作方式、盈利程度乃至整个项目的投资回报率的判断都有着较大的影响。尤其是“营改增”以后,增值税对PP
中国是一个富煤、贫油的国家,石油资源稀缺,每年进口大量原油以满足国家经济增长的需求。因此,寻找替代能源是一项国家战略性的课题。根据我国煤炭较为丰富的资源禀赋,发展煤
用紫外分光光度法,引入两个吸收比后,同时测定二氧化硫脲和硫脲的含量,取得了较为满意的结果。它们的平均回收率分别为100.6%(n=9,RSD=0.2%)和99.35%(n=9,RSD=0.4%)。