基于语义分析的汉语短语识别方法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:wvf170073269
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语基本短语的识别和分析是自然语言浅层句法分析的重要任务之一。基本短语的分析结果使句子层次比较清晰,为进一步的句法分析打下基础。在汉语的基本短语类型中,汉语名词短语和介词短语占相当大的一部分。基本名词短语和介词短语识别率的提高对机器翻译和信息检索都具有重要的意义。本文针对浅层句法分析的任务,采用不同的机器学习方法对文本中的名词短语和介词短语进行识别,构造了不同的识别系统,取得了比较满意的识别结果。其研究内容如下:名词短语的识别:通过深入分析基于最大熵识别名词短语和基于转换规则识别名词短语两种方法,提出了基于最大熵和转换规则相结合的名词短语识别。在用最大熵识别汉语名词短语中,构建了最大熵模型的基本框架,根据名词短语的结构特点及上下文特征,进行特征提取、特征选择、参数估计。以此建立了识别名词短语的最大熵模型。用基于转换规则的方法识别名词短语时,充分利用上下文环境进行规则学习,得到了识别名词短语的有序规则序列。经过分析最大熵与转换规则方法各自的特点,提出基于两者相结合的名词短语识别方法。实验结果显示提高了整个汉语名词短语识别系统的速度和精度。汉语介词短语的识别:在研究分析基于最大熵识别汉语名词短语的基础上,针对介词短语右边界存在多种错误识别的问题,提出了一种基于最大熵的汉语介词短语自动识别方法。该方法结合了汉语介词短语左右边界词语的依存语法知识,先由最大熵模型对介词短语进行识别,然后利用依存树库中介词短语的左右边界词语的依存语法知识,对介词短语右边界的错误识别进行校正。提高了介词短语的识别率。
其他文献
随着Web信息量的飞速增长,越来越多的人希望能够快速且有效地找到自己所需要的与特定领域主题有关的信息,目前通用搜索引擎(search engine)面临着空前的挑战。垂直搜索引擎(ver
伴随着Internet的飞速发展,Web技术在各行各业得到了广泛应用,并发挥着越来越大的作用,同时也加快了国家的信息化进程。特别是Web2.0时代的到来,越来越多的政府机构、公司企
图像标注是大规模图像检索技术的基础,是多媒体领域的研究热点之一。图像标注的目标是为图片指定几个关键词描述其所含的视觉信息。常见的应用中一张图片同时可包含多个关键
(一)1902年,少年毛泽东进韶山南岸私塾,启蒙老师是邹春培,在邹老师手下学了二年半。毛泽东读书很认真,肯动脑子,功课没有完,谁也拉不动他。他总是一句一句地默读,一笔一笔地
次级抵押贷款是美国众多金融创新产品之一,过去几年因有助于解决更多人的住房问题而受到市场热捧,然而今天,它却成为一场经济危机的导火索,并且造成了全球金融市场的振荡和投资者的恐慌。次级债危机不是一个偶然现象,它是风险积累到一定程度的反映。  主持人:次级债危机扑朔迷离,全球资本市场阴晴不定。过去一段时间,包括美联储、欧洲央行、日本央行以及韩国、加拿大等国的中央银行,纷纷向本国市场注射“强心剂”,然而,
本文在调研大量国内外文献的基础上,研究了软件资源信息挖掘的理论和方法,同时调研了软件逆向工程及软件切片的理论和技术,并将这两项技术应用于软件资源信息挖掘系统的设计和实
目的 分析注射炎琥宁对治疗小儿支气管肺炎的临床疗效.方法 选取2018年2月~2019年2月我院收治的46例肺炎患儿进行分析,按照随机数字表法的方式将其分为研究组和参照组,对两组
目前移动运营商正在从移动通信专家向移动信息专家转型,随着移动运营商角色策略的转变,整个增值业务市场也在转变,移动运营商已经开始对市场进行整合,同时开始自营业务的试探
在大范围的机会网络中,由于节点的移动性和活动区域的广泛性,节点和节点之间极少进行通信,造成网络处于分割状态。为了提高大范围机会网络的性能,放置固定中继节点成为一种可
面向服务的体系结构(SOA)是当今IT业内最热门的话题之一。面向服务的架构(SOA)具有驱动业务灵活性、业务流程活力、现有服务的重用、改进的连接性以及使IT与业务更加保持一致的潜