现代汉语动宾搭配多角度考察及其自动识别

被引量 : 0次 | 上传用户:feager2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语搭配是一种具有一定语法结构关系的、可重复出现的词语的组合。一般指具体词语之间的组合关系,在自动句法分析、机器翻译等领域,能发挥不可替代的作用。而动宾搭配更以其使用的高频性、复杂性、灵活性受到学者的广泛关注,其也更是构建词语搭配库的核心问题之一。单纯依靠人工筛选建库是不可取的,自然语言处理就是要对词语搭配进行深入地研究,找到适合计算机大规模处理的方法。在广义搭配观下,基于精确标注的清华汉语树库语料,针对动宾搭配主要做了两部分工作,其一,对动宾搭配的多角度考察;其二,对动宾搭配的自动获取与识别。第一部分从定性和定量相结合的角度考察了树库中抽取到的50611对(tokens)动宾搭配实例。定性考察主要在搭配的词序、词性、动词的语法属性、搭配中的词汇语义作用等方面,围绕词语搭配所涉及到的语法、词汇、语义(事理逻辑)等层面,作出相关分析,为后续识别阶段提供理论参考;定量考察主要介绍了搭配自动获取与识别的常用统计量,并对树库中的动宾搭配在搭配频次、互信息、距离的平均值与方差等方面作了统计与分析,甄别哪部分统计数据后续识别阶段较为有用。第二部分分别基于传统统计方法和统计机器自动学习方法对动宾搭配进行了自动获取与识别。传统的统计方法,处理模型比较简单,多是单一的统计量,如共现频率、互信息等,识别结果F值在50%左右,效果不甚理想。于是,转向基于机器自动学习的复杂统计模型条件随机场CRFs进行动宾搭配的自动识别。详细实验了分词与词性标记集不同对实验结果的影响,词性组合序列类型的限定不同对实验结果的影响,不同来源语料及规模对实验结果的影响。在特征设置阶段,实验了音节特征、动词次范畴特征、上下文特征以及它们之间的组合特征,给实验结果带来的变化。综合实验结果,基于树库分词和词性标记的最好结果是F值87.40%,基于北大标准的分词和词性标记的最好结果是F值74.70%。动宾搭配自动识别的结果显示出CRFs在序列化标注方面确实有效可行,后续识别工作仍有提高空间。
其他文献
面对日益激烈的市场竞争,如何提高产品质量,缩短开发周期,以及满足用户对产品个性化的需求,这些问题对产品设计提出了更高的要求。以产品族技术为基础,同时兼顾设计的稳健性,
<正> 一、建立明晰的企业产权制度和产权监督系统通过建立适合我国国情的企业产权制度及相应的产权监督系统,以明晰产权,发挥产权制度对信息生成过程的规范和界定功能。产权
埃及剧变后,穆斯林兄弟会成为埃及政坛最强大的政治力量。它通过组党、组建政治联盟、引导过渡期政治安排等措施,巩固了其在政治格局中的优势地位。由于穆兄会在组织结构、经
第一部分新西兰大白兔肺部烟曲霉菌感染模型CT表现及病理对照目的探讨新西兰大白兔肺部烟曲霉菌感染模型的临床进程、演变、CT表现以及与病理的关系。材料与方法新西兰大白兔
中国施工企业承揽大中型国际工程项目大多采用FIDIC合同条款框架模式,熟悉FIDIC条款并且灵活应用是非常重要的工作内容。文章就阿联酋哈里德港泊位扩建工程中遇到的工程变更
公司内部经济责任审计是一项具有中国特色的审计监督制度,对明确和强化公司各层级管理者的经济责任、加强对经济责任人的监督与激励有非常重要的作用,在其实施过程中,存在着
结合陕西煤炭工业发展实际,介绍分析了长壁综合机械化采煤发展现状,提出必须根据煤层赋存条件和环境承载能力确定合理的开发强度;放顶煤开采经过20多年发展已形成系统的特厚煤层
地理发现启动了全球一体化的进程,世界性的“商业网络”自兹构建。但由西方人所开启的16世纪之后的国际贸易,实际上主要不是西方与东方间的交换.而是西方人利用东方物品的交换,西
随着我国经济的高速发展,环境状况在许多方面是逐步恶化的。尤其是我国正处于城市化的进程中,大量农村人口涌入城市,城市人口激增,环境问题也越来越突出严重。随着人民生活水