汉语动词词语搭配自动获取方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:snmydmyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理领域中,句法分析是实现语言“理解”的必然环节,也是公认的一个重点和难点。面向依存文法的句法分析方法主要是通过获取句子的核心动词及其所支配的词语搭配,进而分析句子内词语之间的依存关系,以建立依存句法树。依存语法认为动词是句子的中心,动词在汉语句子中起支配作用,因此动词组合框架的研究能为自动句法分析和处理提供较好的基础。 本文主要基于语料库的动词词语搭配自动获取方法进行了研究和实验。 (1) 由于目标动词和搭配词的词性标注在搭配获取工作中占有重要地位,因此,作为基础性工作,我们首先研究了词性标注中兼类词的排歧问题。利用粗糙集约简理论提出了一种基于非完备决策表的兼类词标注校对规则获取方法,以作为基于软件的词性标注结果的辅助校对工具,旨在提高兼类词词性标注的正确率,为获得高质量的语料库提供基础。 (2) 在确保高质量语料库基础的前提下,探讨了面向依存语法分析的动宾搭配自动获取的方法。通过对已有方法的概括,在词语搭配上重点研究并分析了互信息、Cosine系数、x~2测试、似然比4种较优的词语度量方法,比较了方差、离散度、熵3种结构度量方法优劣。随后提出了一种基于互信息和信息熵融合的搭配获取方法,将其应用到动名、动动搭配的获取,在高频下取得了较好的效果。 (3) 首次将最大熵模型应用于动词词语搭配的获取。以动动搭配的获取为着眼点,抽取搭配词对的上下文词性信息及其关联程度的统计信息构造候选复合特征模板,结合粗糙集理论的约简技术,获得训练最大熵模型的最简特征模板。一系列实验证明,基于最大熵模型的动动搭配的获取方法是可行的。 最后,对动词词语搭配获取的未来研究进行了展望。
其他文献
机器人足球比赛是近年来国际上迅速开展起来的高科技对抗活动。足球机器人涉及机器人学、计算机技术、数字通讯、图像处理、传感器数据融合和人工智能等多个领域,为多智能体
GPS全球定位系统以其全球性、全天候、实时定位等优点显示出强大的生命力和竞争力,在航空、航天、航海及许多民用领域有着广泛的应用。将GPS导航方式与其他的导航方式相结合,形
随着电机制造技术、微电子技术以及电力电子技术的快速发展,以电机为执行单元的伺服系统已经深入到居民生活、工业生产及军事武器等社会各个领域。相对于电励磁交流电机,永磁同
机器人系统是一个多输入多输出、高度耦合的复杂非线性系统,机器人控制面临的最主要问题就是机器人动力学方程的复杂性及包括参数和未建模动态在内的不确定性,自适应控制和鲁棒
本论文主要研究的是某型号特种车辆动力传动系统的匹配优化问题。传统方式的发动机和变速器由于受到硬件机构和操作方式的限制,在很大程度上影响了发动机动力性能的发挥。将优
攻击和防御是网络安全的两个密切相关的侧面,不深入研究攻击理论和技术就不能有效地保护网络信息系统的安全。网络攻击研究的一个关键问题是对攻击的认识和描述。攻击模型能
随着控制系统规模的日益扩大以及网络技术的飞速发展,基于网络的控制系统,由于具有连线少、可靠性高、易于扩展以及能够实现信息资源的共享等优点,正阔步进入控制工程中,控制系统
随着石化行业的不断发展,对于油品罐区监控管理的自动化程度要求越来越高。近几年,随着人们对罐区安全认识的提高,罐区控制自动化和管理现代化有了相当大的发展,但是还远不能
在当前我国国民经经济建设和国防科技事业的进程当中,电气传动的应用极为重要。为满足运行、生产、工艺上的性能要求和节约电能的需要,许多生产机械都需要进行调速。随着电力电
在传统的变频控制系统中,调节器通常采用PID调节器,设置PID参数的依据是基于模型精确的线性系统的经典控制理论。目前,交流调速系统中,控制器的设计主要采用近似线性化的工程设计