基于支持向量机的汉语词义消歧研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：guomeixiang

【摘要】

：

词义消歧一直是计算语言学领域的一个重要研究课题，其对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响。本文以北京大学计算语言学研究所开发

【作者】

：

幸运

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2006年期

【关键词】

：

词义消歧支持向量机特征选择汉语

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词义消歧一直是计算语言学领域的一个重要研究课题，其对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响。本文以北京大学计算语言学研究所开发的较大规模的《人民日报》词义标注语料为基础，从以下几个方面进行了研究：提出一种递减的特征选择算法考察各种上下文知识的组合对有指导词义消歧的影响。实验表明，丰富的上下文知识有利于词义消歧。采用支持向量机方法进行词义消歧，剖析了支持向量机方法的两个重要方面：核函数的选择和多类别支持向量机方法。通过实验表明，相对于其他核函数而言，线性核函数具有训练速度较快，正确率较高的特点。在目前的多类别SVM方法中，一次优化决策的方法训练速度快，易于构造，且消歧效果较好。通过上述研究，本文采用线性核、一次优化决策的多类别支持向量机方法对3个月的《人民日报》语料进行词义消歧，达到了83.82﹪的正确率。实验也表明使用支持向量机的方法进行词义消歧的效果比最大熵方法好，但是支持向量机方法也有训练速度较慢的缺点。本文还对SENSEVAL-3的中文评测语料进行词义消歧评测，支持向量机方法达到了64.91﹪的正确率，比最大熵方法提高了2.38个百分点。表明支持向量机方法在小样本情况下具有较明显的优势。

其他文献

海洋环流模式LICOM的MIC并行优化

海洋环流模式被广泛应用于海洋环境和气候预测研究。随着研究不断深入，海洋环流模式向着高分辨率的方向发展。分辨率的提高会导致模式的计算量和模式对计算资源的需求呈几何级

学位

气候系统海洋模式消息传递接口模式并行计算优化运行

门户环境中信息资源集成技术研究

门户提供了对信息资源的单一访问入口。随着信息化建设的深入，门户已经成为企业新型办公环境的重要组成部分，并在消除信息孤岛等方面发挥了关键的作用。　　集成企业内部和外

学位

门户环境信息资源集成Portlet代码企业信息化Web应用资源动态生成

基于时序逻辑的编译优化形式化描述及测试用例生成方法

编译器是软件开发的基础支撑性工具，它的正确性直接影响到应用软件的可靠性，保证其质量的有效手段之一是软件测试。优化是编译过程中的重要阶段，它主要通过对程序进行等价性变换

学位

编译优化循环优化时序逻辑形式化描述测试用例生成关键结点控制图重写规则

基于视频监视的人数统计技术研究

人体目标是视频监视场景中最为重要的—类目标，其数量指标在许多实际应用中都具有十分重要的作用。因此，基于视频监视的人数统计技术研究能产生直接的经济效益和社会效益，尤其是

学位

视频监视视频监视人数统计人数统计人群密度人群密度运动分析运动分析人脸检测人脸检测统计分析统计分析模糊神经网络模糊神经网络

生物自发光分子成像处理平台的研究与实现

1895年伦琴发现X射线，并将其应用于医学成像领域，揭开了医学检测手段的新篇章。自此以后，医学成像技术的发展经历了两个阶段：结构成像、功能成像。大量现代医学成像设备(如：计算机

学位

生物自发光分子分子成像技术漫射方程虚拟生物环境空间信息

面向Flash设备的文件系统及相关嵌入式工具的研究与实现

随着计算机软硬件技术、网络通讯技术和现代制造技术的飞速发展,数控系统正在朝着开放式、网络化和智能化方向发展,这对开放式控制器系统提出了越来越高的要求。与此同时,嵌

学位

开放式控制器FLASH设备JFFS2嵌入式Linux嵌入式工具

基于J2EE的物流信息管理系统——仓储配送系统的设计和实现

本文就如何建设企业配送中心信息系统进行了讨论，提出了一种适合一般企业配送中心信息系统的构建思路。并在此基础上设计实现了一个基于J2EE的从事货物运输、仓储、配送等业务

学位

配送中心物流分布式应用程序组件信息管理系统

CT序列肝胆管道分割的研究与实现

医学图像分割技术能够自动或半自动描绘出医学图像中的解剖结构和其它感兴趣的区域，从而有助于诊断，所以它在生物医学图像的应用中起着非常重要的作用。虽然己研究出不少边缘提

学位

图像分割种子区域生长法交互式分割自动分割肝胆管道CT

基于接口自动机的构件行为获取

如何高效、低成本地开发高质量软件一直是计算机软件领域重点研究的问题。软件复用被认为是解决该问题的既实用又有效的方法。构件技术作为支持软件复用的核心技术也因此备受

学位

软件开发构件复用构件行为获取接口自动机

中文网页自动分类技术研究及其在搜索引擎中的应用

该文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)影响分类器性能的关键因素的定量分析:针对影响分类器性能的两

学位

搜索引擎Web挖掘中文网页自动分类定量分析噪音清除新词学习目录导航

基于支持向量机的汉语词义消歧研究

与本文相关的学术论文