基于支持向量机的汉语词义消歧研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:guomeixiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧一直是计算语言学领域的一个重要研究课题,其对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响。本文以北京大学计算语言学研究所开发的较大规模的《人民日报》词义标注语料为基础,从以下几个方面进行了研究: 提出一种递减的特征选择算法考察各种上下文知识的组合对有指导词义消歧的影响。实验表明,丰富的上下文知识有利于词义消歧。采用支持向量机方法进行词义消歧,剖析了支持向量机方法的两个重要方面:核函数的选择和多类别支持向量机方法。通过实验表明,相对于其他核函数而言,线性核函数具有训练速度较快,正确率较高的特点。在目前的多类别SVM方法中,一次优化决策的方法训练速度快,易于构造,且消歧效果较好。 通过上述研究,本文采用线性核、一次优化决策的多类别支持向量机方法对3个月的《人民日报》语料进行词义消歧,达到了83.82﹪的正确率。实验也表明使用支持向量机的方法进行词义消歧的效果比最大熵方法好,但是支持向量机方法也有训练速度较慢的缺点。 本文还对SENSEVAL-3的中文评测语料进行词义消歧评测,支持向量机方法达到了64.91﹪的正确率,比最大熵方法提高了2.38个百分点。表明支持向量机方法在小样本情况下具有较明显的优势。
其他文献
海洋环流模式被广泛应用于海洋环境和气候预测研究。随着研究不断深入,海洋环流模式向着高分辨率的方向发展。分辨率的提高会导致模式的计算量和模式对计算资源的需求呈几何级
门户提供了对信息资源的单一访问入口。随着信息化建设的深入,门户已经成为企业新型办公环境的重要组成部分,并在消除信息孤岛等方面发挥了关键的作用。   集成企业内部和外
编译器是软件开发的基础支撑性工具,它的正确性直接影响到应用软件的可靠性,保证其质量的有效手段之一是软件测试。优化是编译过程中的重要阶段,它主要通过对程序进行等价性变换
人体目标是视频监视场景中最为重要的—类目标,其数量指标在许多实际应用中都具有十分重要的作用。因此,基于视频监视的人数统计技术研究能产生直接的经济效益和社会效益,尤其是
1895年伦琴发现X射线,并将其应用于医学成像领域,揭开了医学检测手段的新篇章。自此以后,医学成像技术的发展经历了两个阶段:结构成像、功能成像。大量现代医学成像设备(如:计算机
随着计算机软硬件技术、网络通讯技术和现代制造技术的飞速发展,数控系统正在朝着开放式、网络化和智能化方向发展,这对开放式控制器系统提出了越来越高的要求。与此同时,嵌
本文就如何建设企业配送中心信息系统进行了讨论,提出了一种适合一般企业配送中心信息系统的构建思路。并在此基础上设计实现了一个基于J2EE的从事货物运输、仓储、配送等业务
医学图像分割技术能够自动或半自动描绘出医学图像中的解剖结构和其它感兴趣的区域,从而有助于诊断,所以它在生物医学图像的应用中起着非常重要的作用。虽然己研究出不少边缘提
如何高效、低成本地开发高质量软件一直是计算机软件领域重点研究的问题。软件复用被认为是解决该问题的既实用又有效的方法。构件技术作为支持软件复用的核心技术也因此备受
该文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)影响分类器性能的关键因素的定量分析:针对影响分类器性能的两