基于统计的常用汉语副词用法自动识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:syscom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代汉语副词用法自动识别是面向自然语言处理的现代汉语副词知识库研究的重要内容之一,针对基于规则的现代汉语副词用法自动识别方法存在的不足,本文在已有工作的基础上,进一步提出了基于统计的常用汉语副词用法自动识别方法。分别采用条件随机场模型、最大熵模型和支持向量机模型,在1998年1月份《人民日报》分词与词性标注语料上,对8个常用的现代汉语副词进行了统计实验,实验表明基于统计的方法在现代汉语副词用法自动识别上具有较好的识别效果,能够很好地对未知的副词用法进行预测,在真实语料中取得了较高的准确率,与规则方法相比,统计实验结果的平均准确率有了较大的提高。实验证明基于统计的方法在常用现代汉语副词用法自动识别方面具有良好的应用前景。根据俞士汶等提出的构建“三位一体”的现代汉语虚词知识库的思想,本文着重研究现代汉语副词用法的自动识别,致力于采用统计机器学习方法实现副词用法的自动识别。本文的主要工作包括:(1)针对已经初步构建的现代汉语副词知识库,以副词用法信息词典中的例句集作为语料来考察副词用法规则,分析规则存在的问题,对用法规则进行修改,进而完善副词知识库。(2)使用基于规则的方法对人民日报语料中副词用法进行自动识别,并对识别结果进行人工校对,形成副词用法语料库,并作为实验语料。在对人民日报语料进行人工校对的同时,分析规则方法识别结果存在的问题,并进一步完善副词用法信息词典以及副词用法规则库。(3)针对基于规则方法存在的不足,实现基于统计的常用现代汉语副词用法自动识别,进一步提高副词用法识别的准确率。最后,论文对本文的研究工作进行了总结,并对下一步的研究进行了展望,指出了规则与统计方法相结合的现代汉语副词用法自动识别研究的可行性。
其他文献
合成孔径雷达(SAR)是一种机载和航天遥感系统,用于对地形上的远处目标进行成像,可在全天候条件下操作并生成极高分辨率的图像。SAR图像利用更长波长的信号来为工作于电磁(EM)
企业的飞速发展对数据传输系统提出了多方交互传输、传输量大、实时性及安全性要求高等新的需求。消息中间件在中间件中占有重要的地位,它为分布式网络计算环境中的应用提供
随着数字信号处理技术和嵌入式技术的快速发展,嵌入式DSP系统在应用领域越来越广泛。与此同时,嵌入式DSP系统也越来越复杂,开发周期和开发成本占据的比重越来越大。传统DSP软件
在云计算和大数据的时代大潮中,分布式块存储系统以它特有的优势而变得愈发重要。负载均衡是分布式块存储系统的重要特性,也是当前分布式块存储研究的热点之一。以现有的负载
当前的视频监控系统,结构复杂,成本高昂,且非常不灵活,本文结合市场上流行的ARM9嵌入式芯片为主控处理器来构建网络视频监控系统,可以在结构实现上大大简化。视频监控系统的
随着主动服务技术的不断深入研究,各项主动服务的关键性技术已经得到研究者们的实现以及优化,如构件注册检索、程序挖掘、多智能代理、构件组装发布等。然而,如何架构一个主
本文主要基于虚拟现实技术来构建虚拟场景并使其得到优化,首先介绍了虚拟场景的概念和关键技术,针对国内外的研究现状和进展,在结合OpenGL技术介绍,共同讨论并研究了虚拟场景
随着社会城市化的发展,数字城市对城市发展的促进作用也越来越明显,而三维建模是数字城市系统的基础。大规模城市建模往往需要投入大量的人力、物力和财力。高效率、大批量、
BLAS(Basic Linear Algebra Subprograms)定义了一组基本的矩阵和向量的操作,包括各种矩阵乘法和矩阵向量乘法,在许多领域有广泛的应用。现在的GPU已经发展为一种多核,多线程
数字图像具有形象、生动和直观等优点,己成为信息表达的主流方式之一,但在传输过程中也存在着诸多的安全隐患。因此,数字图像信息的安全问题己成为人们关注的焦点之一,研究图