基于知网的汉语词义消歧研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tonzhofpcb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文以知网系统作为语义分类的体系,首先尝试了基于隐马尔可夫模型的消歧方法,但由于在一阶隐马尔可夫模型中可以考察到的上下文相对较小,然而有些时候距离歧义词较远的词语往往对词义的确定起着至关重要的作用,因此这种方法的消歧正确率在三个模型中最低,大约为85﹪左右.随后该文又尝试了基于单纯贝叶斯概率模型的消歧方法,这种方法在抽取上下文特征时没有进行合理的选择,致使一些无用的信息混入其中降低了贝叶斯分类器的分类准确率,这种方法的消歧正确率大约为89﹪左右.考虑到基于单纯贝叶斯概率模型的缺点,该文采用了基于依存分析的贝叶斯概率模型,在这个模型中,利用了依存分析的结果作为上下文分类特征的抽取方法,这样提高了上下文特征抽取的有效性,因此也取得了比较好的消歧效果,在测试中该方法的消歧正确率可以达到92﹪左右,在三个模型中消歧正确率是最高的.另外,该文采用了以知网为基础的语义分类体系,由于知网系统刻画了词语所描述的概念与概念之间的关系,如果能利用知网对词语的语义进行大规模的文本语义标注一定会促进对语言的深层理解,这将对自然语言处理的诸多方面,例如机器翻译、自然语言理解、信息检索、自动文摘等,产生巨大的推动作用.
其他文献
该文首先分析了各种传统图像分割算法,尤其是各种边缘提取算法,接着讨论了各种算法应用于舌像分割的优缺点,重点分析了Kass等人提出的称为Snake的主动轮廓线法,并将其应用于
该文中将详细阐述现阶段远程教育系统中存在的问题,并为解决问题走出了探索的一步.该文在前言部分简要的描述了教育系统架构及BDML(BeiDa Markup Language)语言设计的必要
该系统以《数据结构》为背景领域,研究了网络环境下ICAI中学生认知模型的构建与实现.包括对课程知识的认知分类、题库的认知改造以及适合学生推理模型的框架知识表示法和领域
学位
该文首先阐述了课题的背景及电子政务的发展状况,对电子政和斩发展情况做了比较全面的综述.该文着重研究了基于数据字典技术的电子政务系统的体系结构,通过对电子政务体系结
该文首先论述了相关技术背景,对XML技术做了一个简要综述,讨论了C/S结构以及三层应用系统的特点及优缺点.然后该文结合作者的开发经验,跟踪研究了最新流行技术以及存在的相关
聚类分析与离群点检测是数据挖掘中的关键问题,该文针对大规模交易数据库,研究聚类与离群点检测算法.主要研究工作包括:1)提出了一个高效的符号属性聚类算法:Squeezer算法.该
密码学作为信息安全的关键技术,是目前研究领域的一个热点,也是计算机网络安全的基础.该文重点介绍了安全协议的一些特征,并针对基于对称密钥密码技术和公开密钥密码技术,介
该文对如何捕捉多个同步的视频流、如何进行全景视频图像的拼接,以及如何在3D场景中应用柱面全景视频等3个问题进行了深入、细致的讨论.对于第1个问题,我们讨论了一种在局域
学位