基于知网语义相关度计算的汉语自动分词方法的研究

来源 :云南师范大学 | 被引量 : 0次 | 上传用户:ccwawa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之一,已经在国内外取得了重大进展,并且也提出了许多有效的分词方法。但是对于歧义字段的处理精度方面还存在不小差距,并且也遇到了不少困难。 作者对汉语自动分词技术、方法和分词系统的实现技术进行了较深入的研究,提出了基于知网的语义相关度计算的歧义字段处理分词模型,并对各链长的歧义字段进行了处理,根据以上研究,设计了WGZ分词系统,并对所设计的系统进行了测试,在所提出的计算语义相关度方法、分词和标注方法都与其它方法做了全面的比较。实验证实,本系统若以句子为单位,本文提出的分词模型的分词正确率为:97.1%;若以词为单位,则为:99.4%,标注正确率为:91.4%。 作者在研究中发现,歧义消解并不只是词的问题,而是与其上下文,包括相邻词、句子段落甚至篇章都有直接或间接的关系。作者在系统的设计与实现时,也充分考虑到了这些因素,并在知网的基础上提出了词语的语义相关度计算模型,并对各链长的歧义字段进行了处理。在进行词性标注时,作者分析了前人的基于规则的词性标注的工作,并提出了基于规则优先级的词性标注方法,最后实现了分词和标注系统。 本文在设计分词系统的时候,充分研究了知网的知识结构以及其知识系统描述语言模型(KDML),并分析了知网在刻画词语概念知识的优越性。本文在利用正向最大匹配方法和逆向最大匹配方法来对输入文本进行预切分,并通过双向扫描的方法检测歧义字段。在歧义字段的处理这一重要环节,本文通过对计算词语间的语义相关度来消除歧义。在各链长的歧义字段的处理问题上,本文都提出了解决方法,或者可以归结到链长为1的歧义字段的处理。词性标注这个环节,本文通过边标注边进行规则的完善与调整,直至该规则库对生语料库的标注的正确率达到期望为止。 在进行系统测试时,作者以本文提出的计算语义相关度方法与其他方法做了比较,并对本文的分词方法和标注方法都与其它方法做了全面的比较。最后对本文的工作进行了展望。
其他文献
因特网的爆炸式成长和电子商务的出现导致了推荐系统的发展。推荐系统是一种个性化信息过滤技术,它被用来预测某个用户是否喜欢某个项目(预测问题),或被用来确定某个用户最感兴
近年来,随着互联网的高速发展,搜索引擎系统得到了广泛的研究与应用。目前主流的搜索引擎系统均采用倒排索引结构来组织索引,该结构中每一个词项对应一条倒排索引,它将含有该词项
VoIP是指在IP数据网络上提供通话服务,由于VoIP承载于分组交换网络,其信令协议和实时数据在Internet上传播,它继承了网络易受攻击的缺点。而随着VoIP应用的普及,安全性问题成
负载平衡是影响分布式系统性能的一个关键因素。在P2P网络中,由于用户对资源需求的不均衡性以及网络中计算机计算能力的异构性,使得负载不平衡现象尤为明显,进而引起请求延时、
当前移动互联网和物联网迅速发展并逐步成为下一代互联网的主要模式,我们需要将各种无线通信技术融合起来提供普适计算,满足用户随时随地获取服务的需求。在众多无线技术中,
关系抽取是是信息抽取研究领域的一个重要课题。关系抽取的目的是从文本中发现两命名实体间的关系。近年来,该技术得到越来越多的关注,被运用到各个领域中,如:信息抽取,本体
当前,SoC设计领域的竞争日趋激烈。开发自主的处理器核、核心IP以及总线架构,将使我国的SoC发展更具竞争力。国内不少研究所和高校都在研制开发自主的SoC,东南大学也不例外。经
当前社会,随着国家对于人才培养环节越来越重视,高校所担任的人才培养责任也越来越重大。但是面对着刚刚入学的新生,将近1∶200的师生比例,让很多辅导员的学业帮扶工作开展起来显
实际中,语音常常受到环境噪声的干扰而使通话质量下降,严重时使语音处理系统不能正常工作。在这种情况下,必须采用信号处理方法进行语音增强,抑制背景噪声,以提高语音通信质量。因
随着信息化进程不断加快,数据资源日益丰富,信息已经成为世界上最有价值的商品。如何从大量的数据中找出对决策有用的信息支持决策已成为当务之急。数据挖掘技术的出现,使人们有