论文部分内容阅读
汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之一,已经在国内外取得了重大进展,并且也提出了许多有效的分词方法。但是对于歧义字段的处理精度方面还存在不小差距,并且也遇到了不少困难。 作者对汉语自动分词技术、方法和分词系统的实现技术进行了较深入的研究,提出了基于知网的语义相关度计算的歧义字段处理分词模型,并对各链长的歧义字段进行了处理,根据以上研究,设计了WGZ分词系统,并对所设计的系统进行了测试,在所提出的计算语义相关度方法、分词和标注方法都与其它方法做了全面的比较。实验证实,本系统若以句子为单位,本文提出的分词模型的分词正确率为:97.1%;若以词为单位,则为:99.4%,标注正确率为:91.4%。 作者在研究中发现,歧义消解并不只是词的问题,而是与其上下文,包括相邻词、句子段落甚至篇章都有直接或间接的关系。作者在系统的设计与实现时,也充分考虑到了这些因素,并在知网的基础上提出了词语的语义相关度计算模型,并对各链长的歧义字段进行了处理。在进行词性标注时,作者分析了前人的基于规则的词性标注的工作,并提出了基于规则优先级的词性标注方法,最后实现了分词和标注系统。 本文在设计分词系统的时候,充分研究了知网的知识结构以及其知识系统描述语言模型(KDML),并分析了知网在刻画词语概念知识的优越性。本文在利用正向最大匹配方法和逆向最大匹配方法来对输入文本进行预切分,并通过双向扫描的方法检测歧义字段。在歧义字段的处理这一重要环节,本文通过对计算词语间的语义相关度来消除歧义。在各链长的歧义字段的处理问题上,本文都提出了解决方法,或者可以归结到链长为1的歧义字段的处理。词性标注这个环节,本文通过边标注边进行规则的完善与调整,直至该规则库对生语料库的标注的正确率达到期望为止。 在进行系统测试时,作者以本文提出的计算语义相关度方法与其他方法做了比较,并对本文的分词方法和标注方法都与其它方法做了全面的比较。最后对本文的工作进行了展望。