面向真实文本的汉语词义排歧系统

来源 :山西大学 | 被引量 : 5次 | 上传用户:cxy153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理(NLP)中,词义排歧(Word Sense Disambiguation)一直是研究的重点和难点,对其他的语言信息处理任务具有重要的理论和实践意义。词义排歧任务是一项“中间任务”,其本身并不是一个终结,而是完成其它自然语言理解任务所必不可少的,它的研究成果可以直接应用于句法分析、机器翻译、文本处理和语音识别等自然语言处理系统。 本文的主要工作是研究获取支持词义排歧的知识的方法,并在此基础上建立一个面向真实文本中实词的汉语词义排歧系统。主要从以下几个方面进行了研究: 1.词义排歧知识的获取:词义排歧知识的获取是词义排歧的关键问题。在分析词义排歧所需的知识以及知识资源中提供的知识的基础上,本文研究了知识自动获取的方法。并以在线知识系统《知网》(2000)作为知识源,通过分析《知网》中的义原间的关系,自动建立了动态角色列表库、事物与属性关系库和动态实例库等一系列支持排歧的知识库。 2.词义排歧系统的设计和实现:通过获取的句法信息、频率信息、概念间的角色关系、搭配信息以及词的联想、上下文语义(聚类)和选择限制等信息,提出一个词义排歧模型,并抽取56,000词次的新闻文本语料,尝试对其中的实词(名词、动词、形容词)进行词义排歧。模型主要包括词性过滤器、局部分析器和搭配实例库等。在此基础上我们进行了系统的设计和实现。 3.词义排歧系统的评测:我们以新闻文本语料作为评测语料,语料涉及到政治、体育、农业、科技等几个方面。文本语料首先经过山西大学的分词与词性标注系统进行处理,然后作为我们系统的输入对象。评测结果表明排歧系统对于汉语真实文本的排歧是有效的,其准确率可达到80%左右。 本文通过知识获取建立起一个多种语言知识相结合的词义排歧模型,实验结果表明,排歧效果良好。
其他文献
互联网承载了大量的信息资源和网络业务,网络规模不断扩大,网络组成也日益复杂,越来越有必要对网络行为进行深入的研究和分析。互联网流量包含了丰富的信息,通过对互联网流量的有
随着科学技术的不断发展,人们对产品的质量要求不断提高,同时,随着人们生活水平的提高,各式各样的卡片(如:银行卡、购物卡、会员卡等)的需求量也随着增加。然而,由于车间环境、机器
随着互联网络稳定性的增加,IP电话技术的不断成熟,以及IP智能网服务的增加,IP电话正在被越来越多的人所喜爱,其网络规模越来越大.在国内IP电话网中,主要采用H.323协议体系.迎
网络管理系统是通信网络的重要组成部分,是保证通信网正常、经济、可靠、安全运行的重要支撑手段.网络管理系统应用软件是网管系统中直接向人们体现网管系统功能的部分,随着
逻辑模拟是电子设计自动化(Electronic Design Automation-EDA)的重要组成部分,通过软件模拟来验证设计是否在功能和性能上达到预期的要求.随着集成电路复杂性的日益提高,传
"PCS网管通信适配系统"是中兴通讯成都研究所自主开发的小灵通PCS集中网管系统中的一个子系统.随着电信业的快速发展,我国电信网的网络规模越来越大,网络结构越来越复杂.在这
随着移动互联网和物联网的快速发展,全球数据量出现了爆炸式的增长,传统的数据存储和计算模型难以适应这种海量的、复杂的、高速的和低价值密度的大规模数据,为了解决海量数据的
随着多媒体技术的发展和网络的日益普及,数字作品的网络发行已成为新时代文明传播的重要方式。但数字数据本身特有的易复制、易修改、存储费用低、传播迅速等特点使得数字作品
近年来,移动通信飞速发展,数据业务层出不穷,对网络和业务的有效管理日显重要.电信管理论坛对网络管理体系和业务管理方法进行了大量研究,提出的电信运营图(TOM)被网络运营商
电信技术的发展使得网络传送信息的方式不断进步,PDH的缺陷和SDH的优势使得后者在中国的传送网中获得了勃勃生机.网络的正常运行离不开完善的管理.因此,人们对网络管理系统的