基于大规模语料库的中文同义词抽取方法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:jintianfuqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的日益普及、因特网的迅猛发展,网上信息呈指数级增长。同时,信息资源的共享度愈来愈高,给人们的日常生活带来极大的便利。目前,人们每天面对大量的信息,如何从海量数据中提取有价值的信息,已经成为信息技术领域研究的热门课题。中文同义词抽取是中文信息处理的基础研究,在不同的应用领域中发挥不同的作用。由于同义词散布于海量信息中,为尽可能多地抽取同义词,本文以大规模语料为研究对象。互联网新技术的不断发展和信息的爆炸式增长,自然语言处理和信息检索等技术在信息的处理和获取方面呈现愈加重要的作用,而同义词又在各种自然语言处理和信息检索应用中有着重要的研究意义和应用价值。基于此,本文提出两种面向经济领域的字面相似与PageRank链接融合、点互信息(Pointwise Mutual Information,简称PMI)与潜在语义分析(Latent Semantic Analysis,简称LSA)结合的同义词方法,可从海量语料库中获取大量的同义词集合。字面相似与PageRank链接融合方法建立在字面相似方法和PageRank链接方法基础之上,充分利用了字面相似方法的构词特征和PageRank链接方法词汇间语义的联系。既考虑了两个词汇的匹配序、匹配度,又考虑了两个词汇之间的解释与被解释的链接关系。点互信息与潜在语义分析结合方法是以互信息原理和潜在语义分析理论为基础,点互信息通过两个词汇之间的互信息,对多个词汇间的互信息进行简单有效的估计;潜在语义分析将计算机科学、数学、情报学的思想、技术和手段结合起来,对词汇的潜在含义进行挖掘,根据两个词汇在语义上的关联,达到检索结果的目的。基于LSA的同义词抽取方法始于一个词汇与文档联系的大规模矩阵,自动地建造了一个语义空间,使得使用者能够发现相关信息。只要在概念上与该文档的主体思想联系相一致,在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语义空间的位置可以用来作为一种主意指引,提取信息的过程就是利用提问式中的关键词来识别空间的一个点,在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列。本文提出了两个可行的计算词汇相似度的同义词抽取方法。最后,通过实验验证这两种抽取方法的正确率、召回率、F指标均有所提高。
其他文献
随着社会的发展和科技的进步,传统教学模式无法满足社会的需求。自主学习的教学模式成为了教学发展的方向。网络教学成为了自主学习的主要途径。但早期网络教学存在理论欠缺,
计算机和互联网逐渐融入人们的生活,同时,网络入侵等安全威胁层出不穷,网络安全形势十分严峻。安全审计技术,通过对系统事件等各种信息的记录并分析检查用户行为,能够防范和发现违
本文在介绍电法勘探知识的基础上详细说明了集成化电法处理解释系统的研究方法和实现过程。我们开发的解释系统能够接收常规、高密度电法仪和音频电透仪中的数据并将数据存入
随着计算机网络的不断普及和协同科学理论的形成与完善,协同计算将是新世纪全新和流行的计算方式,各行各业对使用计算机和网络来支持协同工作的要求越来越迫切。由于信息技术
无线传感器网络,尤其是移动无线传感器网络,以其感应数据高保真性,节点位置可调整,节点移动可控制,网络部署灵活等优点,被广泛应用于无人值守现场、灾难发生现场、紧急救援现场、医
随着计算机应用领域的迅速扩大,软件规模及复杂性的不断提高,软件危机日益严重,提高软件的生产效率和质量成为软件产业的当务之急。近些年来面向对象技术的发展成熟和Interne
随着计算机、多媒体技术的快速发展和普及应用,数字产品信息的交流变得更加的快捷和方便了,而在信息交流快捷的情况下,信息的获取也变得更加容易了,由此就引发了很多的问题,图像、
在实际生活中,我们经常会遇到各种各样的网络系统,如计算机网络、电网和铁路交通网等。为了方便用户监控这些网络,我们常常会提供一个人性化的图形用户界面,用户可以通过它来
近年来,随着以因特网为主体的信息高速公路不断普及和发展,信息技术已经渗透到我们社会生活的每个角落,它正在以前所未有的速度和能力改变着我们的生活和工作方式,因特网上的
以太网技术在二十多年的发展过程中,从单一的数据网变成了混合的应用网,目前已经包括了诸多典型应用,并得到广泛使用。以太网供电技术使以太网能够为设备提供直流电源,从而能够简