论文部分内容阅读
随着计算机的日益普及、因特网的迅猛发展,网上信息呈指数级增长。同时,信息资源的共享度愈来愈高,给人们的日常生活带来极大的便利。目前,人们每天面对大量的信息,如何从海量数据中提取有价值的信息,已经成为信息技术领域研究的热门课题。中文同义词抽取是中文信息处理的基础研究,在不同的应用领域中发挥不同的作用。由于同义词散布于海量信息中,为尽可能多地抽取同义词,本文以大规模语料为研究对象。互联网新技术的不断发展和信息的爆炸式增长,自然语言处理和信息检索等技术在信息的处理和获取方面呈现愈加重要的作用,而同义词又在各种自然语言处理和信息检索应用中有着重要的研究意义和应用价值。基于此,本文提出两种面向经济领域的字面相似与PageRank链接融合、点互信息(Pointwise Mutual Information,简称PMI)与潜在语义分析(Latent Semantic Analysis,简称LSA)结合的同义词方法,可从海量语料库中获取大量的同义词集合。字面相似与PageRank链接融合方法建立在字面相似方法和PageRank链接方法基础之上,充分利用了字面相似方法的构词特征和PageRank链接方法词汇间语义的联系。既考虑了两个词汇的匹配序、匹配度,又考虑了两个词汇之间的解释与被解释的链接关系。点互信息与潜在语义分析结合方法是以互信息原理和潜在语义分析理论为基础,点互信息通过两个词汇之间的互信息,对多个词汇间的互信息进行简单有效的估计;潜在语义分析将计算机科学、数学、情报学的思想、技术和手段结合起来,对词汇的潜在含义进行挖掘,根据两个词汇在语义上的关联,达到检索结果的目的。基于LSA的同义词抽取方法始于一个词汇与文档联系的大规模矩阵,自动地建造了一个语义空间,使得使用者能够发现相关信息。只要在概念上与该文档的主体思想联系相一致,在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语义空间的位置可以用来作为一种主意指引,提取信息的过程就是利用提问式中的关键词来识别空间的一个点,在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列。本文提出了两个可行的计算词汇相似度的同义词抽取方法。最后,通过实验验证这两种抽取方法的正确率、召回率、F指标均有所提高。