论文部分内容阅读
检索结果聚类技术致力于实时地将检索结果按主题整理成若干类别,并赋予每个类别一个准确可读的标签。用户可以根据标签直接定位真正感兴趣的结果集,还可以根据其它类别的标签更好地了解查询词,必要时重新构造更准确的查询词等。相比一般文本聚类问题,检索结果聚类针对搜索引擎返回文本信息不全的特点,且有着计算速度快、类别描述准确等需求。对此,本文提出了一种基于自组织特征映射(Self-Organizing Feature Map,SOM)聚类算法,该算法将SOM与潜在语义索引技术(Latent Semantic Indexing,LSI)有机地结合,利用潜在语义索引技术将待聚类文本及特征词表示于共同低维语义空间,然后将重新表示的文本用于SOM训练,将重新表示的特征用于神经元标签计算,并在综合考察神经元权值和标签的基础上进行神经元的基类合并,最终形成带有准确标签描述的聚类结果。本文根据检索结果聚类特点进行语义特征信息抽取来辅助聚类过程。着眼于深度挖掘文本之间语义联系,提出基于语义空间转换方法的类别标签自动发现算法。针对检索结果聚类的实用特性,力图保持检索结果聚类的时效性、准确性和覆盖性,重点研究了以下问题:1、基于语义特征抽取的初始信息优化选择检索结果聚类需要直接呈现给用户,这一特点决定了传统的机器学习算法并不能完美解决这一问题。理解文本的语义是自然语言处理的终极目标,同样对于检索结果聚类是十分重要的。针对中文语义分析并不成熟的现状,本文提出从网络资源、词典资源以及中文语义分析中主动学习多种语义特征信息的方法,把中文语义分析引入检索结果聚类中。聚类效果不仅取决于特征和算法的选择,聚类文档质量同样很重要。检索结果聚类要处理的是网络上返回大量无序的文档集合,从这些无序文档中去除冗余信息的过滤过程是优化初始信息的另一个研究重点。为解决此问题,我们采用了基于SVM的模式分类方法,通过对SVM改进,利用特征融合的方法,建立一个预测模型,对所有从搜索引擎收集来的网页进行快速预测,从而在不影响整体性能下达到快速收集聚类的目的,而通过实验证明过滤后的语料在聚类整体性能中有了显著提高。2、动态LSI和SOM相结合的检索结果聚类算法聚类分析准确性是保证检索聚类效果的最基本要求,本文尝试多种聚类分析算法,并通过和前人提出的算法进行比较,选定以自组织特征映射网(Self-orgnizatin map,SOM)为检索结果聚类算法。考虑到不同检索返回结果文档集类别个数差异很大,导致检索返回文档集合颗粒度差异很大。因此,本文对SOM进行了改进,使其从一个较小的网络开始,动态地增长到合适大小。神经元权值向量接近映射于其上的文档集质心,因此当SOM神经元个数小于所要表示的类别数目时,神经元与样本的偏差之和即量化误差会偏大,据此可以确定神经元自动扩展。该方法可以根据检索结果返回文档颗粒度自动调节神经网中神经元分布。此外检索结果相比一般的文档,特点是短而噪声多。当采用向量空间模型(Vector Space Model,VSM)表示时,稀疏现象非常严重。因此,需要有一种有效的特征降维技术。本文在综合对比现有的特征抽取技术基础上选择了LSI,该特征不仅能有效降低维数,还能把一些稀疏特征有效联系起来,为聚类提供更好的特征。3、LSI与SOM相结合的类别标签抽取算法作为检索结果聚类问题的重点也是难点问题,类别标签的自动抽取一直是研究领域的热点。类别标签作为聚类类别描述的一种重要表现形式已经过多年的研究,大多数研究人员采用的方法只考虑词语出现频率,该算法虽然召回率很高,但搜索引擎返回结果中很多网页恶意提高词频以提升排名,造成准确率下降。本文打破传统词频方法束缚,利用空间转换的方法,将代表类别的神经元信息和词频信息映射到LSI分解后的新语义模型空间,通过内积计算的方法,自动的得到类别标签序列。并通过语义分析、用户需求分析等多种方法对标签进行优选来解决这一难题。4、基于标签相似度的基类合并标签的抽取不仅提供给用户更好的视觉效果,帮助用户快速查找到需要的信息。本文利用抽取的标签结果,对聚类算法进行反馈和改进。修正动态增长的SOM带来大量的基类合并问题。本文对检索结果聚类算法以及类别标签抽取技术进行初步探索,所提出方法紧密结合中文自然语言处理中语义分析方法中本题抽取技术和LSI技术,为今后深入研究奠定基础。