文本检索结果聚类及类别标签抽取技术研究

被引量 : 0次 | 上传用户:tashon123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检索结果聚类技术致力于实时地将检索结果按主题整理成若干类别,并赋予每个类别一个准确可读的标签。用户可以根据标签直接定位真正感兴趣的结果集,还可以根据其它类别的标签更好地了解查询词,必要时重新构造更准确的查询词等。相比一般文本聚类问题,检索结果聚类针对搜索引擎返回文本信息不全的特点,且有着计算速度快、类别描述准确等需求。对此,本文提出了一种基于自组织特征映射(Self-Organizing Feature Map,SOM)聚类算法,该算法将SOM与潜在语义索引技术(Latent Semantic Indexing,LSI)有机地结合,利用潜在语义索引技术将待聚类文本及特征词表示于共同低维语义空间,然后将重新表示的文本用于SOM训练,将重新表示的特征用于神经元标签计算,并在综合考察神经元权值和标签的基础上进行神经元的基类合并,最终形成带有准确标签描述的聚类结果。本文根据检索结果聚类特点进行语义特征信息抽取来辅助聚类过程。着眼于深度挖掘文本之间语义联系,提出基于语义空间转换方法的类别标签自动发现算法。针对检索结果聚类的实用特性,力图保持检索结果聚类的时效性、准确性和覆盖性,重点研究了以下问题:1、基于语义特征抽取的初始信息优化选择检索结果聚类需要直接呈现给用户,这一特点决定了传统的机器学习算法并不能完美解决这一问题。理解文本的语义是自然语言处理的终极目标,同样对于检索结果聚类是十分重要的。针对中文语义分析并不成熟的现状,本文提出从网络资源、词典资源以及中文语义分析中主动学习多种语义特征信息的方法,把中文语义分析引入检索结果聚类中。聚类效果不仅取决于特征和算法的选择,聚类文档质量同样很重要。检索结果聚类要处理的是网络上返回大量无序的文档集合,从这些无序文档中去除冗余信息的过滤过程是优化初始信息的另一个研究重点。为解决此问题,我们采用了基于SVM的模式分类方法,通过对SVM改进,利用特征融合的方法,建立一个预测模型,对所有从搜索引擎收集来的网页进行快速预测,从而在不影响整体性能下达到快速收集聚类的目的,而通过实验证明过滤后的语料在聚类整体性能中有了显著提高。2、动态LSI和SOM相结合的检索结果聚类算法聚类分析准确性是保证检索聚类效果的最基本要求,本文尝试多种聚类分析算法,并通过和前人提出的算法进行比较,选定以自组织特征映射网(Self-orgnizatin map,SOM)为检索结果聚类算法。考虑到不同检索返回结果文档集类别个数差异很大,导致检索返回文档集合颗粒度差异很大。因此,本文对SOM进行了改进,使其从一个较小的网络开始,动态地增长到合适大小。神经元权值向量接近映射于其上的文档集质心,因此当SOM神经元个数小于所要表示的类别数目时,神经元与样本的偏差之和即量化误差会偏大,据此可以确定神经元自动扩展。该方法可以根据检索结果返回文档颗粒度自动调节神经网中神经元分布。此外检索结果相比一般的文档,特点是短而噪声多。当采用向量空间模型(Vector Space Model,VSM)表示时,稀疏现象非常严重。因此,需要有一种有效的特征降维技术。本文在综合对比现有的特征抽取技术基础上选择了LSI,该特征不仅能有效降低维数,还能把一些稀疏特征有效联系起来,为聚类提供更好的特征。3、LSI与SOM相结合的类别标签抽取算法作为检索结果聚类问题的重点也是难点问题,类别标签的自动抽取一直是研究领域的热点。类别标签作为聚类类别描述的一种重要表现形式已经过多年的研究,大多数研究人员采用的方法只考虑词语出现频率,该算法虽然召回率很高,但搜索引擎返回结果中很多网页恶意提高词频以提升排名,造成准确率下降。本文打破传统词频方法束缚,利用空间转换的方法,将代表类别的神经元信息和词频信息映射到LSI分解后的新语义模型空间,通过内积计算的方法,自动的得到类别标签序列。并通过语义分析、用户需求分析等多种方法对标签进行优选来解决这一难题。4、基于标签相似度的基类合并标签的抽取不仅提供给用户更好的视觉效果,帮助用户快速查找到需要的信息。本文利用抽取的标签结果,对聚类算法进行反馈和改进。修正动态增长的SOM带来大量的基类合并问题。本文对检索结果聚类算法以及类别标签抽取技术进行初步探索,所提出方法紧密结合中文自然语言处理中语义分析方法中本题抽取技术和LSI技术,为今后深入研究奠定基础。
其他文献
目的:观察齐刺痛点配合肩三针治疗肩关节周围炎的临床疗效,提高临床诊治效率。方法:采用齐刺痛点配合肩三针治疗肩关节周围炎,得气后留针20~30min。同时点刺肩井穴,天宗穴均不
城市桥梁以内实外美为设计原则,追求结构新颖的同时也增加了施工的难度。亚泰大街上跨繁荣路立交桥工程位于繁荣路与亚泰大街交汇处,结构设计新颖:上部为大悬臂鱼腹式预应力混凝
本文通过分析肥胖对青少年生长发育的影响以及运动干预肥胖的方法进行研究,旨在降低青少年肥胖率,提高青少年体质水平。
目的系统评价Xpert MTB/RIF试验对肺外结核的诊断价值。方法计算机检索中国知网、万方、维普、Medline、Embase、Cochrane Library等数据库,筛选关于Xpert MTB/RIF试验诊断肺
预应力混凝土鱼腹式连续梁桥造型美观、受力合理,且相对于常规箱梁而言桥下净空更大,因而在城市桥梁中已获得广泛应用。以一座鱼腹式箱梁桥为例,介绍了上部结构的设计与计算
医院在进入了高投入低产出的高成本时代的同时,也面临着不断拓展的医疗服务市场,经费筹措、事业发展的现实矛盾,如何在改革中脱颖而出,抓住机会,提高效能自主发展,是摆在我们
在经济全球化的新形势下,我国中小企业作为全球企业供应链的重要环节,已不能再撇开环境保护、产品质量、劳动权益等问题而盲目追求利润最大化。承担社会责任已成为我国中小企
在信息技术高速发展的时代,财务管理的传统核算方式已经不能满足企业的发展需求。如果企业想在严峻复杂的经济竞争环境中不被淘汰,就必须找到行之有效的应对措施,于是部分大
目的:观察调神通络针法结合中药活血调神解郁汤治疗脑卒中后抑郁临床疗效。方法:选取脑卒中后抑郁患者50例,以调神通络针法、中药活血调神解郁汤相结合治疗,治疗4周后观察疗
2型猪链球菌(Streptococcus suis serotype 2,SS2)是一种重要的人畜共患的病原菌。SS2感染不仅可致猪急性败血症、脑膜炎、关节炎、心内膜炎及急性死亡,并且可通过伤口等传播