一种面向标签质量的检索结果聚类方法

被引量 : 0次 | 上传用户:xiaoxiaolong1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检索结果的聚类,是一种对检索结果的组织方式,它致力于把具有公共子主题的检索结果组织在同一个类中,并对各个类形成标签以描述类的主题。它为用户快速定位于感兴趣的结果提供了很大的方便。国内外在检索结果聚类已有了大量的相关研究,聚类搜索引擎也有了一定的发展,但是目前检索聚类质量依然不高,主要体现在:没有把检索结果根据有意义的子主题进行组织;标签的可读性差。本论文在对现有的检索结果聚类技术和已有的聚类引擎的效果作了深入的调研分析的基础上,以形成有意义的子主题、生成可读标签为目标,提出了面向改善标签质量的检索结果聚类方法(LQOM),它的方案特征包括:(1)采取先抽取标签短语,后对文档划分的方法,标签短语的抽取方法是整个研究的核心;(2)使用候选词扩展的方式生成短语:首先获取有意义的候选词,作为主干成分;然后对这个主干进行成分扩展,把邻近词作为枝叶扩充进来,使其进一步成为完整短语;(3)候选词的打分中,利用候选词与查询词之间的平均距离作为词语的查询相关性度量、以包含该词语的文档的相似度作为词语的主题代表性的度量;(4)在计算短语的频率中,考虑到语言的复杂性和灵活性,引用近似短语相似度的计算法替代传统的字符串判等法:对于一个字符串,允许语句成分的插入、删减以及词间位置调换;(5)在完整短语的评判中,利用上下文文本熵对短语的独立性进行评分;(6)选取合适的短语特征和回归模型,对候选标签评分;(7)包含了标签短语的检索结果集合,形成了该子主题下的文档,对其它未包含各标签词的文档基于假设检验方法判断是否将划分到已得聚类。最后,本论文实验评估验证了短语频率计算中,引入近似短语相似度的计算法替代传统的字符串判等法的有效性;评估了本论文中短语评分中的选取的各种特征和各种不同的评分模型;通过P-R曲线选择了假设检验中的最优显著性水平;和Lingo方法对比,实验结果表明,本论文的方法在标签的质量上,比Lingo有较大的改善:高质量标签的比例得到提高、标签的查询相关性和主题代表性有了较大的改善,但是由于有限输入数据下对统计方法的限制,在采用上下文独立熵的方法下,标签的完整性还有待于提高。
其他文献
将高校课外艺术活动与社区文化建设结合起来,对高校的艺术教育和对社区文化建设来说是双赢的好事,因为将两者结合有效地整合了高校和社区两方面的资源。高校课外艺术活动与社
7050高强铝合金厚板喷淋淬火的淬透性与残余应力协调控制是制备该材料的一个关键技术。本文设计了喷淋压力(p)与喷淋表面流量密度(qs)作为独立参数的7050铝合金末端喷淋淬火
<正> 一、主要原料的基本状况十余年来,化学建材用的原材料,取得了长足的进展.通过引进和国内开发相结合的方式,我们先后建设了一批大中型化工生产装置,改造并扩建了一批老企
施工员是大部分建筑工程资料的直接编制者。其做好工程资料工作的态度和工作能力 ,决定着工程资料是否能够有效指导施工作业和完整、准确、及时地反映工程施工状况。一个施工
介绍了布袋除尘器在锅炉烟气除尘上的应用,分析了其前景。
无线射频识别(RFID)技术作为一种新兴的非接触式自动识别技术,自本世纪开始越来越受到广泛的关注。这项技术逐渐在人们生活和工作的各个领域中展开了应用,例如RFID技术已经在
<正>1这是一个一度被文学史遗忘了的作家。他在中国文学史上曾湮没无名,正像他用"无名氏"作为笔名一样,任何一本文学史都找不到他。然而他的狂飙突进的浪漫主
总结了目前LNG气化站流程中蒸发气体(BOG)储罐的设置方式,通过对工艺流程的分析得出该种设置方式并不能储存BOG的结论。如果在BOG储罐之后设置阀门,则该储罐可储存一定量的气
朝鲜时代的出版分为官刻本和私刻本。官刻本是由国家主管刻印的板本,私刻本是指个人刻印的板本。与出版中国小说有关的机关就是校书馆、司译院、六曹(礼部)、各地方监营等。
液化天然气(LNG)以其能量密度高、运输方便、环保、经济等优点,已成为管输天然气供应范围以外城市的主气源和过渡气源。论述了液化天然气气化站的工艺流程、工艺设计要点和运