基于最大频繁项集的搜索引擎查询结果聚类算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:pyane
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依
其他文献
本文在Rat-2(TK)细胞上,对浣熊痘病毒TK基因作为病毒筛选 标记的作用进行了研究。发现浣熊痘病毒虽然具有TK基因的序列和功能,但对5-溴脱氧尿嘧啶(5-BUdR)药物的选择压力并不敏感。即使采用HAT培养基挑选
双柏县地处云贵高原中部,哀牢山脉以东,金沙江与红河水系分水岭南侧,东与易门、峨山新平,小绿汁江隔界,西与镇原,景乐以哀牢山为界,北连楚雄,江北与绿丰接壤。县城设在妥甸镇
本文根据正廿面体病毒具有5:3:2旋转对称轴特性,分别计算出各条对称轴的轴长,并相应推导出:这里a5,a3和a2分别是5-,3-和2-重轴的长度,l是任意两相邻壳粒间的距离,T是三角形剖分数。同时对已报道过的又采
本刊讯:为切实推进人防宣传教育工作创新发展,提高全民国防观念和人防意识,人防办、团市委、教育局、少工委决定在全市少先队员中广泛开展以防灾减灾、自救自护为主要内容的人
本刊讯:5月6日,《2018年度重要学术会议指南》(以下简称《指南》)编委会第二次会议在北京召开.编委会主任、中国金属学会理事长、中国科协先进材料科学联合体主席、中国工程院院
<正>~~
新课改实施以来,小学班主任的教学和管理水平也在不断的提升,小学班主任通过对学生的价值观和人生观、价值观进行相应的引导,有利于培养学生树立正确的人生价值观。在班主任
为了深入贯彻落实党的十九大精神,面向困难青少年精准扶贫,服务乡村儿童健康成长,4月12日,由石嘴山市青少年活动中心、石嘴山市青联共同开展的“情暖童心 快乐成长”石嘴山市
目的探讨早期诊断川崎病(KD)的可能性.方法参照KD现行诊断标准统计分析81例KD患儿各种临床表现出现的时间及发生率.结果本病早期发热、眼结膜充血、皮疹、唇红干裂分别是100%
傣文自动分词是傣文信息处理中的基础工作,是后续进行傣文输入法开发、傣文自动机器翻译系统开发、傣文文本信息抽取等傣文信息处理的基础,受限于傣语语料库技术,傣文自然语