基于最大频繁项集的搜索引擎查询结果聚类算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：pyane

【摘要】

：

现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类，由于网页摘要篇幅较短，质量良莠不齐，聚类效果难以有较大的提高（比如后缀树算法，Lingo算法）；而传统的基于

【作者】

：

苏冲陈清才王晓龙孟宪军

【机构】

：

哈尔滨工业大学深圳研究生院智能计算研究中心

【出处】

：

中文信息学报

【发表日期】

：

2010年2期

【关键词】

：

计算机应用中文信息处理搜索引擎网页聚类频繁项集 computer application Chinese information processing

【基金项目】

：

863专题目标导向类资助项目（2006AA01Z197）,国家自然科学基金资助项目（60703015）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类，由于网页摘要篇幅较短，质量良莠不齐，聚类效果难以有较大的提高（比如后缀树算法，Lingo算法）；而传统的基于全文的聚类算法运算复杂度较高，且难以生成高质量的类别标签，无法满足在线聚类的需求（比如KMeans算法）。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC（Maximal Frequent Itemset Clustering）。算法首先基于全文挖掘最大频繁项集，然后依据网页集合之间最大频繁项集的共享关系进行聚类，最后依

其他文献

浣熊痘病毒TK基因对5—BUdR药物不敏感性的研究

本文在Ｒａｔ－２（ＴＫ）细胞上，对浣熊痘病毒ＴＫ基因作为病毒筛选标记的作用进行了研究。发现浣熊痘病毒虽然具有ＴＫ基因的序列和功能，但对５－溴脱氧尿嘧啶（５－ＢＵｄＲ）药物的选择压力并不敏感。即使采用ＨＡＴ培养基挑选

期刊

浣熊痘病毒TK基因5-BUdRRaccon poxvirus TK gene5-BUdR

丰富多彩的双柏民歌

双柏县地处云贵高原中部,哀牢山脉以东,金沙江与红河水系分水岭南侧,东与易门、峨山新平,小绿汁江隔界,西与镇原,景乐以哀牢山为界,北连楚雄,江北与绿丰接壤。县城设在妥甸镇

期刊

民歌民族文化彝族哀牢山脉民族民间音乐民间艺人民族特色演唱内容山歌海拔差异

正廿面体病毒的轴长,三角形剖分数和壳粒间距之间关系的研究

本文根据正廿面体病毒具有５：３：２旋转对称轴特性，分别计算出各条对称轴的轴长，并相应推导出：这里ａ５，ａ３和ａ２分别是５－，３－和２－重轴的长度，ｌ是任意两相邻壳粒间的距离，Ｔ是三角形剖分数。同时对已报道过的又采

期刊

正廿面体三角形剖分数壳粒病毒Icosahedron Triangulation numberRadius of equivalent sphereC

兰溪市举办第一届红领巾人防宣教实践活动启动仪式

本刊讯：为切实推进人防宣传教育工作创新发展,提高全民国防观念和人防意识,人防办、团市委、教育局、少工委决定在全市少先队员中广泛开展以防灾减灾、自救自护为主要内容的人

期刊

实践活动人防办仪式红领巾兰溪市宣传教育工作国防观念防灾减灾

《2018年度重要学术会议指南》编委会第二次会议在京召开

本刊讯：5月6日,《2018年度重要学术会议指南》（以下简称《指南》）编委会第二次会议在北京召开.编委会主任、中国金属学会理事长、中国科协先进材料科学联合体主席、中国工程院院

期刊

学术会议编委会指南数学与系统科学研究院中国金属学会中国工程院院士中国科学院院士项目组成员

蝴蝶泉边

<正>~~

期刊

蝴蝶中国音乐分钟洱海水深泉水气户相交互通石头

小学班主任管理工作与语文教学的有效结合探讨

新课改实施以来,小学班主任的教学和管理水平也在不断的提升,小学班主任通过对学生的价值观和人生观、价值观进行相应的引导,有利于培养学生树立正确的人生价值观。在班主任

期刊

小学班主任管理工作语文教学结合

石嘴山市青少年活动中心流动少年宫走进平罗县“庙庙湖”小学

为了深入贯彻落实党的十九大精神,面向困难青少年精准扶贫,服务乡村儿童健康成长,4月12日,由石嘴山市青少年活动中心、石嘴山市青联共同开展的“情暖童心快乐成长”石嘴山市

期刊

青少年活动中心石嘴山市平罗县少年宫小学快乐成长儿童健康少年儿童

81例川崎病（KD）的早期诊断探讨

目的探讨早期诊断川崎病(KD)的可能性.方法参照KD现行诊断标准统计分析81例KD患儿各种临床表现出现的时间及发生率.结果本病早期发热、眼结膜充血、皮疹、唇红干裂分别是100%

期刊

川崎病KD早期诊断小儿

傣文自动分词系统的设计与实现

傣文自动分词是傣文信息处理中的基础工作,是后续进行傣文输入法开发、傣文自动机器翻译系统开发、傣文文本信息抽取等傣文信息处理的基础,受限于傣语语料库技术,傣文自然语

期刊

傣文分词CRF绝对切分词Daiwen segmentation CRF absolute segmentation word

基于最大频繁项集的搜索引擎查询结果聚类算法

与本文相关的学术论文