基于最大频繁项集的搜索引擎查询结果聚类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sgjies
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的爆炸式增长,如何帮助用户快速准确地定位所需信息就成了一个十分紧要的问题。通过对搜索引擎查询结果进行在线聚类可以解决这个问题。然而由于查询结果在线聚类所具有实时性,标签可读性等特点,传统的聚类算法无法满足应用要求;另一方面当前大部分研究基于网页摘要聚类,聚类精度有待提高,因此本文在实验室通用搜索引擎平台上研究并设计了一种有效地基于网页全文的聚类算法。本文通过对频繁项集及其在聚类算法中应用的研究,提出了一种基于最大频繁项集的搜索引擎查询结果在线聚类算法(Maximal Frequent Itemsets Clustering, MFIC)。MFIC通过采用动态最小支持度和只挖掘最大频繁项集,突破了频繁项集在在线聚类方面应用的瓶颈,围绕频繁项集完成网页聚类,相似度计算,标签生成等工作。本文的研究内容主要包括以下几个方面:(1)结合查询结果聚类的应用需要,进行网页预处理,采用动态设定频繁项集挖掘中的最小支持度,挖掘最大频繁项集,提高了频繁项集可用性;(2)设计并实现了基于最大频繁项集的网页在线聚类系统,依据频繁项集覆盖网页集合的关系,频繁项集包含词集合关系进行相似度计算,簇的生成,合并等过程;(3)设计标签的提取算法,结合频繁项集和词语顺序出现关系挖掘短语性标签,改进了基于频繁项集聚类的标签生成效果;(4)通过与其它聚类算法的实验对比,验证了本文提出的聚类方法在网页聚类方面的优越性。本系统已成功应用在本实验中心构建的智能化网络信息检索平台中。实验结果表明,本文提出的方法能够满足在线聚类的要求,在时间复杂度和聚类精度上都达到了很好的预期效果。
其他文献
WirelessHART是第一个为工业自动过程设计的开放标准无线通信协议。WirelessHART标准使用TDMA和跳信道技术来控制网络的访问和网络设备之间的通信。与采用无线ad-hoc或对等网
变电站巡检机器人是国家863计划项目,该巡检机器人是集多传感器融合技术、电磁兼容技术、导航及行为规划技术、机器人视觉、语音技术、海量、稳定的无线传输技术于一体的复杂
移动自组网是一种不依赖于固定基础设施的自组织无线网络,它组网方便、快捷,不受时间和空间的约束。由于在自组网中随着节点移动,网络拓扑结构会频繁变化,传统路由协议将不再
自适应随机测试(Adaptive Random Testing,ART)是一种增强的随机测试,比随机测试更有效。当前已有的ART算法在多维条件下的有效性普遍不理想,甚至比随机测试更差。此外,这些
目前,互联网已经从以传统通信服务为主转变成为支持各种新型应用的网络平台。这些新型应用都是利用对等(P2P)网络技术构建覆盖网络,从而能够保证高效快捷的网络的路由定位,提供
从当前的实际情况出发,经过对有关报业集团新闻数据管理系统的考察和分析,确立了宁夏日报报业集团新闻数据管理系统的具体要实现的功能。并阐述新闻管理系统的结构设计和功能设
本文为求解TSP问题设计了一种改进的遗传算法。在学习和研究过程中,了解到遗传算法在求解TSP问题的有效性,且影响遗传算法性能的参数主要有初始种群的质量、群体的大小、交叉概
电力系统图形编辑器是电力系统应用软件的一个重要组成部分,能够方便地绘制和显示电力系统中的各类设备元件,提供统一的图形用户界面。SVG是由W3C组织开发的一种开放标准的文
准确地提取出网页的主题内容并生成文档摘要已经成为一个非常重要而有意义的研究方向。随着万维网的飞速发展,在Internet上形成了不计其数的以HTML网页形式存在的信息源,但是
随着经济和社会的飞速发展,人们认识到环境的污染愈来愈严重,而其中水污染直接威胁到所有生物的生存。水污染已经引起了世界各国的重视。我国政府对水污染也非常重视,并将其