基于形式概念分析的Web搜索结果聚类方法的研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:hz9466894
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web搜索引擎是Intemet信息检索的主要工具,用户通过输入查询词来获取Web搜索结果,在Internet资源中检索得到自己所需的信息。然而,Internet上与用户查询词相关的信息十分丰富,搜索引擎返回的搜索结果数量通常比较庞大,用户要从数量庞大的Web搜索结果中获取自己需要的信息,常常显得很困难。改善搜索引擎检索质量的一种有效途径是应用聚类技术将Web搜索结果中相似的Web文档聚集成为类簇集,即Web搜索结果聚类。对Web搜索结果进行聚类,可以为用户提供易于浏览的Web搜索结果主题导航,帮助用户快速定位符合自己查询需要的主题类别,从而提高用户使用搜索引擎的检索效率。本文以形式概念分析理论为基础,应用概念格对Web搜索结果聚类方法进行研究,提出了一种基于形式概念分析的Web搜索结果聚类方法ClusterFCA。ClusterFCA聚类方法采用自顶向下逐层构建部分概念格的算法来构建Web搜索结果聚类层次,而不是构建概念格的全部层次来实现Web搜索结果聚类。这样不仅可以发挥形势概念分析用于聚类Web搜索结果的优势,还降低了形式概念分析聚类Web搜索结果的时间耗费,避免了概念格层次过于复杂对聚类结果可浏览性造成较大影响。为了测试ClusterFCA方法的聚类效果,本文采用C++程序设计语言,将ClusterFCA方法进行了实验。通过类标签的可读性、类内容的相关性、类内容覆盖率和类重叠度等指标,来综合评价Web搜索结果聚类算法的质量。实验结果表明,应用ClusterFCA方法,截取概念格的第一层、第二层得到的Web搜索结果聚类层次可以获得较好的聚类效果。然而,对于不同用户提交的同一个查询词,应用一般的web搜索结果聚类技术,具有不同兴趣的用户得到的聚类结果是相同的,而用户的分类喜好根据用户兴趣的不同通常具有个体差异。一般的Web搜索结果聚类方法仅仅针对Web搜索结果网页内容进行分析处理,并未结合用户兴趣对Web搜索结果实现个性化的聚类。本文在ClusterFCA方法的基础上,结合web搜索结果网页内容分析和用户个人兴趣分析,提出了一种基于形式概念分析的个性化Web搜索结果聚类方法PCFCA。它动态地对Web搜索结果进行个性化聚类,为具有不同兴趣的用户提供个性化的概念聚类层次。实验结果表明,应用PCFCA方法,截取概念格的第二层、第三层得到的w_eb搜索结果聚类层次可以获得良好的个性化聚类效果,但在类内容覆盖率方面有所欠缺。
其他文献
汽车驾驶模拟器是一种能正确模拟汽车驾驶动作,并能在主要性能上获得与实车驾驶相同感觉的仿真设备。使用驾驶模拟器进行驾驶训练不仅可以有效缓解目前我国汽车驾驶培训系统面
随着我军信息化建设的不断完善、军事通信技术的快速发展,使得建立一个集团军范围内通信部队的管理系统成为必然,因为集团军是部队作战的细分单位,是连接首长机关和基层的关
随着电信级以太网的出现,以太网现已成为一种城域网标准,被电信运营商广泛地用来提供接入业务,导致电信网变得越来越复杂。针对新的城域电信级以太网业务,开发相应的网管系统
在当今信息社会,生物特征识别已经成为一项重要的研究课题,广泛应用于各类的身份验证和鉴别应用当中。由于具备良好的生物特征特性,掌纹成为一种可用于公共安全和民用领域的
网络蠕虫是一种自动化攻击程序,它通过扫描和攻击网络上存在系统漏洞的节点主机,实现大范围的传播。网络蠕虫已经成为严重威胁网络安全的公害,发展高效实用的网络蠕虫检测技术成
随着信息化、网络化、智能化的发展,嵌入式技术得到了极大的发展,linux操作系统以其稳定性好,可靠性高,源代码公开,可剪裁,版权免费等优点,已成为嵌入式领域的一股新兴力量,
近年来无线传感器网络(Wireless Sensor Network,WSN)技术不断发展,其应用范围也不断扩大,作为WSN的承载体的无线传感器网络节点的能量消耗问题是影响节点寿命和网络性能的关
随着信息时代的来临,作为重要基础设施的Internet上的信息量呈爆炸式增长,而Internet的尽力而为服务模式已经不能适应分布式多媒体等应用对网络的性能和服务质量提出的更高要
Internet已经成为人们获取资源和信息交流的主要场所。然而,在信息量浩如烟海的Internet上寻找所需的信息,仍然是一项极富挑战性的工作。随着传统搜索引擎的发展,一方面其实用性
随着信息技术在各个领域的普及,各种应用每天产生的数据量呈指数级增长。如何有效处理这些数据,从中提取有用的知识,是迫切需要解决的问题。数据挖掘是为了满足人们对数据中所蕴