模糊聚类在搜索引擎自动分类上的应用

来源 :苏州大学 | 被引量 : 0次 | 上传用户:bb1206
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web上的信息资源呈爆炸式的增长,人们查找信息越来越难。搜索引擎是其信息利用的主要工具,然而当前搜索引擎存在不足:基于关键字匹配的搜索引擎排序网页时仅仅考虑评价网页的重要性,而忽视分类;基于分类目录的搜索引擎很难动态分析Web信息。本文在分析它们不足的前期下,提出建立具有自动分类功能的搜索引擎,并尝试对这方面的部分关键技术进行研究。文中首先从分析搜索引擎的种类和工作原理入手,分析当前搜索引擎存在的问题。然后分析了Web文档模糊聚类和Web超链分析技术,在此研究的基础上,进一步从下面三个方面对网页的自动分类技术做了深入研究:1)模糊聚类方法应用于Web网页的自动分类,通过计算网页与网页之间的相似度建立分类类别,动态确定网页分类划分。2)提出通过提取源网页的扩展锚文本,进行目标网页特征识别,具体分析了不同位置的锚文本扩展,以及利用XPath提取网页特征的方法,并通过实验分析其性能。3)利用模糊聚类方法结合超链分析算法对搜索引擎的检索结果自动分类,设置调节值,值的取值变化兼顾考虑分类和PR值的影响,返回的结果可以使用户比较快速地定位到所需要的高质量信息。
其他文献
随着社会和经济的发展,城市交通问题越来越突出,严重制约了城市现代化进程。为使我国交通事业有更广阔的发展空间,我国大力提倡建设地铁,缓解交通拥挤的状况,确保人们的安全。  
通信系统的全面数字化工作已经迫在眉睫,而国内三大专网通信体制之一(对讲机系统、数字集群通信系统和无中心系统)的无中心系统却仍然没有一套合适的全数字化协议。本文在无中心
随着软件在信息社会中发挥日益重要的作用,软件的正确性、可靠性、安全性等可信性质越来越多的受到关注。如何在软件的开发和运行过程中保证软件具有高可信性质,这成为软件理
随着近年来服务计算和面向服务的架构(SOA)的迅速发展以及Web服务技术的成熟与完善,服务组合作为服务计算和SOA领域的核心问题已经越来越受到重视。WS-BPEL作为描述Web服务组
互联网从诞生至今,各种新的应用层出不穷,其中多媒体数据在网络中的传输也是越来越多。为了最大程度防止拥塞,人们提出了很多拥塞控制方案。TCP拥塞控制协议是目前互联网中最
随着计算机技术和通讯技术的迅速发展以及Internet的不断扩展,嵌入式系统得到了越来越广泛的应用。由于嵌入式系统的复杂性的不断增加,嵌入式操作系统已经成为嵌入式系统中最重
学位
随着Internet和信息技术的飞速发展,日益严重的“信息过载”和“信息迷向”问题助推了个性化推荐系统的蓬勃发展。现有的个性化推荐技术在一定程度上缓解了人们寻找自己喜好
近年来,随着移动业务竞争的加剧,用户对运营商的依赖性降低,用户的在网时长不断缩短,忠诚度也不断降低。如何增加用户忠诚度,延长用户的在网时长,同时寻找新的业务增长点,是各运营商
图像配准是计算机视觉和模式识别领域中的一项重要课题,在遥感探测、医学成像和基于多传感器融合的目标识别等领域中都有着广泛的应用价值。气象云图非刚性配准是校正其非刚