WebSite个性化聚类算法的研究与实现

来源 :清华大学 | 被引量 : 0次 | 上传用户:TSSSSSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文作者的主要工作如下:(1)通过引入渐进学习和分布式计算的机制,设计了PG<+>和PG<++>两种优化的PageGather算法,明显降低了输入数据量和算法复杂度,使得PageGather算法在电信级网站的运行成为可能.(2)提出了"最小相关浏览过程数约束",作为对[8]中的PageGather算法描述的补充,使之更加合理;(3)证明了PG<+>和PG<++>与静态PageGather算法的等效性,保证了原静态算法的海量训练集不会被破坏.(4)发现了(新闻)网页访头号时间局部性原理并对其进行了数学描述,为今后对(新闻)网站个性化、网站服务器(机群)体系结构优化等多方面研究课题的进一步深入提供了有力的依据.
其他文献
信息提取就是从大量的数据中检索出有用的信息。但一般的Web信息提取技术都是基于对Web上HTML文档的分析,本文提出了一种针对XML的信息提取技术。XML(eXtensible Markup Langua
电动汽车节能环保,而传统燃油汽车既消耗大量不可再生能源,又带来严重的环境污染,电动汽车取代传统汽车是大势所趋。电动汽车驱动控制技术是电动汽车关键技术之一。本文介绍了电
该文在了解GIS的一些基本概念的基础上,详细分析了目前比较流行的两种矢量地图数据文件—ESRI ShapeFile的数据文件和MapInfo的数据交换文件格式,进而提出了统一处理这两种矢
中国手语的构成是以手势语为主,适当配合手指语,包括30个手指字母,大约5500个基本手势词.手指语是从字母语言发展起来的,用一个指式代表一个汉语拼音字母,按照汉语拼音方案拼
一个完整的网络分析软件的体系结构必须由以下几个部分组成:稳定、高效的分组捕捉机制,强大、健全的分组过滤机制,清晰、全面的分组解释、解码机制和友好的用户界面.该文将讨
该文从因特网及数据库理论的发展和现状着手,首先简要介绍了系统的总体结构、功能及特点,并介绍了陕西省软科学网的设计、实现、功能以及所采用的技术;然后对系统开发过程中
随着计算机网络技术的应用和普及,利用网络快速安全的传递、分发和回收公文,并逐步实现无纸化办公已成为一种不可阻挡的趋势。设计一种基于工作流的网络办公软件已成为各单位的
该文主要研究基于图像颜色特征的检索.提出了一种基于代表色块的特征的图像检索方法.我们在HSL色彩空间提取出能够良好再现原图像主色调的n种颜色(称为代表色),再计算出表征
该文论述了针对方正eBook阅读器ApabiReader的应用背景,基于组件对象模型的插件体系结构的设计和实现技术,并提出了相应的设计模式.该论文充分研究了Windows系统平台上的组件
随着模型驱动技术在软件开发中的广泛应用,以UML为代表的大量可视化建模语言不断涌现,但它们中的大部分目前还没有严格的形式语义,所建立的模型存在很多潜在不一致性等问题,