基于主题的Web社区发现技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户：ericshen81

【摘要】

：

面对规模庞大并且每天都在飞速增长的互联网，Web挖掘技术的研究和探索变得越来越重要。Web挖掘一般分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘三个研究方向。在Web结构挖

【作者】

：

林松祥

【机构】

：

中国人民大学

【出处】

：

中国人民大学

【发表日期】

：

2007年期

【关键词】

：

Web社区发现技术数据挖掘 Kleinberg算法查询主题

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对规模庞大并且每天都在飞速增长的互联网，Web挖掘技术的研究和探索变得越来越重要。Web挖掘一般分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘三个研究方向。在Web结构挖掘领域，Web社区发现技术主要是研究如何从Web数据集中抽取出同主题的页面集合（称为Web社区）。Web社区发现具有非常重要的意义，它可以帮助用户更快更准确地找到最感兴趣的信息;可以帮助Internet/Intranet门户有效地组织目录结构;可以帮助厂商快速准确地定位客户等等。在Web社区发现领域应用较早且较广泛的技术是Kleinberg算法。在该算法基础上衍生了很多Web社区发现技术，比如HITS算法，Clever系统，Companion算法等等。同时不少新的Web社区发现技术不断地被提出来，如拖网算法，基于流的社区发现算法等等。除了计算机科学领域外，社会网络领域也对社区发现做了不少研究，如Girvan和Newman提出的基于边的betweenness值的社区发现算法等等。　　本文主要研究如何根据纯链接结构从主题数据集中发现Web社区。主题数据集指的是利用传统搜索引擎返回的某个查询主题下的根页面集通过链接关系扩充得来的基本页面集。　　Kleinberg算法利用权威页面与中枢页面的相互加强关系来发现主题数据集中的Web社区。然而Kleinberg算法在面对存在TKC(Tightly Knit Community)的主题数据集时容易发生主题漂移问题，把主题不相关的页面当成社区内的权威页面。不少研究人员提出其他算法试图绕过TKC以避免发生主题漂移，然而效果并不理想。本文对Kleinberg算法进行了深入探讨和理论分析，揭示了其面对存在TKC的数据集发生主题漂移的本质原因，在此基础上提出了一种改进算法EAA，有效地解决了由于TKC带来的主题漂移问题。　　在很多情况下主题数据集中不只存在一个Web社区，比如一个有争议的查询主题“abortion”对应的主题数据集中存在至少两个Web社区，一个关于“Pro-Choice”，另一个则关于“Pro-Life”。面对这样的主题数据集，Kleinberg算法及其改进算法、拖网算法、基于流量的算法等都不能有效地进行处理。本文在研究社会网络领域社区发现技术基础上，引入了Girvan和Newman的社区发现算法。同时本文在研究图聚类领域MCL算法的基础上，提出一种基于MCL的Web社区发现算法MWCFA。相比Girvan和Newman的算法，MWCFA算法具有更好的效果。　　本文的主要贡献概括如下:　　①对Kleinberg算法进行了深入探讨和理论分析，揭示了其面对存在TKC的主题数据集时发生主题漂移的本质原因。　　②在①的基础上对Kleinberg算法进行了改进，提出了平等授权算法EAA，成功地绕过TKC，避免主题漂移现象。　　③为了从主题数据集中发现多个Web社区，在对前人的算法进行了分析总结的基础上，引入了社会网络领域Girvan和Newman提出的社区发现算法。　　④在研究分析图聚类领域提出的MCL算法以及Web独特的超链接关系基础上，提出了一种基于MCL的Web社区发现算法MWCFA，有效地从主题数据集中发现多个Web社区。

其他文献

分布式词向量的研究及其并行化

在自然语言处理领域，常常需要从大量语料库中提取规则和训练模型，很多算法需要不断迭代逼近最优解，往往具有复杂的逻辑和计算，因此该领域的应用常常面临着一个海量数据、高计算量

学位

分布式词向量图形处理器软件开发参数优化并行化计算

混合流程型生产调度策略的应用研究

本文根据作者所参加的项目,并结合烟草行业实际生产过程研究了混合流程型企业生产调度策略及相关应用技术。文中针对实际生产调度过程中具有软约束的多目标生产调度要求和混

学位

生产调度混合流程制造执行系统滑动窗口

大视域下场景图像拼接技术研究

学位

Hadoop海量数据迁移系统开发及应用

学位

基于Object-Z的形式化面向方面建模与分析

本文提出一种基于Object-Z的形式化面向方面建模语言以及建模方法。形式化语言中的方面规范提供了观察基本模块和方面模块的行为、并描述它们相互关系的方法。而编织机制则将

学位

软件开发面向方面建模语言系统模型复用

近海及登陆台风对广东省沿海地区风雨的影响

近海及登陆台风常常侵袭广东省沿海地区,引发强降雨和强风,对沿海人民群众带来严重的灾害。但是,一直以来,针对近海及登陆台风引发的广东省沿海地区风雨的影响的研究一直十分

学位

台风广东省沿海地区降雨预报风力分析

P2P音视频通讯系统的研究与实现

基于 P2P 技术实现音视频通讯是一个具有挑战性的研究课题。同时也有很强的实用价值,它将会对未来通讯市场产生深远的影响。国内外已有比较成熟的实例,如国外的 Skype、MSN,

学位

P2P音频视频通讯

基于极限编程的软件成本估算模型研究

近年来，随着软件行业的发展，软件项目的粒度在减小，开发团队规模在缩小，开发周期的日益缩短，以极限编程(XP，eXtreme Programming)为代表的敏捷软件开发过程的应用越来越广泛，但遗憾

学位

软件开发

一种软件外包项目工作日志质量评估方法及实现

工作日志是软件外包项目监控项目进展的一个重要手段，它由工作人员填写，汇报项目进展状况和遇到的问题，汇报频度高信息量大，是项目进展月报和周报的补充。工作日志的质量一定程度

学位

软件外包项目工作日志质量评估

基于J2EE的建筑合同管理信息系统的设计与实现

管理信息系统(MIS)是一个由人、计算机和管理软件等组成的能进行信息的收集、传递、存储、加工和使用的系统。随着科技的发展,信息的日益膨胀,企业信息化成了企业在竞争中处

学位

管理信息系统合同J2EEUML

基于主题的Web社区发现技术研究

与本文相关的学术论文