【摘 要】
:
Web是一个复杂超文本所组成的巨大信息源,而且以很快的速度在不断的扩大,Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息,社区可以为用户提供有价值的
论文部分内容阅读
Web是一个复杂超文本所组成的巨大信息源,而且以很快的速度在不断的扩大,Web在发展过程中存在着大量的社区,这些社区是Web组织中非常重要的信息,社区可以为用户提供有价值的、可靠的、及时的信息,社区反映了Web中普遍存在的、复杂的聚团关系和层次关系。如何利用和发现Web中的社区,是Web挖掘的一个研究方向。本文在分析了Web社区的定义、社区的发展、Web数据挖掘的概念与分类、链接分析技术等基础理论的基础上,对Web社区结构挖掘的典型算法:基于重要度分析的PageRank算法、基于有向二分图的Trawling算法、基于主题提取的HITS算法进行了详细的分析和比较。重点研究了传统最大流算法和基于HITS算法的边容量分配最大流算法的实现过程及在社区挖掘中存在的问题。传统最大流算法虽然能较好的解决主题漂移问题,但对社区的质量和数量也会带来许多不利的影响。而基于HITS算法的边容量分配最大流算法因为采用两个结点的中心值和权威值的简单加和平均作为边容量,从而有可能增加噪音页面被提取到社区。为解决上述算法中存在的问题,本文提出了基于传递概率的边容量分配最大流改进算法,该算法将节点连接度和节点相关度这两个不同角度的属性特征量化地融合到连边的传递概率中,根据传递概率分配边的容量,传递概率的计算综合考虑了节点之间的多种因素,对原算法进行了优化。本文最后设计了一个Web社区结构挖掘系统,该系统利用本文提出的改进算法进行Web社区挖掘,经过大量的实验证明,该系统能较好的解决传统算法在社区挖掘中存在的一些问题,进一步提高了Web社区挖掘的准确性。
其他文献
随着铁路的几次大提速,客运列车的优先对编组站运营系统造成了不小的影响,其中最主要的就是导致了货车到达的不均衡,容易产生密集到达的时间段。为此我们需要采取一些新的调
上世纪90年代以来,无线传感器网络(Wireless Sensor Network,WSN)作为新兴领域不断发展,并随着电子器件的集成化,无线传感器的性能也有了很大的提高。总体来说,传感器节点能
计算机辅助诊断(Computer-Aided Diagnosis,CAD)系统为肺癌的早期检测和诊断提供了有力的支持。利用数字图像处理、模式识别等技术,检测病变特征,可帮助医生勾出可疑对象,提
虚拟专用网(VPN)是建立在公用网络(通常是因特网)上的一些临时的、安全的连接,是穿过混乱的公用网络的安全、稳定的隧道。通常,VPN是对企业内部网的扩展,通过它可以帮助远程
智能监管平台面对用户日益复杂的异构网络环境和系统,克服了对网络、系统、业务应用、机房等的分割管理,实现了对IT软硬件的集中、统一、全面的监控和管理,并融入了ITIL(Info
随着高等学校招生规模的不断扩大和信息技术的不断发展,各高校都建立了自己的教务管理信息系统,这些系统很大程度上提高了教学和管理的水平,同时也积累了大量的教学和管理数据。
现场总线在现代工业控制领域有着广泛的应用,作为一种全数字化的现场通信网络,现场总线具有可控性强、可靠性高、开放性好等优点。然而,在工业控制现场,不同时期和不同的环境
随着Internet的普及,电子邮件以其方便、快捷、低成本的特点成为现代社会主要通讯工具之一和互联网上最重要、最普及的应用之一。与此同时,垃圾邮件也越来越泛滥,大量占用了
多投影大屏幕系统是使用多台投影仪协同工作构建高分辨率、大可视范围的展示设备。多投影系统构建技术主要解决由于投影仪姿态、投影幕形状等造成的显示效果和目的效果不一致
脑-机接口提供了一种全新的通信方式,它能够实现人脑与外部环境的直接通信,可以帮助残障人员重新与外界交流,也能为某些领域提供特殊的控制方法并为探索人脑奥秘提供全新途径