基于邻接特征的网页主题传播算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:lqlq2323
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文围绕邻接特征的选择、表示和使用进行相关研究,提出了基于邻接特征的网页主题传播算法。该算法基于网页超链接构建的有向图模型,针对网页的主题局部性特点,实现了邻接网页的主题传播,并最终得到各网页的主题概率分布。本文的主要工作如下:1)利用网络爬虫对互联网数据进行采集,经网页正文提取、网页去重、超链接分析等数据预处理后,构建基于网页超链接的有向图;2)利用潜在狄利克雷分布计算超链接有向图中网页节点的初始主题概率分布。所得主题概率分布作为网页节点的特征表示,一方面可以起到降维作用;另一方面可以用来衡量网页间的语义相似度;3)针对邻接特征的表示和引入问题,本文提出了虚拟节点和虚拟链接的概念。虚拟节点由目标页面的双亲页面转化而来,并包含所有指向目标网页超链接的扩展锚文本信息。虚拟链接可以将目标网页的其他邻接特征以人为链接的形式引入到模型当中。通过虚拟节点和虚拟连接,本文实现了网页邻接特征的有效表示和引入;4)针对网页主题局部性特点,本文提出了基于邻接特征的网页主题传播算法,该算法基于网页超链接构建的有向图模型,实现了邻接网页的主题传播,并最终生成各网页的主题概率分布。实验表明,在困惑度指标下,相较于网页的初始主题概率分布,基于邻接特征的网页主题传播算法对于网页主题概率分布的计算有明显提升。
其他文献
近年来,随着个人计算机性能的大幅度提高,人机界面越来越向着人性化、自然化、智能化方向发展。笔式用户界面(Pen-based User Interface,PUI)作为Post WIMP(Window+Icon+Menu+P
随着我国经济的发展,信息技术得到广泛应用,网络与信息系统的作用进一步增强,成为国家的关键基础设施。与此同时,信息安全问题日益增加、日渐突出。作为网络分布式计算环境中
作为分布环境中网络异构问题的解决方案,中间件备受关注。中间件开发中一个重要的问题就是网络通讯服务的设计与开发——任何一种中间件都必须依赖通讯服务来完成其自身各部
本文对基于离散元法的精密排种器分析设计软件开发进行了研究。文章在对国内外该方面的研究现状及存在问题进行分析的基础上,提出了由CAD模型建立其离散元法分析模型的方法,并