特定领域Web链接关系拓扑图的生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xtcwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文构造特定领域的Web链接拓扑图,来实现对链接关系的分析。首先利用网络爬行器从Web上搜集特定领域的网页,并对这些网页进行信息抽取和处理。然后将这些提取出来的页面的链接关系信息存放到数据库中,形成大规模的网页信息数据库。另外,本文根据网页文件中利用HTML语言的〈TABLE〉〈/TABLE〉标记分块排版的特点,提出了基于页面链接分块思想的相关链接通用提取算法。为了将相关链接的信息结构化,本文涉及到的问题有链接信息的提取、名实体识别、链接关系获取和链接信息数据库的建立等等。对于相关链接关系可视化的研究,本文单独设计了一个拓扑图生成控件。最后,本文以IT中文新闻网页作为实验对象,并开发了一个Web链接关系拓扑图生成及分析的原型系统,对上面的算法进行了测试。
其他文献
本文对H.264标准进行了深入研究,分析了其使用的关键技术,包括帧内预测,可变大小的图像分块,1/4和1/8像素精度的运动估计,残差图像的4×4整数变换编码,熵编码(CAVLC和CABAC)
本文主要研究了以下两方面的内容:在向量化蛋白质序列过程中所使用的生物学单词,以及用来解决单词多义性问题的潜在语义分析技术.为了克服其他方法中向量化蛋白质时计算代价
本文的主要研究内容是如何设计和实现一个功能强大,高效的网络信息发现平台。首先,本文介绍了网络信息发现的技术现状及面临的挑战,并介绍了几个优秀的网络信息发现工具
本文对入侵容忍技术与PKI技术相结合方面进行有益探索。提出了一种具有更高安全性的入侵容忍CA认证中心的设计方案和基于入侵容忍的CA认证中心的签名方案,最后对其安全性进
本文从可靠性分析、基于可靠性约束下最小维修成本的模型研究、考虑维修间隔期对组成设备的元件和可靠性结构可用性影响的分析着手,对设备可靠性指标、设备维修间隔期、设
模糊集是研究和处理模糊性现象的数学工具,在众多领域得到了广泛的应用、取得了丰硕的成果。直觉模糊集是对经典的Zadeh模糊集理论的拓展,在经典模糊集理论的基础上增加了非隶
因特网自从诞生发展到现在,网络信息资源在不断地快速增长,资源的形式也变得多种多样。要从浩如烟海的网络资源中寻找到需要的信息,搜索引擎是必不可少的工具,搜索引擎也越来
本文首先对两种缩小图像的低级特征和高级语义之间差距的技术进行了全面的介绍,特别是详细研究分析了基于区域的图像检索技术。在此基础上,针对基于区域的方法所存在的
专家系统技术自60年代出现以后在国际上引起了广泛的关注。它作为—种实用工具,为人类保存、使用、传播和评价知识提供了—条有效的途径。自60年代中期美国的Feigenbaum领导
随着XML技术的迅速发展和广泛应用,XML技术本身暴露出越来越多的问题:大多数XML规范还处于工作草案阶段;规范之间存在严重的依赖关系;新旧规范之间的兼容性等等。这些问题严