特定领域Web链接关系拓扑图的生成研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：xtcwang

【摘要】

：

本文构造特定领域的Web链接拓扑图，来实现对链接关系的分析。首先利用网络爬行器从Web上搜集特定领域的网页，并对这些网页进行信息抽取和处理。然后将这些提取出来的页面的

【作者】

：

郭健

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2005年期

【关键词】

：

信息抽取 HTML标记超链接链接分析链接拓扑图特定领域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文构造特定领域的Web链接拓扑图，来实现对链接关系的分析。首先利用网络爬行器从Web上搜集特定领域的网页，并对这些网页进行信息抽取和处理。然后将这些提取出来的页面的链接关系信息存放到数据库中，形成大规模的网页信息数据库。另外，本文根据网页文件中利用HTML语言的〈TABLE〉〈/TABLE〉标记分块排版的特点，提出了基于页面链接分块思想的相关链接通用提取算法。为了将相关链接的信息结构化，本文涉及到的问题有链接信息的提取、名实体识别、链接关系获取和链接信息数据库的建立等等。对于相关链接关系可视化的研究，本文单独设计了一个拓扑图生成控件。最后，本文以IT中文新闻网页作为实验对象，并开发了一个Web链接关系拓扑图生成及分析的原型系统，对上面的算法进行了测试。

其他文献

H.264视频编码算法研究及在DSP上的实现

本文对H.264标准进行了深入研究,分析了其使用的关键技术,包括帧内预测,可变大小的图像分块,1/4和1/8像素精度的运动估计,残差图像的4×4整数变换编码,熵编码(CAVLC和CABAC)

学位

视频编码视频压缩标准运动估计帧间编码图像压缩数字信号处理

基于潜在语义分析的蛋白质家族分类技术的研究

本文主要研究了以下两方面的内容:在向量化蛋白质序列过程中所使用的生物学单词,以及用来解决单词多义性问题的潜在语义分析技术.为了克服其他方法中向量化蛋白质时计算代价

学位

蛋白质家族语义分析同源性检测分类技术生物学单词蛋白质序列支持向量机

计算机网络信息发现技术研究

本文的主要研究内容是如何设计和实现一个功能强大，高效的网络信息发现平台。首先，本文介绍了网络信息发现的技术现状及面临的挑战，并介绍了几个优秀的网络信息发现工具

学位

网络安全性评估漏洞扫描规则匹配网络信息发现

基于入侵容忍技术的PKI研究

本文对入侵容忍技术与PKI技术相结合方面进行有益探索。提出了一种具有更高安全性的入侵容忍CA认证中心的设计方案和基于入侵容忍的CA认证中心的签名方案，最后对其安全性进

学位

公钥基础设施入侵容忍椭圆曲线密码体制网络安全

基于可靠性及最优成本的设备维修模型及系统实现

本文从可靠性分析、基于可靠性约束下最小维修成本的模型研究、考虑维修间隔期对组成设备的元件和可靠性结构可用性影响的分析着手，对设备可靠性指标、设备维修间隔期、设

学位

维修间隔期遗传算法设备维修模型最小维修成本设备可靠性

直觉模糊软集及蕴涵算子的研究

模糊集是研究和处理模糊性现象的数学工具，在众多领域得到了广泛的应用、取得了丰硕的成果。直觉模糊集是对经典的Zadeh模糊集理论的拓展，在经典模糊集理论的基础上增加了非隶

学位

直觉模糊集直觉模糊蕴涵直觉模糊软集直觉模糊蕴涵算子

Web搜索引擎的开发设计与多格式信息搜索的实现

因特网自从诞生发展到现在,网络信息资源在不断地快速增长,资源的形式也变得多种多样。要从浩如烟海的网络资源中寻找到需要的信息,搜索引擎是必不可少的工具,搜索引擎也越来

学位

Web搜索引擎图片搜索RSS搜索

基于关注区域的图像细匹配检索方法研究

本文首先对两种缩小图像的低级特征和高级语义之间差距的技术进行了全面的介绍，特别是详细研究分析了基于区域的图像检索技术。在此基础上，针对基于区域的方法所存在的

学位

图像检索感兴趣区域层次检索多分辨率检索关注区域图像细匹配检索

虚拟样机协同设计平台的专家系统研究与实现

专家系统技术自60年代出现以后在国际上引起了广泛的关注。它作为—种实用工具,为人类保存、使用、传播和评价知识提供了—条有效的途径。自60年代中期美国的Feigenbaum领导

学位

专家系统知识表示知识库公式计算公式推理

基于B-Method的XML语义分析与描述

随着XML技术的迅速发展和广泛应用,XML技术本身暴露出越来越多的问题:大多数XML规范还处于工作草案阶段;规范之间存在严重的依赖关系;新旧规范之间的兼容性等等。这些问题严

学位

B-MethodXMLXML SchemaXPathXSLT

特定领域Web链接关系拓扑图的生成研究

与本文相关的学术论文