论文部分内容阅读
本文构造特定领域的Web链接拓扑图,来实现对链接关系的分析。首先利用网络爬行器从Web上搜集特定领域的网页,并对这些网页进行信息抽取和处理。然后将这些提取出来的页面的链接关系信息存放到数据库中,形成大规模的网页信息数据库。另外,本文根据网页文件中利用HTML语言的〈TABLE〉〈/TABLE〉标记分块排版的特点,提出了基于页面链接分块思想的相关链接通用提取算法。为了将相关链接的信息结构化,本文涉及到的问题有链接信息的提取、名实体识别、链接关系获取和链接信息数据库的建立等等。对于相关链接关系可视化的研究,本文单独设计了一个拓扑图生成控件。最后,本文以IT中文新闻网页作为实验对象,并开发了一个Web链接关系拓扑图生成及分析的原型系统,对上面的算法进行了测试。