【摘 要】
:
本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下:第一,全面回顾了信息采集技术的研究历史,系统深入地分析了通用信
论文部分内容阅读
本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下:第一,全面回顾了信息采集技术的研究历史,系统深入地分析了通用信息采集技术和已有定题信息采集技术各自存在的优缺点,以及就主题爬行涉及到的一些关键技术展开了谈论。通过学习和研究Web页面分布特性,得出一些可以用于主题爬行过程的规律。第二,本文涉及的主题相关度判别部分,主要是借助于通用搜索引擎工具进行主题拓展、提取领域信息,动态地构建主题权重表。在得出主题权重表后,结合网页文本以及链接的元数据信息,提出了一种有效的主题爬虫相关度判别算法,来预测相似站点内页面和链接的主题相关度。以内容和链接组合而成的主题特征向量作为度量来发现站点内的主题资源,是本文较为核心的部分,同时为后续的建模过程做好铺垫。第三,本文研究的重点是如何将隐马尔科夫模型(HMM)应用于定题信息采集领域。通过介绍HMM模型的理论知识和主要的算法,结合Web站点的主题层次结构以及主题特征向量,在对现有主题爬虫的缺陷和不足进行分析的基础上,提出了一套基于HMM模型的定题信息采集技术解决方案,同时对实现此方案过程中涉及到的相关问题进行了重点研究。第四,本文在提出理论创新的同时,合理的整合一些开源技术,实现了一个主题爬行原型系统。在真实的Web环境下,针对多个不同主题的实验结果进行分析,表明利用HMM模型基于训练数据集的自动构造识别能力,使得我们的主题爬行策略可以明显地改善传统主题爬虫的一些缺点,提高主题相关度的预判精度,有效地避免主题漂移现象,在一定程度上缓解了tunneling问题,极大地节省了用户进行主题资源整合的时间,从而高质量地满足面向特定主题需求的用户群。通过理论分析和原型实验表明,基于HMM模型的主题信息采集研究不仅具有重要的理论价值,而且还具有广阔的应用前景。
其他文献
本文的主要工作是研究在PMC模型下大型多机系统和计算机网络系统的故障诊断算法问题。文中提出了三种新的故障诊断算法。概率性矩阵诊断算法是一个完全基于矩阵与概率计算的
随着社会的发展,人们希望能够互动、随心所欲地选择自己喜欢的媒体资源的意愿逐渐增强,视频点播技术应运而生。但由于涉及的技术和产品众多,交互式视频服务仍然是一个比较复
基于构件的软件开发提出复用软件构件,通过可复用构件来设计与构造软件系统。这种开发方式不仅可以提高软件质量和生产率,还可以降低软件开发和维护的成本。然而随着软件构件
自抗扰控制器(ADRC)由PID思想发展而来,同时又突破了PID技术的局限性。ADRC通过对模型不确定因素和外扰进行跟踪并给予实时补偿,使得控制系统对外扰和不确定因素均有较好的适应能力,从而能够有效地控制多种工业上较为难以控制的对象,同时表现出极强的鲁棒性和抗干扰性。但是自抗扰控制器因追求卓越的控制品质而滋生了众多参数,却又难以调节,从而限制了自抗扰控制器的工程应用。目前优化整定自抗扰控制器的众多
内存数据库(MMDB)是近年来发展较为迅速的一种数据技术。由于目前互联网技术以及大数据的发展,对于数据的响应速率提出了越来越高的要求,传统的磁盘数据库已经无法满足一些新
当今社会已进入信息爆炸时代,如何通过搜索引擎精准获取有用的信息是摆在面前的一个重要课题。虽然用户采用通用搜索引擎可以检索出自己关心的内容,但也包含了许多无关信息,主题
移动VOIP(Voice Over IP)在无线局域网中的切换和AP(Access Point)间负载的不平衡是无线局域网研究中常见的问题,移动VOIP的通信服务质量与这两个问题与密切相关。移动VOIP在
目前复杂网络上的数据挖掘大多结合子图挖掘的算法进行分析。为了适应复杂网络数据量大、结构复杂等特点,使用具有随机性质的多目标遗传算法进行子图挖掘是一个比较理想的策
近年来,随着计算机信息技术、数字技术和多媒体技术的高速发展,数字电视的发展取得了令人鼓舞的成果。同时随着DVB-T移动数字电视标准的确立,为移动数字电视的发展提供了有利
车牌识别(License Plate Recognition,LPR)技术作为交通管理自动化的重要手段和车辆检测系统的一个重要环节,在交通监视和控制中占有很重要的地位。小波分析是一个时间和频率