基于增量更新的交互式网页内容提取技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xtyygydskf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络舆情管理、互联网智能信息处理中,人们急需获取论坛中帖子内容,为进一步研究话题情感分析以及论坛话题传播服务。面对着海量的论坛信息,快速提取论坛中帖子内容可以及时的获取网民民意,便于掌握网络舆情发展方向。然而由于网络上帖子布局组织的复杂性以及用户发表帖子的自由性,从论坛网页中高效抽取结构化的数据是一项非常困难的任务。本文在对国内外交互式网页内容提取技术以及网页更新和调度的基础上,针对交互式网页独有的特征,提取了一种新的基于增量更新的交互式网页内容提取方法。本文的主要工作如下:首先,本文提出了一种新的基于模板的交互式网页内容提取技术,克服了交互式网页结构和内容的变化,有效地提取交互式网页内容。该方法将交互式网页生成DOM树,根据由DOM树层次构成的模板对DOM树进行匹配,在遇到不匹配的情况下采用重复匹配和模糊匹配的方法,最终抽取出网页内容。本方法能够有效适应同一交互式网页内部不同帖子页结构和内容的变化,并准确提取主帖回帖内容,而且本方法可以用于绝大部分论坛网页内容的提取,具有很好的效率以及通用性。其次,本文针对交互式网页的爬取和预处理的效率不高的问题,根据交互式网页的相关特征,提出了一种增量爬取交互式网页以及增量提取交互式网页内容的方法。本方法不但可以及时准确的提取出变化网页的内容,而且节省了爬虫和预处理的时间,提高了效率。本文然后还提出了网页惩罚奖励策略来划分各大论坛各版块的优先级,根据变化网页的更新频率可以动态调整各大论坛各版块的爬取时间,进一步提高了交互式网页内容提取整体的效率。最后本文针对这两个创新点进行了实验,通过实验结果的的对比分析验证了方案的可行性和有效性。
其他文献
作为网络应用服务中最关键的设备,服务器的安全、高效运行显得至关重要,目前,服务器管理方式主要有人工管理、监控软件管理、KVM管理、专有工具管理等,以上几种方式均存在着
随着网络的发展和信息化进程的加快和深入,越来越多的电子商务网站的出现成为一种新的趋势,而且随着这样的网站的规模越来越大,网站的数据量也越来越多,致使用户要在这些数据中找
近年来,随着传感器技术、通信技术、嵌入式和分布式计算技术的快速发展和日益成熟,无线传感器网络开始在世界范围内出现。传统的数据库管理系统适合处理有限存储数据集的一次
基于NAND Flash芯片的固态盘具有非易失、随机读性能好、抗抖动且能耗低的优点。但是NAND Flash需要擦后写,并导致高延迟的垃圾回收过程,这一过程中芯片不能响应读写请求,导
当前,中国高速铁路的建设正处于快速发展时期。CTCS-3级列控系统是中国列车运行控制系统(Chinese Train Control System,简称CTCS)的重要组成部分,基于GSM-R无线通信实现车-地信
近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语
本文以建立在统计理论基础上的Bayse分类算法在短信过滤中的应用策略为依据,把投诉平台中针对不良短信的投诉信息作为研究对象,对它们进行智能化的分析与研究,用类别明确的投
随着信息技术的发展,企业的数据资源呈爆炸式的增长,传统的企业竞争情报系统在数据分析处理中的不足日渐突出。数据挖掘技术的兴起为竞争情报系统的发展提供了新的动力。模糊聚
TCP/IP网络的成熟性、可扩展性和廉价性使得存储系统和TCP/IP网络的融合成为对中小型存储系统最有吸引力的方案之一。iSCSI(internet Small Computer System Interface)是由I
随着互联网与信息化技术的迅速发展,社会网络已逐渐引起人们的高度注意。通过对社会网络的研究,人们可以理解社会现象,预测人类行为,为社会结构的分析提供了极大地便利。但随