主题型网页的信息抽取技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:lainfaye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络技术的发展,万维网作为一种新兴的信息媒介已经越来越多的渗入到社会的经济、文化、教育以及娱乐等各个领域,并作为其中的重要组成部分,改变着我们的工作和生活。主题型网页作为万维网中最主要的网页类型之一,主要包括了新闻网页、论坛(BBS)、博客三种类型的网页,其中的论坛和博客网页,由于它们包含了丰富的社会舆论信息和各个领域的知识,如同一个巨大的信息库,而受到了人们广泛的关注。因此,研究针对主题型网页的信息抽取技术将有助于人们更充分的利用这个信息库,无论是对社会学的研究、或是对网络舆情收集还是进行数据挖掘、知识发现都具有重要的贡献意义。   本文在主题型网页信息提取方面做了以下研究:   (1)本文提出了一种估算网页图片信息量和图片有效信息量的方法,并以此为基础提出了一个基于图文信息量的网页正文定位算法。通过对网页中最小正文子树的定位,以达到去除网页中的噪音的目的,并且通过实验验证了该算法具有较好的去除网页噪音的效果。   (2)针对以往网页中评论发现方法中的不足,提出了一种新的基于后缀树的网页评论算法,该算法综合考虑了网页标签的视觉信息与HTMLDOM树的层次信息,在不需要进行网页人工标注、比较HTMLDOM子树的相似度和人为设置阈值的情况下,也能够对网页中的评论信息进行自动抽取。经过试验验证,该方法能够达到一个较好的准确率和查全率。
其他文献
噪声去除是图像恢复的主要内容之一,其主要任务是消除观测到图像中的噪声成分,从而得到理想的清晰图像。加性噪声的变分模型研究已经取得很大进展,而对于乘性噪声图像恢复问
生物信息学是计算技术在管理和分析生物信息数据上的应用。在生物信息学中,序列比对是一种计算排列DNA、RNA和蛋白质序列的方法,此方法用来划分序列间可能与功能、结构或进化关
聚类在模式识别中被称为无监督分类,在统计学中被称为非参数估计。其目的是在无先验知识的情况下,根据数据对象之间的相似性来完成数据分类,从而加深对数据的理解,或者作为一
组播是面向组接收者的高效信息分发方式,其应用随着网络的发展而日趋广泛,应用层组播(ALM)因其易于部署而迅速替代IP组播成为目前网络组播的热点。应用层组播通过组播数据在
在所有的林业灾害中,森林火灾对社会环境、自然环境、经济发展的破坏性最大影响范围也最广。森林火灾发生地点是随机的,在很短的时间内会造成巨大的损害,因此是森林最大的敌
手势是一个自然、直观的交互工具,在需求高的人机交互中有着重要的作用,它不仅是一个交流信息的通道,更是一个示范学习的载体。通过手势,人们可以和机器人自然的沟通,使得机
图像分割是图像分析中的一项基础性工作,其目的是将图像划分为若干个同质的子区域,以提取出感兴趣的目标。图像分割是大多数的图像分析和图像理解工作的前提条件。图像分割方
人工萤火虫群优化算法源于对自然界萤火虫群群体觅食或吸引伴侣行为的模拟,是一种新型群体智能优化算法。与目前出现的群智能算法相比,人工萤火虫群优化算法在计算速度和消耗内
随着互联网技术的发展和普及,人们的生活越来越离不开网络。但网络生活在给人们带来便利的同时,也带来了安全方面的一些威胁,比如网游帐号被盗、QQ号码被盗、甚至网银帐号被盗,而
近年来,随着低功耗、高速率无线通信协议的提出,利用低成本、低功耗及易集成的CMOS工艺实现射频集成电路已成为当前研究的热点。低噪声放大器(LNA)作为射频前端的重要功能单