基于视觉特征的BBS用户发言信息抽取技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:Q529801428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究从BBS主题网页中自动抽取用户发言信息的问题。该类问题的传统解决方法主要基于对HTML网页的DOM树和标签结构的分析,密切依赖于HTML标准。这使网页规范性对抽取正确率的影响较大,而且随着编写网页的脚本语言版本演变,这种解决方法必须不断修改调整。为了改善这种情况,本文所提出的自动抽取方法独立于网页脚本语言,根据网页提供的视觉信息进行有效抽取。本文归纳了BBS主题网页内部用户发言信息的视觉特征,以此为依据指导整个抽取过程。方法是,首先建立主题网页的视觉分块树VBT,然后在该树上定位用户发言区,最后从发言区视觉块中抽取每条用户发言信息。实验结果表明,基于视觉的抽取方法可以得到较高的抽取质量。本文的研究结合了BBS数据挖掘技术和Web网面视觉特征分析技术,对BBS资源整合与BBS社会管理都颇具应用价值。
其他文献
随着Web应用的日益广泛和Web开发技术的不断发展,开发者迫切需要一种能够简化开发过程,降低开发难度,提高开发效率的框架。目前在Web开发平台中人们使用最多的是J2EE。但随着
在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴
随着我国城市经济建设和社会的快速发展,电力、石油、铁路、邮政、交通等行业对巡检管理工作的要求越来越规范化、科学化、数据化。在安全防范系统方面尤其重要,因此采用先进的
彩铃业务是个性化多彩回铃音业务(CRBT,Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该业务有
IEEE 802.11无线局域网络的使用越来越广泛,其物理层数据传输速率随着技术的发展不断提高,而信道利用率却没有成比例增长。主要原因是传统的接入控制机制(MAC)引入了太多控制
支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的模式识别方法,它是统计学习理论中的结构风险最小化思想在实际中的一种体现。SVM的基本思想是通过非线性变换将输
近年来,随着人类基因组计划的实施以及功能基因组和蛋白质组研究的开展,生物信息学成为生物学和信息科学的研究热点。生物医学文献的数量迅速地增长,没有人能够阅读完如此众多的
说话人识别技术是指通过说话人的语音自动鉴别说话人身份的技术,它是生物认证技术之一。与其他生物认证技术相比,具有数据采集简单,能实时识别,远程识别等优势,能够广泛应用
随着具有计算和组网能力设备的出现以及这些设备的小型化和嵌入化,传统的以计算机为中心的计算模式因无法克服一人多机所带来的困扰而受到严重挑战。Mark Weiser提出了以“透
随着计算机异构系统结构和高性能CPU等技术的飞速发展,以“天河二号”为代表的超级计算机的峰值计算性能已经达到54.9PFlops,正在向EFlops规模发展。CPU、内存、互连网络和外