Deep Web页面结构分析与核心内容提取研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:jianqing3232
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展和广泛应用,网络提供给用户的资源与日俱增。特别是传统搜索引擎无法搜索到的海量信息资源规模增长显著,称这部分资源为Deep Web。关于Deep Web的研究,是近年来Web数据管理方向的研究热点。在Deep Web数据提取方面,很多工作都是对Deep Web页面数据记录或是数据项的研究,如何深入分析Deep Web整个页面结构的研究以及如何从页面中定位数据记录所在区域还很不充分,但是这两项研究内容对Deep Web语义标注、Deep Web数据提取、Web信息检索和文本处理具有重要意义。因此,本文主要的研究工作聚焦于任意Deep Web页面内容结构的提取和Deep Web查询结果页面核心内容域的提取。主要研究及成果如下:第一:Deep Web页面的标签特征和视觉特征本文通过分析大量的Deep Web页面发现,Deep Web页面具有标签和视觉两方面的特征。从这两个方面入手,提出了一种结合标签信息和视觉信息分析页面的方法,该方法从客观和主观两方面分析了Deep Web页面的特征。采用树型的结构来表述页面的标签信息和视觉信息,分别使用Tag-Tree表示页面的标签信息,使用Visual-Attribute Tree表示页面的视觉信息。采用标签特征和视觉特征相结合的方法的准确性优于只依赖于其中一种特征的方法。第二:Deep Web页面内容结构的提取本文采用树型结构来表示页面的内容结构,将这棵树取名为Visual-Block-Tree。树中的根节点代表整个页面,树中的每个块对应着页面中的一个矩形区域,树中的叶子块表示页面中不可再分部分。本文通过噪声过滤和视觉块聚类两个阶段实现页面内容结构的提取。提出了相似性聚类算法TVS算法,实验表明该算法能很好地提取页面的内容结构。?第三:Deep Web查询结果页面核心内容域(rich-content area)的提取本文使用相似性计算算法-TVS算法计算得到同一Web数据库的查询页面和查询结果页面Visual-Block-Tree中的不同内容块,从这些内容块中提取出rich-content area,实验表明了该方法的可行性和有效性。
其他文献
近十几年里,三维(3D)模型己被越来越多地应用在工业、医疗、艺术、娱乐和虚拟现实等领域。大量来自学术界和工业界的研究者们开始意识到保护这些数字产品的知识产权和版权的
曹鹏博士新著《媒介市场创意策划实务》日前由中国广播电视出版社出版,这是国内第一本新闻传播经营管理方面的创意策划专著,全书收录了近百份曹鹏博士为全国各地新闻传媒所做
随着网络技术的迅速发展,网络被广泛的使用。随之而来的,网络也成为了攻击者进行攻击的主要平台和目标,各种攻击事件的发生逐年增加,造成的损失也愈加严重。目前网络安全技术主要
最近整理书报资料,我发现一张40多年前《人民日报》编辑部给我的通知单。通知单是用人民日报社公用信笺打印的,其中我的姓名、诗歌题目、赠品,是用圆珠笔填写的。看着这份用
文本分类是基于文本内容将待定文本划分到一个或多个预先定义的类中的方法。文本分类能较好地解决大量文档信息归类的问题并可以应用到很多情况。文本分类按样本所属类别的个
本文研究了用内径7.6cm,高344.2cm的水平挡板浮选柱来减少低硫烟煤中的灰分含量。进行了有关试验以确定挡板浮选柱随给料速度、药剂用量和给料性质的变化的浮选效果。还进行
[摘 要] 随着“大众创业、万众创新”发展战略的提出,大学生就业形势发生了深刻变化,促使大学生必须从就业转向创业。由此,就业教育必须在理念、目标、模式、队伍建设等方面做出调整,以促使当今大学生符合“双创”的相应要求,建立合理的职业选择理念,促使职业生涯持续健康发展。文章指出研究大学生双创教育的必要性,总结了目前双创教育中存在的问题,并提出相应的改善措施。  [关键词] 创新创业;就业教育;人才培养
在世纪之交,迎来了不平凡的共和国50华诞。在这50年里,我国探矿工程(岩土钻掘工程)事业随着国民经济和地质工作的迅猛发展而发展壮大,再现了我国是世界钻探技术发源地的光彩,并跨入了当
[摘 要] 应用型本科院校在“大众创业,万众创新”背景下,大力开展大学生创新创业教育是培养应用创新型人才的前提和基础。高校不断深化教育教学改革,积极探索创新创业人才培养模式,努力提高在新形势下创新创业人才与经济社会发展需要的契合度。本文从应用型本科院校创新创业教育理念、课程体系、教育教学方法、资源配置等方面分析了创新创业教育实现的路径,旨在进一步培养大学生的创新精神、强化大学生的创业意识和提升大学
期刊
Gastroenteropancreatic neuroendocrine neoplasms(GEP-NENs) frequently present with distant metastases at the time of diagnosis and the liver is the most frequent