网页分类与信息采集方法研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:nilly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页分类与信息采集系统中包含了网页爬取、网页识别和文本采集,其中传统的依靠人工进行网页识别的方式在网页信息容量快速增长的条件下是不合理的。同时,Web页面中包含的大量的噪声信息为网页文本采集增加了难度,现有的文本采集技术具有人工维护成本大、准确率不高和通用性不强的缺点。因此,网页的自动识别与文本采集研究成为一个重要的方向。它们与信息检索、搜索引擎、网络舆情和文本推荐等技术相结合,为信息的获取提供了便利。本文研究内容主要有以下几个方面:(1)根据网页分类与信息采集系统的要求,提出基于Web结构特征挖掘的网页类型自动识别方法。该方法的研究重点是特征的选取,在了解网页特征挖掘的基础上,研究了不同网页在结构上的相异的地方,抽取出能够表征网页的特征集,采用经典的分类算法(决策树)构建分类器,从而达到中文网页自动识别的目的。(2)在文本采集自动化的要求下,提出一种基于HTML标签特征挖掘的BBS网页文本提取方法,即文本块抽取。其中心思想是基于以下特点:网页文档的树型结构、多文本中心性、标签元素的层次性等等。在此基础上,提出了基于智能模板的BBS网页文本提取方法,主要思想是通过基于HTML标签特征挖掘的BBS网页文本提取方法找到所需的多文本块的公共信息,然后自动配置该网站对应的文本解析模板,最后采用该模板进行网页文本的解析。(3)搭建网页分类与信息采集系统。本文系统包含了网页抓取、网页识别、网页文本抽取和UI部分。其中网页抓取部分采用通用的抓取技术和流程,目标是对全网进行搜寻,网页识别采用本文的基于网页特征集的网页类型自动识别方法,网页文本抽取部分则是采用文本的基于智能模板的BBS网页文本提取方法。综上所述,在运用实际数据对本系统的方法进行测试后,实验结果表明了本文方法在系统中的可行性、高准确率、通用性以及智能化。
其他文献
<正>诸葛亮在《三国演义》中是个大人物,可以说没有诸葛亮便没有“三国”,也便没有《三国演义》。因为在《三国演义》里,三国鼎立是诸葛亮出山后力挽狂澜始得以形成的。诸葛
文化营销越来越被业界所重视,研究葡萄酒酒的文化营销是对当前酒类企业经营管理问题的一个探讨。时下文化营销风生水起,葡萄酒企业需要培育消费者文化、打造体验情境、开辟文
介绍了一种新型钻机底座的设计构想和结构特点。该底座可使井架按常规起升方式及与底座起升成90°的特殊起升方式安装;井架使用钻机主绞车起升,底座使用液压绞车起升;底座适
目的:体外培养大鼠前列腺上皮细胞,并观察其屏障功能。方法:体外培养大鼠前列腺上皮细胞,采用免疫组化观察腺上皮细胞之间紧密连接蛋白claudin-1的表达,光镜以及电镜观察大鼠
社交网络给我们的工作和生活带来了巨大的变化,社交媒体招聘也成为大势所趋。如何应对这一新的形势,企业又快又好地招到所需人才,是摆在每一个招聘人员面前一个严峻的课题。
党内主题活动是基层党组织在党员教育管理中,有目的、有领导、有计划地组织党员开展的一系列旨在提高党员素质、发挥党员先锋模范作用、促进各项工作目标完成等重点工作而开
成本控制是企业增加盈利的重要抓手,同时也是企业在市场竞争中谋取生存与发展的动力。本文从成本控制的内涵及重要性入手,剖析了现行成本控制体系中存在的问题,探讨了企业成
  随着人口老龄化,妇科医生将面临越来越多的盆腔器官脱垂(pelvic organ prolapse,POP)患者。女性到80岁,一生中经历尿失禁和盆腔器官脱垂手术的风险是11%。在美国住院行脱垂手
随着社会经济的发展,社会大众对房屋建筑施工质量的要求正在不断提升。施工监理工作是保障房屋建筑施工质量的重要手段。本文将结合当前阶段我国房屋建筑施工质量监理工作的