基于分块的网页内容提取算法的研究

来源 :数字技术与应用 | 被引量 : 0次 | 上传用户：silas20

【摘要】

：

目前针对于网页分块的正文提取方法很多。一些学者提出，利用标签的数量来判断目标网页采用何种标签对网页进行结构布局，然后针对某一单一标签，对网页进行分块，这种方法针对与大多

【作者】

：

杨丽萍

【机构】

：

三江学院

【出处】

：

数字技术与应用

【发表日期】

：

2012年12期

【关键词】

：

网页正文提取分块网页标题网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前针对于网页分块的正文提取方法很多。一些学者提出，利用标签的数量来判断目标网页采用何种标签对网页进行结构布局，然后针对某一单一标签，对网页进行分块，这种方法针对与大多数利用标准化XHTML排版的网页是可行的，但是对于很多利用松散标准的HTML网页，其排版布局的标签分布不均，很难准确的提取正文内容；利用预先设置的搜索窗口，准确的分离正文段落和相邻的非正文段落。

其他文献

华顺阳光：会当凌绝顶一览众山小

5月8日上午，北京清华阳光总裁、河南华顺阳光新能源有限公司董事长吴振一、副总裁张国平一行来到清华阳光驻马店生产基地，考察设备安装调试、生产准备情况。华顺阳光总经理王群

期刊

阳光驻马店市生产基地安装调试生产准备董事长新能源总经理

豪康：“育豪行动”屡建奇功

有梦想就有未来，为了帮经销商实现他们的富豪梦，豪康太阳能决定开展“育豪行动”，从进取心、经营方法、资源工具三大方面，通过“激发、培育、支持”三大途径来帮助经销商实现创富

期刊

经营方法经销商太阳能

对外合作更上层楼

前不久，霍尼韦尔（中国）有限公司蒋红升一行四人参观考察家家热公司，双方就合作事宜达成意向。7月8日，霍尼韦尔（中国）有限公司太阳能业务经理蒋红升、霍尼韦尔综合科技中国有限公司高

期刊

对外合作上层业务拓展参观考察中国经理太阳能

高校加强隐性课程建设的思考

高等学校的隐性课程内容丰富，对大学生成长、成才的影响也深刻久远，在全面提高学生综合素质方面起着显性课程不可替代的作用。因此，有计划、有目的、有组织地把它纳入高等学校的

期刊

高等学校隐性课程课程建设

太阳能营销：开启“户联网”时代

沟通是销售的前提，那么，如何沟通才能算是成功、有效而且符合市场需求的沟通呢？哪种沟通模式才能真正地促使渠道畅通、抵御市场冲击呢？在笔者看来，太阳能行业中，符合市场需求的有效

期刊

太阳能行业联网营销市场需求消费者市场冲击经销商消费群

产品创新：低成本打造品牌的利器

“做企业就是做营销，做营销就是做品牌，做品牌就是做广告”，按照这样的思维逻辑，10来年间中国市场上涌现出了一大批靠广告宣传起家的“大企业”，尽管这些企业的产品基本上没有什么

期刊

产品创新品牌低成本广告宣传中国市场大企业思维逻辑知名度

高校德育工作的现状及其原因探析

当前高校德育工作状况并不令人满意，其主要原因在于应试教育的功利性与德育工作的理想化导致了德育实效的“务虚”目标，而德育内容的空泛、德育方法的单一与评价体系的滞后又使

期刊

德育现状原因改革

中小企业广告的“七大硬伤”

最近，笔者同一些中小企业家进行了交流，他们一致认为做品牌是企业未来的发展之路。关于如何做品牌，多数人认为广告多了就是品牌。做品牌也就是意味着多做广告。谈及做广告，他们十

期刊

中小企业广告品牌企业家消费者经销商

论执行机构之归属

司法改革过程中,执行机构的归属问题形成四种主要观点:设立执行局、成立执行法院、引入执行法官制度与交由行政机关负责。四种模式各有利弊,国外的立法例也各有不同。综合多

期刊

执行机构审执分立执行权归属

公共选择理论的宪政经济学——新政治经济学的元制度研究途径

宪政经济学是研究规则间选择与规则下选择的经济学，它的勃兴缘于对福利经济学和凯恩斯主义的反思以及对古典经济学和契约政治哲学的复归。从元规则模型到方法体系，宪政经济学都

期刊

宪政经济学元规则公共选择

基于分块的网页内容提取算法的研究

与本文相关的学术论文