基于分块的网页正文信息提取算法研究

来源 :计算机应用 | 被引量 : 104次 | 上传用户:lw_hualei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
其他文献
《中国医院知识仓库》(简称CHKD)的引进,标志着我院图书馆开始进入数字化时代,真正实现了信息资源存储数字化、传输网络化、资源共享化,为医院管理、医疗、科研、教学等提供
期刊
对123个不同水稻品种分别在纯水、100 mmol/L NaCl和150 mmol/L NaCl水溶液中的萌发情况进行试验,来研究盐对幼苗鲜重含水量和干重含水量的影响规律,以及不同品种鲜重含水量
[目的/意义]旨在为制定有效引导和监管用户参与公共突发事件的策略提供参考。[方法/过程]在文献研究的基础上,提出微信群用户参与公共突发事件话题讨论的动机主要有:信息动机
<正> 中间包冶金自80年代中期开始开发以来,发展迅速,取得了许多研究成果和综合经济效益。本文主要综述其研究现状及今后的技术课题。 1 改进中间包结构设计使钢水流动最佳化
[目的/意义]在h指数基础上提出新的学术影响力评价指标。[方法/过程]在综合考虑被引频次、半衰期、年度出版文献总数等因素的基础上,通过提高学者指标核论文的覆盖率,同时纳
在小学教学过程中,体育科目的教学是非常重要的一项工作,体育教学如果能够很好地开展,那么学生的体质就能够得到增强。但是,目前的小学体育教学效果并不是很好,学生的运动能
《中共中央国务院关于促进农民增加收入若干政策的意见》即中央1号文件的出台,真有一种似曾相识、如沐春风的感觉。这是时隔18年,中央再次以农业和农村问题为内容下发“1号文件
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分
探讨义县汉族人群的指纹特征,为皮纹学研究提供参考。方法:在知情同意情况下按捺523名(男220例,女303例)义县汉族人的掌指纹,分析指纹类型、计数指纹嵴线数。结果:义县汉族人群箕形
目的:研究人类头面部形态特征随年龄增长而变化的规律。方法:采用随机取样方法调查了屯堡人507例(男251例,女256例)38项头面部指标,并计算了12项头面部体质指数,对屯堡人头面部形态