基于模式匹配的网页净化方法

来源 :重庆师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户：peper127

【摘要】

：

新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长

【作者】

：

曾蒸马燕

【机构】

：

重庆师范大学传媒学院/新媒体学院,重庆师范大学计算机与信息科学学院,

【出处】

：

重庆师范大学学报(自然科学版)

【发表日期】

：

2015年06期

【关键词】

：

网页净化方法模式匹配网页噪音网页净化主题内容信息提取训练数据集新闻网页文字描述

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。 The news web page is mainly composed of a large number of text descriptions. The main content of the news web page contains a large number of coherent texts compared to the noise content of other areas of the web page. According to this feature, this paper proposes a webpage purification method based on pattern matching, that is, matching the longest text string in the source code of the webpage so as to accurately locate the source code of the subject content in the source code of the webpage, and to purify the webpage. This method can remove the noise content from web pages of different websites without generating template in advance by training datasets, and does not need to generate a web page DOM tree. For isomorphism, heterogeneity and non-XML Web pages purification, the experiment proved effective and stable performance.

其他文献

编辑手语

在春节过后的第一个编辑例会上,众人带着假期放松(纵)后的倦意先聊了一阵谁都干了些什么后,话题就集中到本期稿件的编排上。 After the Spring Festival, at the first reg

期刊

从零开始瞬间速度张图外文资料数据表示科技发展四轮

博安汽四维修技术剪报征稿启事

《博安汽车维修技术剪报》杂志由哈尔滨博安汽车新技术咨询有限公司主办,是国内唯一一份汽车电控维修技术性刊物,每月25日出版。本刊以推动国内汽车维修行业技术进步为办刊

期刊

维修技术汽车电子技术汽车维修行业汽车电控安全气囊疑难故障维修经验自动变速器燃油喷射抱死

找错有奖(98年第七期)

(5)征驱动器列表事什中输入如下代码:Private Sub DriveList Change()On ElTor Qfro Erm以heckDi山s【.Path=DriveList.DriveExit SubErrorCheck:MsgBox”您选择的驱动器无法

期刊

七期文件列表

随动伺服电控节电液压系统

在多执行机构的电控液压系统中,常常采用并联液控系统。并联液控系统中的34D型电磁阀不宜采用具有H、M、K,X等型的泄荷机能,否则,各执行机构须同时工作方能在液压系统中建立

期刊

液压系统驱动执行机构电磁阀随动液控泄荷主油路电控液压阀流回油箱

如何通过性格去找工作

找工作是一门学问,如果对你的性格作个自我分析,看看怎样的方式可以帮你事半功倍,兴许能为你的事业加分,让你再上一层楼。将每一题的分数相加起来,再比对最后的结果。现在就

期刊

自我分析一层楼你怎么知道闲来无事演讲与口才不合意工作类型运用技巧善缘临门一脚

不良情绪危害孩子健康

日常生活中,孩子在精神上受到外界的各种刺激,引起不良情绪是屡见不鲜的。如父母吵架、离婚或犯错误、犯罪被处理,使孩子感到伤心、自惭、孤独、失望,甚至产生弃家出走的念

期刊

正面教育自罪十二指肠溃疡病精神疾患消化液分泌凝血时间支气管哮喘性格内向惩罚手段呼吸急促

计算机快速校核插装阀阀体安装块孔系的通断

插装式液压控制阀在高压、大流量的液压系统中得到了广泛的应用。但是,插装式液压阀阀体的安装块上包含有元件通油孔、流道孔、工艺孔和螺钉孔等,数量众多,孔与孔之间的关系

期刊

插装阀阀体孔系液压系统通断液压控制阀液压阀孔分布油孔工艺孔

纸包装饮品占香港市场四成

根据香港有限公司透露,由于消费者追求方便以及喜欢户外活动,造成纸包装保鲜饮品日益流行,促使纸包装保鲜饮品市场增长极为迅速,在过去10年间的销售量上升达400倍,目前在香

期刊

纸包装四成保鲜包装太平洋群岛

面试时,鞋子很重要

在欧洲,许多跨国公司和集团向社会招聘员工时都委托知名的顾问公司或招聘办公室代理。在企业老板们看来,这种招聘方式虽然昂贵些,但具有专业性、权威性和公正性,属于可信赖的

期刊

招聘方式参考建议招聘者社会招聘市场游戏规则第一印象一封信颜色搭配电话沟通个人优势

专业便携理光GX100

理光GX100是理光公司生产的一款经典的专业级便携数码相机,朴实的机身造型,继承了GX和GRD的设计,机身厚度只有25mm,携带方便;1001万有效像素,CCD防抖,支持RAW格式拍摄,特别是

期刊

理光GX100超广角曝光补偿防抖机身厚度有效像素自动模式感光元件专业级

基于模式匹配的网页净化方法

与本文相关的学术论文