基于统计的自动化Web新闻正文抽取

来源 :计算机应用与软件 | 被引量 : 19次 | 上传用户：fenderchu

【摘要】

：

目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文。方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求。

【作者】

：

林子熠沈备军

【机构】

：

上海交通大学软件学院

【出处】

：

计算机应用与软件

【发表日期】

：

2010年12期

【关键词】

：

WEB新闻正文抽取自动化标签检测 Web news Text extraction Automatic tag detection

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

白酒消费税新规即将执行

近日，国家税务总局发出了《关于加强白酒消费税征收管理的通知》，要求生产企业给销售单位的白酒，若消费税计税价格低于销售单位对外售价70％的，税务机关应核定最低计税价格。新规自

期刊

消费税白酒国家税务总局生产企业税务机关征收管理单位销售

一种基于RSA／IDEA加密License文件的软件保护方案

总结常见软件保护方案及破解方法 ,提出一种采用RSA/IDEA双重加密机制的基于License文件的软件保护方案 ;结合常见的反跟踪技术讨论了软件保护和本方案的安全性。

期刊

软件保护文件RSAIDEA反跟踪技术加密破解方法常见安全性Software ProtectionEncryptAnti-trackRSA/ID

山西省质监局：开办质量立省专题培训班

2009年12月7日至12月25日，山西省质监局在太原举办了全省质监系统质量立省专题培训班，全省质监系统处级干部和业务骨干300余人参加了培训。此次培训为全面推进质量立省进程，大力

期刊

培训班质监局山西省质量专题业务素质系统

基于背景模型的显著性目标检测算法

基于人类视觉注意机制的特点提出了一种快速有效的检测显著性算法。首先对图像进行了超像素分割预处理,根据图像背景的分布特点建立图像初始背景模型,然后,分析背景模型的统计性特征,剔除背景中的显著性特征,更新背景模型。接着,通过计算颜色对比度计算得到显著性特征。最后,在公开的图像数据库中测试本文的检测算法,实验结果表明本文提出的算法具有很好的检测效果。

期刊

显著性特征背景模型测算法图像背景图像数据库注意机制人类视觉像素分割

浅析SHF10-13-WⅡ型锅炉节能改造技术

SHL6-13-WⅡ型锅炉改造为SHF10-13,提高效率的同时解决了燃烧劣质无烟煤和矸石的难题。既有利于节能降耗,又有利于环境保护,有一定的推广价值。

期刊

锅炉节能改造

《儿童家具通用技术条件》强制性国家标准通过审定

近日，《儿童家具通用技术条件》强制性国家标准审定会在深圳市召开。此次会议由全国家具标准化技术委员会主办、深圳市检测院承办。

期刊

强制性国家标准通用技术条件儿童家具审定标准化技术委员会深圳市主办

一种简单快速的多媒体视频序列中运动对象分割方法

为了提高视频分割的实时性和效果,针对低比特率多媒体应用的视频序列,提出了一种简单快速的运动对象分割方法。首先利用对称差分得到差分图像,然后再求出当前帧的梯度图像,二者相与得到连续的运动对象边界;再对其进行形态学处理及二次扫描,得到运动对象掩模;最后用原图像的灰度值填充该区域。实验证明,使用该方法得到了较好的分割效果并缩短了处理时间。

期刊

对称差分梯度图像运动区域运动对象掩模Symmetrical DFD Gradient image Moving regions Moving objec

早动员早部署狠抓落实—国家质检总局督察组督察山西省产品质量和食品安全工作

10月14日至16日，国家质检总局党组成员、国家认监委主任孙大伟一行到山西省督察产品质量和食品安全专项整治工作。孙大伟听取了山西省质量技术监督局和山西省检验检疫局的汇报

期刊

食品安全工作国家质检总局产品质量山西省部署安全专项整治工作质量技术监督局国家认监委

浙江省域出口商品明年起直通放行

12月4日，浙江省域出口商品通关单直通放行协议（以下简称“协议”）在杭州签署。国家质检总局副局长魏传忠、浙江省副省长龚正及宁波检验检疫局、浙江检验检疫局、宁波海关、杭州

期刊

出口商品浙江省直通省域检验检疫局国家质检总局协议副省长

针对中文检索的Lucene改进策略

为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。

期刊

LUCENE索引中文分词文档预处理Lucene Index Chinese word segmentation Documents pretreatme

基于统计的自动化Web新闻正文抽取

与本文相关的学术论文