Web News Extraction via Tag Path Feature Fusion Using DS Theory

来源 :计算机科学技术学报(英文版) | 被引量 : 0次 | 上传用户:jianghui123789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these reasons, how to design features with excellent extraction performances for massive and heterogeneous web news pages is a challenging issue. Our extensive case studies indicate that there is potential relevancy between web content layouts and their tag paths. Inspired by the observation, we design a series of tag path extraction features to extract web news. Because each feature has its own strength, we fuse all those features with the DS (Dempster-Shafer) evidence theory, and then design a content extraction method CEDS. Experimental results on both CleanEval datasets and web news pages selected randomly from well-known websites show that the F1-score with CEDS is 8.08%and 3.08%higher than existing popular content extraction methods CETR and CEPR-TPR respectively.
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
腰椎间盘突出症诊断方法很多:传统的普通X线由于组织分辨力低、诊断不准确;磁共振成像(MRI)检查费用较高,患者不易接受;椎管造影属于创伤性检查且操作较复杂;CT扫描图像清晰
目的 :探讨腰椎平片椎间隙后方软组织影 (腰椎间盘后缘轮廓征 )的解剖学基础和临床意义 ;方法 :10 0例感绿X线腰椎平片与CT或MR图像对照分析并测量平片椎间隙后方弧形软组织
期刊
近日,10 台 崭 新 徐 工XS263JS压路机整齐摆放在河津用户黄总的停车场内,鞭炮声响起,黄总兴致勃勃地站在停车场内在徐工道路机械营销顾问的陪同下检验这批即将为他源源不断
期刊
近年来,鲟鱼养殖热不断升温,目前,这一品种的养殖已成为我国淡水养殖中的一个“热点”。为使鲟鱼生产者尤其是准备从事鲟鱼生产者在决策前对鲟鱼养殖的现状、市场前景有一个充分
多幅相机是CT机必备的附属设备。它把图像电信号通过监示器转变为光信号 ,再通过光学透镜传送到胶片上进行曝光 ,以达保存和方便医生诊断之目的。MulispotM9相机为SIEMENS公司生产 ,配置于SOMATOMCR型CT机
罗氏沼虾是我国引进品种中比较成功的种类之一,2000年的总产已达10万吨以上,位居世界第一。该虾自1976年引进大陆地区养殖以来产量一路缓慢上升,并在90年代初期进入发展的高峰期,单产和总产逐
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊