基于文本块密度和标签路径覆盖率的网页正文抽取

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:txluoyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上
其他文献
目的探讨前炎性因子及CD4+T淋巴细胞凋亡在结核病免疫病理过程中的作用及临床意义。方法对45例肺结核患者采用免疫酶联吸附法检测血清中的TNF-α及IL-10水平,分离外周血单核细
数字信号与模拟信号相比有很多优点,因此信号的数字化处理应用越来越普遍。作为常用信号,幅度(AM)调制信号的数字化处理也会得到更广泛的运用。通过研究3种AM信号数字化解调的算
在高中阶段"验证机械能守恒定律"实验是学生学习较为重要的实验之一,课本上在讲述这一实验是利用重物做自由落体运动配合打点计时器来操作完成的。其特点是实验器材简单,实验
写作技能的培养是一个循序渐进的过程。强化写作的训练方法来提高学生的书面表达能力会导致学生对英语写作失去兴趣,视写作为畏途等。因此,笔者在写作教学实践中,采用“问题情境
定义一个可以衡量城市精明增长成功率的综合指标——精明增长指数,应对城市蔓延的发展策略。通过层次分析法(AHP)建立结构模型,将精明增长成功率定义分级,进而构建评价体系。以中
“文化新闻”改为“娱乐新闻”、“文化记者”改为“娱乐记者”、“文化”版改为“娱乐”版,是近些年新闻界的一股浪潮,其势之猛,已经使这一趋向变成一种潜在的定论,似乎“文
草原生态系统是陆地生态系统类型之一。鼠类是草原生态系统组成的成员。是草原生态系统中不可缺少的成分之一。从草原生态观点来看,鼠类在生态系统中的作用是多方面的,其作用之
在中国通信历史上,1878年是值得纪念的一年:与古老的邮驿通信相区别的近代邮政,以北京和沿海口岸城市五个邮局的创办,以及中国第一套邮票的发行而宣告产生。自此,近代邮政在
门静脉癌栓(Portal Vein Tumor Thrombosis,PVTT)是肝癌的生物特征之一.根据尸检、影像学及肝癌病理学检查,20%~70%的HCC合并有PVTT.门静脉癌栓的出现是肝癌中晚期病程表现,是决
吴地的落花诗集群是其审美经验的外化,而这种审美经验往往受制于其情感结构和审美习俗。自魏晋开始的经济重心的南移,从创作群体、创作的经济基础、创作的社会环境上培养了吴地