面向Web新闻与博客的内容提取方法

来源 :智能计算机与应用 | 被引量 : 0次 | 上传用户:ASINLU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web深刻地改变了社会生活,新闻和博客网站作为其中代表性的消息来源,为人们提供了方便的信息获取方式。在Web分析的实际业务中,广告、文章推荐等无关信息的存在,给新闻和博客网页中主要内容的提取带来了负面影响。本文提出了一种区别于抽取模板的新闻和博客内容提取方法CEVC,通过定义有效字符,对网页内容文件的DOM树进行递归计算,确定最具代表性的子节点作为主要内容节点。实验选取了中文与英文网页作为数据集,定义了提取新闻和博客内容的性能指标。对比实验的结果表明,CEVC在Web内容提取方面的性能优于现有方法。
其他文献
商业银行流动性风险监管一直是银行监管的重中之重。在相关部门的大力监管下,商业银行防范化解金融风险攻坚战取得了显著的成绩,流动性风险监管与银行业态发展更加契合,同业
类风湿性关节炎(rheumatoid arthritis, RA)是一种以关节滑膜炎为特征的慢性自身免疫性疾病,致残率高,巨噬细胞在RA的起病进展中起着关键作用。活化的巨噬细胞高度表达转运蛋
近代资本主义在物质主义价值观的主导下形成了对物质增长的迷恋情怀。工业化生产和无度消费带来的生态破坏表面看来是自然界的危机,实质上是人类基于物质主义和工具理性基础
农业供给侧改革是当前我国经济新常态背景下繁荣发展农业经济,实施乡村振兴战略的重要内容。青海的农牧业供给侧改革经过近年不断的探索和实践,取得了一系列新的进展。但与此
2017年10月18日,我国首次提出了发展要高质量,说明经济增速由之前的高速增长向低速平稳转变,这就要我国走供给侧之路。本论文是以中站区为例,从工业方面着手,分析中站工业急
在页岩气发展过程中,法律确认不可或缺。我国页岩气法律制度的构建具有政策、法律优势,同时也是经济发展与环境保护的必然路径。在构建页岩气法律制度过程中,我国需要重塑环
利用原油成熟度参数及地球化学特征,对淀南地区沙河街组三段中亚段油源进行对比,分析烃源岩特征参数,并分析荧光薄片及三维定量荧光测井成果。结果表明:与沙河街组一段、二段
Modeling of wastewater transport and degradation in soil aquifer is a problem of concern with regard to the optimization of design and operation of the wastewat
摘 要:神经机器翻译模型的学习往往依赖于大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出了无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文从模型主要机制、训练过程出发来分析无监督神经机器翻译,并介绍无监督神经机器翻译现阶段的发展以及存在的挑战。  关键词:无监督
在油藏描述中,大数据分析与多信息随机动态综合优化模拟及智能计算的结合,是油气田开发可持续发展战略中一项亟待解决的重要课题,有着极其深远的研究意义与十分广阔的应用前