基于文本密度模型的Web正文抽取

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:dingxiaoyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
其他文献
中国共产党在延安 1 3年的历史 ,已越来越受到史学工作者的重视。因为 ,这 1 3年是日益走向成熟的中国共产党在延安独立地开辟一个新的历史时代——“延安时代”的重要历史时
以野生软枣猕猴桃为原料,对野生软枣猕猴桃果汁饮料的加工工艺进行研究。探讨了软枣猕猴桃汁添加量、白砂糖添加量、柠檬酸添加量、CMC添加量等因素对野生软枣猕猴桃果汁饮料
期刊
在分析图书馆信息推送的基础上,探讨屏幕保护程序在图书馆信息推送服务中的应用,并详细分析基于屏幕保护程序的图书馆信息推送系统的工作原理,结合Delphi和ASP.Net等技术论述
陈望道的美学思想表现出强烈的实践品格,在中国近现代美学思想发展史上具有独特而重要的地位。在陈望道一生的理论探索中,"大众"占据着特别突出的位置。他一直坚守马克思主义
美国国防部是当前全球最大的单一石油消费机构,其军事用油需求具有非常强的刚性。美国军事用油短期内受军事活动影响显著,长期呈稳定增长态势。随着武器装备水平的不断提升,
本文以研发投资为切入点,选取2008~2012年684个样本为研究对象,实证检验了融资约束对信息技术产业研发投资的影响,并进一步研究了不同产权和制度环境下两者关系的差异。文章
<正>供给侧改革,就是从提高供给质量出发,用深化改革和创新引领二者双轮驱动的思想推进结构调整,矫正要素配置不合理,扩大有效供给,提高供给结构对需求变化的时效性、适应性