一种基于正文特征的新闻网页抽取方法

来源 :情报杂志 | 被引量 : 0次 | 上传用户:any_ray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法。该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法具有简单、实用的特点。实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值。
其他文献
利用作者同被引(ACA)技术,选取陕、京、津、粤四省市的制浆造纸及相关行业作为典型对象,对其科技人才群体结构提取了若干定量特征,并进行了省市横向间的比较研究。这些定量特征
高校图书馆作为公共图书馆的延续和专业补充,是多功能教育和终身教育的重要场所和知识的源泉。它以自由、平等、公正的精神,体现和谐社会各阶层获取知识的权利。充分发挥图书馆
目的 观察阿托伐他汀对冠心病患者行经皮冠状动脉介入术(PCI)后血脂、炎症因子水平及临床心脏事件的影响。方法 140例接受PCI的冠心病患者随机分为A组(n=70)和B组(n=70),A组接受阿托
人生活在社会之中,工作学习在特定的群体之中,总会与他人交往,这种人与人之间的交往与联系就是人际关系。幼儿教师的人际关系是在幼儿园这个特殊社会环境中,伴随教师的工作、