一种基于正文特征的新闻网页抽取方法

来源 :情报杂志 | 被引量 : 0次 | 上传用户：any_ray

【摘要】

：

在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法。该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正

【作者】

：

孔胜王宇

【机构】

：

大连理工大学管理学院

【出处】

：

情报杂志

【发表日期】

：

2010年8期

【关键词】

：

正文特征网页抽取 DOM模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法。该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法具有简单、实用的特点。实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值。

其他文献

基于同被引技术的科技人才群体结构特征的比较研究

利用作者同被引（ACA）技术,选取陕、京、津、粤四省市的制浆造纸及相关行业作为典型对象,对其科技人才群体结构提取了若干定量特征,并进行了省市横向间的比较研究。这些定量特征

期刊

引文分析作者同被引多元统计分析科技人才群体结构特征提取制浆与造纸

对信息时代高校图书馆的社会化服务的思考

高校图书馆作为公共图书馆的延续和专业补充，是多功能教育和终身教育的重要场所和知识的源泉。它以自由、平等、公正的精神，体现和谐社会各阶层获取知识的权利。充分发挥图书馆

期刊

高校图书馆社会化图书馆服务

阿托伐他汀对冠心病患者介入治疗后的影响

目的观察阿托伐他汀对冠心病患者行经皮冠状动脉介入术（PCI）后血脂、炎症因子水平及临床心脏事件的影响。方法 140例接受PCI的冠心病患者随机分为A组（n=70）和B组（n=70），A组接受阿托

期刊

阿托伐他汀经皮冠状动脉介入术冠心病atrovastatin percutaneous coronary intervention coronary hea

论幼儿教师人际关系的协调

人生活在社会之中,工作学习在特定的群体之中,总会与他人交往,这种人与人之间的交往与联系就是人际关系。幼儿教师的人际关系是在幼儿园这个特殊社会环境中,伴随教师的工作、

期刊

幼儿教师人际关系协调

一种基于正文特征的新闻网页抽取方法

与本文相关的学术论文