基于正文特征及网页结构的主题网页信息抽取

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：lllllllllllllvvvvvvv

【摘要】

：

Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题

【作者】

：

段晓丽王宇谷静刘玮楠

【机构】

：

大连理工大学管理科学与工程学院,中国环境管理干部学院经济学系

【出处】

：

计算机工程与应用

【发表日期】

：

2012年30期

【关键词】

：

正文特征标签信息正文抽取 body featuretag informationcontent extraction

【基金项目】

：

国家自然科学基金重大项目（No.70890080）子课题（70890083）,教育部人文社科研究项目（No.09YJA870005）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。

其他文献

“老娘舅”式农村社会调解人才队伍建设及其功能研究

自改革开放以来,随着城镇化建设步伐加快和多元化矛盾纠纷化解机制逐步完善,农村社会调解工作在解决民间纠纷,整合社会资源,聚力稳定社会秩序,建设和谐基层中发挥的作用日益

学位

农村社会调解人才队伍功能浙江省舟山市老娘舅

系统理论的工业设计应用研究(二)——以陶瓷与不锈钢材质产品设计为例

产品具有实用、美学和象征价值,论述了产品设计通过一定的形式向使用者传递功能语意、传达情感语意、传播象征意义。符号的能指和所指共同作用于人的思维中,用于沟通情感、传

期刊

符号系统产品语意形式陶瓷产品不锈钢产品

上肢机器人虚拟现实训练治疗亚急性期脑卒中患者运动及认知功能障碍的随机对照临床试验

1目的通过设计并实施一项上肢机器人虚拟现实(Virtual Reality,VR)训练治疗亚急性期脑卒中患者运动及认知功能障碍的随机对照试验(Randomized Controlled Trial,RCT),为其适

学位

上肢机器人虚拟现实脑卒中运动功能障碍认知功能障碍临床研究

巴伽活佛与阿须草原的格萨尔故事

这里传说是英雄格萨尔的故乡巴伽活佛是四川省甘孜藏族自治州德格县阿须乡岔岔寺的寺主之一,也是著名的格萨尔庙的负责人,在佛学上有很好的造诣,在信教群众中威望很高。巴伽

期刊

自适应Bloch球面的量子遗传算法

在基于量子位Bloch坐标的量子遗传算法的基础上，提出一种自适应Bloch球面的量子遗传算法。该算法按两种方式自适应地选取Bloch球面的一部分进行搜索：沿经线方向选取和沿纬线方

期刊

量子计算量子遗传算法Bloch球面坐标优化问题quantum computation quantum genetic algorithm Bloch c

“唐卡”艺术样式缘起

踞今约五六千年前的新石器时代,青藏高原地区就已产生了早期原始的具有巫傩意味的绘画艺术样式,结合今天的考古发现,无论是西藏昌都卡若遗址、拉萨曲贡遗址或是布达拉宫等地

期刊

平凡一生奉献一生——记重庆市西山坪劳教所优秀共产党员江国良

1984年,江国良从部队转业到重庆市西山坪劳教所,成为劳教民警队伍中的一名新兵.

期刊

重庆西山坪劳教所江国良中国奉献精神

一类非线性机电换能器混沌系统的最优控制

针对一类自激非线性机电换能器混池系统,首先,采用分F 图、L y a p u n o v指数谱图与复杂度分析了系统的混沌基本动力学行为;其次,基于的最优控制理论,找出了系统的H J B 微

期刊

机电换能器混沌LYAPUNOV指数最优控制

NBJ抑制的QC-LDPC协同混沌DSSS方案

为改善低信噪比窄带干扰条件下的信息传输性能，在现阶段宽带数据链的基础上，提出了一种结合QC-LDPC和混沌DSSS的协同窄带干扰抑制方案。该方案在提出单位阵取反变换的直积构造

期刊

准循环低密度奇偶校验码(QC-LDPC)直接序列扩频(DSSS)MOORE-PENROSE逆改进型Logistic映射通用数据链Quasi-Cycli

浓缩生长因子注射改善眶周皱纹的临床观察

目的评价浓缩生长因子(concentrated growth factor,CGF)注射改善眶周皱纹的效果。方法自2016年1~9月抽取全血,用medifuge系统制备获得自体CGF后立即注射到患者眶周皱纹的真

期刊

浓缩生长因子眶周皱纹面部年轻化注射美容

基于正文特征及网页结构的主题网页信息抽取

与本文相关的学术论文