基于网页分块的正文信息提取方法

来源 :计算机应用 | 被引量 : 51次 | 上传用户：JK0803fengwei

【摘要】

：

网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。

【作者】

：

黄玲陈龙

【机构】

：

重庆邮电大学计算机科学与技术研究所

【出处】

：

计算机应用

【发表日期】

：

2008年S2期

【关键词】

：

WEB信息抽取主题内容块网页正文信息 Web information extractioninformative content blockmain tex

【基金项目】

：

重庆市自然科学基金资助项目(2007BB2454)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

Oracle 10g数据库企业版上安装配置APEX的方法

针对Oracle Application Express(APEX)最新版本(V3.2)在Oracle10g数据库企业版上不支持以嵌入式PL/SQL网关(EPG)的模式进行安装配置的问题,提出了修正XML数据库(XDB)匿名访问的方法。通过在XDB的配置文件xdbconfig.xml中添加元素allow-repository-anonymous-access并设置为真解决XDB匿名访问的方法,成功

期刊

APEXORACLE10g数据库嵌入式PL/SQL网关Oracle Application Express （APEX） Oracle 10g dat

读书,与和谐生活同行——荐《羊皮卷》

《羊皮卷》一书由[美]奥格·曼狄诺汇编,此卷由《最伟大的力量》《思考的人》《向你挑战》等11本书汇编而成,在此重点介绍《思考的人》和《向你挑战》。 The book “Sheepsk

期刊

《羊皮卷》外界环境

阿昔洛韦片剂治疗水痘40例疗效观察

目的观察阿昔洛韦片荆治疗水痘的疗效。方法治疗组40例在对照组治疗基础上，除病毒唑外，采用阿昔洛韦口服片剂；对照组30例，采用病毒唑治疗，板兰根针剂外涂于疱疹处，1次／h及休息，对症治

期刊

水痘阿昔洛韦

雌激素受体β在成年C57小鼠脑内的表达与性别差异

目的：观察雌激素受体β（ER-β）在成年小鼠脑内的性别差异。方法：成年C57小鼠用硫酸镍铵增强显色的免疫组织化学SP法。结果：ER-β在脑内有广泛的分布，ER-B免疫阳性产物主要表达于细

期刊

雌激素受体Β脑性别差异免疫组织化学小鼠estrogen receptor β brain sex difference imrnunohistoche

水库管理及水库除险加固模式分析

在水库建设过程中,水库管理的重要性不言而喻,是客观呈现水库多样化功能与整体效益的重要保障,必须多角度优化利用水库除险加固模式,确保水库安全、稳定运行。因此,本文作者

期刊

水库管理除险加固模式分析

复发性流产与染色体核型异常的关系及其干预措施分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

复发性流产染色体核型分布相关关系干预措施

基于创新创业教育理念的应用型高校师资队伍建设

创新创业能力已经成为大学生的必备能力之一,培养优秀的创新创业人才是顺应社会发展的必然选择。但是,目前由于很多应用型高校存在对创新创业教育重视程度不足,以及创新创业

期刊

应用型本科院校创新创业师资队伍建设

睾酮在自由基损伤的海马神经元保护作用中的机制

用荧光染色和免疫印迹方法观察睾酮发挥神经保护作用中是否有抗神经元凋亡机制的参与。方法：大鼠原代培养10d海马神经元，按实验分为对照组、H202处理组、预先加入睾酮后再暴露

期刊

海马神经元凋亡BAXBCL-2Hoechst33258睾酮自由基hippocampus neuron apoptosis Bax Bcl-2

原位反应结合多孔Si3N4陶瓷的制备及其介电性能

以氮化硅（Si3N4）和氧化铝（Al2O3）为起始原料，利用原位反应结合技术制备Si3N4多孔陶瓷．研究烧结温度和保温时间对Si3N4多孔陶瓷的微观结构、力学性能以及介电性能的影响．结果表明：烧结

期刊

Si3N4多孔陶瓷介电性能反应结合气孔率

小城镇污水处理工程技术评价

污水处理工程为例,以SBR工艺、氧化沟、潜流式人工湿地为评价对象,通过三工艺设计数据的比较,利用ANP模型下的BOCR模式,计算了三种工艺的最终排序。通过计算发现,在不同准则

期刊

污水处理工程人工湿地SBR工艺氧化沟

基于网页分块的正文信息提取方法

与本文相关的学术论文