基于网页分块的正文信息提取方法

来源 :计算机应用 | 被引量 : 51次 | 上传用户:JK0803fengwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。
其他文献
针对Oracle Application Express(APEX)最新版本(V3.2)在Oracle10g数据库企业版上不支持以嵌入式PL/SQL网关(EPG)的模式进行安装配置的问题,提出了修正XML数据库(XDB)匿名访问的方法。通过在XDB的配置文件xdbconfig.xml中添加元素allow-repository-anonymous-access并设置为真解决XDB匿名访问的方法,成功
《羊皮卷》一书由[美]奥格·曼狄诺汇编,此卷由《最伟大的力量》《思考的人》《向你挑战》等11本书汇编而成,在此重点介绍《思考的人》和《向你挑战》。 The book “Sheepsk
目的观察阿昔洛韦片荆治疗水痘的疗效。方法治疗组40例在对照组治疗基础上,除病毒唑外,采用阿昔洛韦口服片剂;对照组30例,采用病毒唑治疗,板兰根针剂外涂于疱疹处,1次/h及休息,对症治
目的:观察雌激素受体β(ER-β)在成年小鼠脑内的性别差异。方法:成年C57小鼠用硫酸镍铵增强显色的免疫组织化学SP法。结果:ER-β在脑内有广泛的分布,ER-B免疫阳性产物主要表达于细
在水库建设过程中,水库管理的重要性不言而喻,是客观呈现水库多样化功能与整体效益的重要保障,必须多角度优化利用水库除险加固模式,确保水库安全、稳定运行。因此,本文作者
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
创新创业能力已经成为大学生的必备能力之一,培养优秀的创新创业人才是顺应社会发展的必然选择。但是,目前由于很多应用型高校存在对创新创业教育重视程度不足,以及创新创业
用荧光染色和免疫印迹方法观察睾酮发挥神经保护作用中是否有抗神经元凋亡机制的参与。方法:大鼠原代培养10d海马神经元,按实验分为对照组、H202处理组、预先加入睾酮后再暴露
以氮化硅(Si3N4)和氧化铝(Al2O3)为起始原料,利用原位反应结合技术制备Si3N4多孔陶瓷.研究烧结温度和保温时间对Si3N4多孔陶瓷的微观结构、力学性能以及介电性能的影响.结果表明:烧结
污水处理工程为例,以SBR工艺、氧化沟、潜流式人工湿地为评价对象,通过三工艺设计数据的比较,利用ANP模型下的BOCR模式,计算了三种工艺的最终排序。通过计算发现,在不同准则