基于DOM的网页信息抽取方法

来源 :硅谷 | 被引量 : 0次 | 上传用户:thomas962
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,网页已成为人们获取信息的重要途径。网页中包含着文本,图片,视频,音乐等。不同的人所感兴趣的网页信息不同,那些人们不感兴趣的信息分散在他们感兴趣信息的周围,分散他们对自己感兴趣的信息的注意力,给他们阅读网页带来不便。提出一种基于DOM的网页信息抽取方法,过滤掉人们不感兴趣的网页信息,只保留人们感兴趣的信息。本文的方法不是机械地查找我们感兴趣的信息,而是尽可能的删除不是我们感兴趣的信息。首先使用Eclipse开发工具,利用开源的HTML解析程序NekoHtml将网页解析成DOM树。然后设计抽取算法,使用java语言编程,采用抽取算法,删除我们不感兴趣的网页信息,只保留我们感兴趣的网页信息。
其他文献
<正> 建国以来,我国建筑卫生陶瓷工业有一定的进展,但随着国民经济的发展和人民物质生活水平的提高,需用的釉面砖卫生瓷愈来愈多,但目前这类产品价格比较高,其原因之一就是与
通过比较3种不同的前处理方法,建立了超高压液相色谱-串联质谱法(UPLC-MS/MS)测定乳及乳制品中氯霉素的质量分数,以氯霉素-D5为同位素内标定量。测定氯霉素质量分数的方法。
信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按
目的研究血细胞去除术联合羟基脲片、重组人干扰素α2b等药物治疗真性红细胞增多症的临床疗效。方法 100例真性红细胞增多症患者,分成观察组和对照组。对照组给予药物治疗真
目的 :了解我国抗高血压药物的不良反应 (ADR)发生情况 ,尤其是一些特殊ADR的情况。方法 :我们收集了国内 4 0a文献源抗高血压药物的ADR资料 ,并加以分析研究。对于个人呈报
在互联网技术日新月异的环境中,大数据时代随之来临。在大数据背景下,公众收集数据的形式与方法都已经有了很大改变,这也使得公众在处理数据过程中的思维方式也有了明显变化
通过对某河道截潜流工程区水文及水文地质特征的分析,结合渗管取水的适用条件,提出渗管取水方案,针对不同工程措施对渗管涌水量进行计算,对下游取水工程进行取水影响分析。最
研究复盐沉淀法脱除湿法磷酸中镁、铝、氟离子,介绍复盐沉淀法的基本原理、特点。该法可供磷酸浓缩前的净化,饲料磷酸氢钙和三聚磷酸钠生产过程中湿法磷酸的净化等生产流程中选
中药作为中华民族的瑰宝传承至今,从中寻找和发掘新药已成为新药研发重要手段。上海医药工业研究院曾对槲寄生治疗冠心病心绞痛进行深入研究,开发了槲寄生注射液新药,于1979