基于HTMLParser的Web信息抽取系统的设计与实现

来源 :辽宁石油化工大学学报 | 被引量 : 0次 | 上传用户:FACYFACYFACY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。
其他文献
河南安阳县某羊场由于长途运输,饲养管理不善,导致羊群突然发生了一种急性、热性传染病,根据羊群发病症状、尸体剖检和病料涂片染色镜检情况,确认为因应激而发生的1起羊链球
初生乳猪因为体温调节能力欠佳,所以在乳猪出生后可进行热水浴,促使乳猪的血液循环加快,增加活力,起到消毒作用,可预防疾病,提高成活率。母猪产仔时,按正常程序接产。喂奶前,
一是公羊优于母羊。为母羊选配公羊时,在综合品质和等级方面必须优于母羊。二是以公羊优点补母羊缺点。为具有某些方面缺点和不足的母羊选配公羊时,必须选择在这方面有突出优
在6 MPa、155 ℃,pH值为3~7,使用氢型树脂催化剂生产甲乙酮的环境中,对904L制水帽筛网网丝开裂失效进行了现场调研和腐蚀形态观测.通过904L合金元素质量分数、腐蚀介质的测定
羊传染性胸膜肺炎是一种高度接触性传染病,由丝状支原体所引起,又称羊支原体性肺炎。笔者结合临床实践经验,从本病的病原、流行特点、临床症状、病理变化和诊断等方面进行了简要
<正> 在全世界经济持续低迷的情况下,中国经济将继续在全球经济范围内扮演&#39;一枝独秀&#39;的角色。十六大确定了中国在2020年实现全面小康,即届时的GDP比2000年翻两番,要
20世纪90年代以来,迅速发展的科学技术使美国社会的各个方面都发生了巨大的变化。生产结构和产业结构的不断调整、人口年龄结构不断变化,以及教育系统自身的变革与发展,使美国的成人教育出现了五大明显特点。    一、全面提高人的素质,逐渐成为成人教育的主要目的。    在人们的传统观念中,取得学历文凭是受教育者的主要目的。随着社会的进步和时代的变迁,这种状况在美国成人教育中已经有了根本的改变。现在,人们
选用CuMnNi钎料,对40Cr钢与YG8硬质合金进行了真空钎焊工艺研究。通过润湿性试验、三点弯曲试验、金相分析、SED等方法探究了钎焊温度和Ni中间层厚度对钎焊接头性能的影响。
功利主义经济思想作为一种思想体系最早是随着先秦墨家、法家和道家学说的创应而形成的。其伦理特色是在义利关系上,强调利重于义:在求利致富问题上,主张国家利益优先,兼顾民众利
介绍了新型AlCl3固载催化剂,考察了AlCl3/SiO2,AlCl3/SiO2(H),AlCl3@CrCl3/SiO2,AlCl3@FeSO4/SiO2,AlCl3@NiSO4/SiO2 5种AlCl3固载催化剂活性组分负载量,不同活性金属原子比,