基于页面主体提取的WEB信息抽取技术研究

被引量 : 0次 | 上传用户:mc_2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,互联网上的数据量呈爆炸性增长,使得Web已经成为全球信息传播与共享的重要渠道,而网页固有的半结构性以及网络上存在大量的与网页主题无关的信息,使人们无法快速准确的获得所需要的信息。这种情况下,研究如何从Web中抽取出人们所需要的信息已经变得越来越重要。国内外学者在这方面已经有了大量的研究。然而通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在自动化程度不够和抽取结果不准确的问题。为了弥补以上的两个不足,本文提出了一种基于页面主体提取的Web信息抽取方法,主要包括页面预处理、页面主体提取、抽取规则生成、信息抽取四个模块。页面预处理模块利用JTidy完成对HTML标签的格式化,以及页面中一些与主题无关内容的去除。页面主体提取模块使用HTMLParser对页面进行解析,得到与Web页面对应的结构树,然后分析结构树,使用基于MMTD的算法识别出页面的主体部分。而抽取规则生成模块则使用了XPATH和XSLT,针对页面主体生成一类页面的抽取规则。信息抽取模块将抽取规则运用于待抽取页面便得到我们需要的信息,并将其存入数据库,以方便人们查找并使用。在以上的处理过程中,Web信息的抽取是在页面主体提取的基础上完成的,这也是说此方法是基于页面主体提取的原因。本文提出的方法属于自动的信息抽取,整个抽取过程几乎完全不需要人工参与,与已有研究相比,自动化程度较高;且利用了强大而灵活的XPATH和XSLT使得规则生成的过程大大简化,同时提高了抽取方法的通用性和准确性。根据以上方法设计并实现了基于页面主体提取的Web信息抽取原型系统。系统通过不同功能模块的结合达到Web信息抽取目的,并为用户提供可视化操作界面,方便操作。最后,使用此系统对若干主流网站进行试验,实验结果证明了本文方法的有效性和正确性。
其他文献
<正>宗军:今年一季度在分析宏观经济形势时,讨论过走势到底是V型、L型、U型还是W型,现在半程过后,各位专家对下半年是如何预测的?经济发展的长期动力有哪些向好的方面,又存在
多年来,存贷比是我国商业银行的重要监管指标。随着我国经济金融环境的变化,该指标已成为商业银行信用扩张的主要约束条件。取消存贷比作为法定监管指标适应了我国货币金融环
城市是人类生活的理想家园,随着工业化、城市化、信息化的快速发展,人类住区可持续发展已成为人们关注的一个重要问题。在新的世纪里,城市化不仅依然加速推进,而且主要在发展中国
对全国多个大型火车站的列车运行噪声进行测量。利用大量测试数据和专用测试分析软件,分析火车站列车运行噪声特性。对列车进出站噪声分析其时域特性以及鸣笛、轮轨摩擦噪声
近年来,随着信息技术的飞速发展,网络和信息系统是整个证券期货市场运行的载体,网络和信息系统的安全稳定运行对于市场健康发展,保护投资人利益,增强市场竞争力,保护国家经济
基于辽东山区古石河森林群落26个样方的调查数据,对该区域落叶阔叶林、针阔混交林和暗针叶林内乔木层种类的胸径(DBH)和树高(H)的分布状况进行了统计和分析,并采用径级代替龄
旅行商问题是NP完全的组合优化问题。分析了邻域启发式算法的基本操作,提出一种简单的启发式贪心法,仅利用城市间的距离信息求解旅行商问题。理论分析与实验结果表明该方法是确定
<正>作为一名教师,以及每一个将来可能选择教师职业的人应当扪心自问,为什么选择当教师?当教师究竟意味着什么?选择当教师,就意味着必须履行教师的职责,它关系到教师职业的崇
本文研究主要内容是单相智能电能表的故障模式及影响分析(failure modes and effect analysis, FMEA)研究,这是华北电网有限公司电能计量中心2010年国家重点科技项目——智能
当前,环境问题日益突显,环境规制日趋严厉,各类企业在提升自身经济绩效的同时要兼顾社会绩效,这就要求企业去提升自身以及与之相关的供应链中成员企业的环境管理能力和效率从