论文部分内容阅读
随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源,如何从庞杂的数据中获取有用的信息是现阶段共同面临的问题,Web信息抽取就是针对这一问题提出的。尽管目前在Web信息抽取技术领域进行了大量的研究工作,但是现有的技术往往缺乏对Web数据本身的描述,包含的语义信息不够清晰,并且在处理与正文无关的噪音内容方面没有提出很好的解决方案,难以适应当前丰富多彩、形态结构各异的Web页面。针对上述问题,本文在研究本体技术和Web信息抽取技术总体解决方案的基础上,通过对传统Web信息抽取方法的基本原理、抽取技术、设计思想和发展现状等方面的研究分析,设计了基于文本特征的噪音处理方法以及由本体驱动、根据页面文档结构和特征匹配来完成信息定位和信息抽取的模型。该系统首先利用网络爬虫根据给定URL地址的页内链接爬取相关网页,并对所获取的页面进行文档清洗、编码转换和页面解析,运用面向文本特征的噪音处理方法,将不规范的HTML文档转换成基本无噪音的XML-DOM树。然后利用基于语义的本体构建方法,建立相关本体,为XML文档添加语义信息,同时应用XPath技术来定位信息节点。最后,运用XSLT技术完成一个源XML文档到一个新XML文档的转换。实验结果表明,本文设计的Web信息抽取方法能够很好的解决页面噪音问题,同时召回率和准确率也能够达到较高的百分比。