论文部分内容阅读
WWW上拥有海量、分布、动态、异质、非结构化的丰富信息资源,但用户一直没有合适的途径获取它们,而互联网传统的信息检索的粒度不能满足客户的需要,人们迫切需要Web挖掘技术来方便地获取互联网中细粒度,结构化的信息。Web挖掘技术负责从大量的Web文档和Web活动中发现、提取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。但现有的Web挖掘系统存在着应用领域小,自动化程度不高的不足,满足不了复杂数据源和数据表达方式多样化下信息提取的需求。 论文针对现有Web挖掘系统所存在的问题,提出一种基于本体论的网页信息提取算法,并成功地应用到UT斯达康手机信息服务系统中。算法基于HTML结构,结合本体论,能够自动分析网页结构并提取数据,具有高度鲁棒性和适应性。 第一章首先叙述了信息提取技术意义与本文的研究背景,进而提出本文的研究内容。 第二章介绍了信息提取技术的发展过程,简要介绍了传统信息提取技术的方法以及代表性系统,对它们的优缺点进行了分析。同时介绍了本体论的概念,以及本体论在信息提取领域相关的一些工作。 第三章对系统所采用的本体模型ORM进行了阐述。系统采用对象关系模型(ORM)构造目标本体,通过解析本体描述,可以获得目标数据的结构,描述方式,以及数据库模式,为信息提取做好数据准备。 第四章提出了基于本体论的网页去噪技术。通过构造网页标签树并对其进行简化统计得到网页结构树,在此基础上,利用网页间结构块的相似性和页面内噪音结构块的特征来排除网页噪音,提高信息提取的准确性。 第五章在网页结构树的基础上给出了基于本体论的信息提取算法。利用最大扇出树,并结合改进的启发式规则,寻找出网页数据区,最后利用本体论进行记录的划分和记录的分解提取,并将提取的信息按本体描述保存到数据库中。 第六章介绍了信息提取系统的实现,给出了系统的体系结构,并使用业界标准评价体系对系统进行测试,测试结果表明系统在性能上与同类产品存在一定的优势,验证论文在系统性能方面的改进工作。 第七章总结了本文的研究成果,指出今后研究的方向。