论文部分内容阅读
随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。 文中将数据挖掘的思想引入WWW信息处理领域来解决网上信息有效获取的问题。本文就网络的信息处理领域,讨论其中的一些关键技术,即针对某一主题的信息分类和针对表格的信息抽取。前者指对于网络上的信息资源,怎样迅速而有效的判断它们是否属于某一类,找到体现某个主题的网页;后者指怎样从大量的文本数据中抽取出所关心的文本信息。 本文首先对Web文档分类的发展情况进行了综述,然后重点讨论了针对某一主题的Web文档分类引擎的设计思想和相关技术及实现,以及今后的发展趋势。然后对表格的信息抽取技术进行了初步的尝试,介绍了信息抽取模块结构的实现。 本文最后总结了完成的工作,以及日后可以改进和完善的地方。经测试表明,系统能够较好地解决WWW上的信息自动分类和抽取问题。