Web文档分类及信息抽取的研究与开发

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:w6832793xym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确的从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。 文中将数据挖掘的思想引入WWW信息处理领域来解决网上信息有效获取的问题。本文就网络的信息处理领域,讨论其中的一些关键技术,即针对某一主题的信息分类和针对表格的信息抽取。前者指对于网络上的信息资源,怎样迅速而有效的判断它们是否属于某一类,找到体现某个主题的网页;后者指怎样从大量的文本数据中抽取出所关心的文本信息。 本文首先对Web文档分类的发展情况进行了综述,然后重点讨论了针对某一主题的Web文档分类引擎的设计思想和相关技术及实现,以及今后的发展趋势。然后对表格的信息抽取技术进行了初步的尝试,介绍了信息抽取模块结构的实现。 本文最后总结了完成的工作,以及日后可以改进和完善的地方。经测试表明,系统能够较好地解决WWW上的信息自动分类和抽取问题。
其他文献
随着模型驱动技术在软件开发中的广泛应用,以UML为代表的大量可视化建模语言不断涌现,但它们中的大部分目前还没有严格的形式语义,所建立的模型存在很多潜在不一致性等问题,
语音识别技术,经过了近半个世纪的发展,已经越来越成熟,内容也越来越丰富,然而无论人们在为让机器听懂并理解人类语言方面花了多大的努力,人们距离让机器能够理解任何人口述任何内
中医药学是中国传统文化的重要组成部分和人类智慧的结晶,其在人类历史尤其是古代人们与疾病抗争中发挥了重要的作用。中药方剂是中医药学的一门重要学科,其配伍规律有着重要