论文部分内容阅读
现如今,大数据时代的到来,方便了人们的生活,人们对信息的检索变的更加快捷。可是,久而久之,人们发现获取所需知识的时间变的越来越长。这是因为互联网给我们带来大量有用的信息,但同时又给我们带来了更多的无用信息。如何筛选这些杂乱无章的信息,如何更快更准确的获取所需的知识,成了人们关心的热点问题,也是研究者们亟待解决的首要问题。为了解决上述问题,Web文本挖掘技术应运而生。Web文本信息抽取和Web文本分类是Web文本挖掘领域比较重要的两个分支。具体而言,Web文本信息抽取将Web上有用知识抽取下来,并组织成结构化的格式供后续研究使用。抽取的内容包括Web文本标题和Web正文信息。其中网页标题是一篇网页所要表达信息的最简单明了的概述。它对于网页信息的处理以及应用有很重要的意义。Web文本分类则是将结构化的数据归类,从而更加方便人们对信息的浏览与检索。由于在现实生活当中,人们通常分层浏览信息,所以本文采用的是层次化的文本分类,即将类别组织成树状形式,在一定程度上满足了人们检索信息的习惯,如Yahoo!网站就是采用这种层次化的结构树形式。本文介绍了Web文本信息抽取领域和Web文本分类的相关概念,国内外研究现状等内容。在前辈们的研究基础之上,给出了基于DOM树的Web文本层次化抽取方法和基于标题和基于语义的多层次Web文本分类方法。具体介绍如下:基于DOM树的Web文本信息层次化抽取方法,首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得的锚文本不是网页正文的标题,进而获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确抽取网页正文标题。对主题型网页来说,正文内容信息的视觉特征较为明显,如果将文本按块进行划分的话,因为正文信息比较集中,所以正文信息所在块包含的文字个数要多于其它块。本文就是依据文字的数目来判断正文位置的。实验表明,上述方法拥有实现简单、效率高等优点。基于标题和基于语义的多层次Web文本分类方法首先建立领域知识库和层次类别知识库。利用领域知识库进行标题命中,快速确定文档所属类别。对于标题未命中的文档,利用基于知网的语义相似度分类算法,按照自顶向下式层次分类方法,依次计算待测文档与各类别之间的语义相似度值,选取相似度值最大的类别作为待测文档的最终分类结果。实验表明,该方法能够满足实际需求。