论文部分内容阅读
伴随着网络的迅猛发展,人们要接受的信息数量也成几何级数的增长。面对Internet中海量的、纷繁芜杂的信息,如文本信息、声音信息、视频信息等等,如何快速有效的获取信息知识,并且能按照某种特定的结构模型进行有序化的整理,这无疑是一个很重要的课题。信息处理技术的目的就是从杂乱的信息中发掘最有效的信息,经过十几年的长足发展,信息处理技术已取得了较大的进步。文本分类技术的任务就是基于文本内容,从给定的类别集中找出一个或多个相似的文本类别,指定于待分类文本,目前常用的方法是基于机器学习和概率统计的文本分类方法。在现实的分类体系中,类别具有多层次的组织结构模式,而传统的文本分类思想恰恰忽略了对层次的考虑。概念层次树的构建,为用户提供了可视化浏览及搜索的操作功能,同时体现了文本库中文本间的语义联系。层次分类的核心思想是“分块而治”,分类过程从根节点开始,将待分类文本与各级节点进行比较,划分到最相似的一个或几个分类树节点下,最终当到达叶子节点时分类过程结束。文本分类技术经历了从基于规则到基于统计,再到如今规则与统计相结合的研究发展过程。其中向量空间模型是较为常用的数学模型,该模型将词条表示为特征向量,由特征向量表征文档,但该模型只关注了词形结构,忽略了词义联系。本文利用潜在语义索引和隐马尔可夫模型等方法,充分利用了文本中隐含语义信息,并依此实现文本层次分类,本文主要研究内容包含以下几个方面:(1)介绍了层次文本分类技术的基本方法和关键技术,并参考分析了国内外相关工作的研究进展,指出在文本层次分类应用中的不足,目前常用的分类法缺少对文本语义信息的考虑,并且分类性能受噪声影响较大,今后的研究应该更注重文本的语义联系。(2)提出了基于潜在语义的文本层次分类法。在以层次结构表示的文本类别中,每一个类别就是一个主题。在文本分类过程中,包含主题类别的词条比其它词条更为重要。本文就提出使用Gibbs抽样的方法,来抽取一系列的概率主题类别标签,文本就由这些概率主题来表示,然后将主题类别标签运用于潜在语义分类模型的构建。本文提出的基于潜在语义索引的模型,探索了主题标签在层次文本分类中的作用。实验结果表明,该方法有效的提高了分类精度。(3)提出了基于改进隐马尔可夫的文本分类过程。在层次文本分类中,主题类别是按照预定的层次关系进行划分的。通过主题类别的划分就是要将分类任务细化为小的子问题,然后对每个主题类别构建一个分类器,最后通过这些子分类器将待分类文本分到层次结构中相应的类别。在树形结构中,待分类文档只与某主题类别节点下的文档比较,只是在同一层次同一节点下的比较。本文按照层次分类的思想提出基于隐马可夫模型的子分类器构建,并且详细介绍了文本分类的过程。(4)本文结合网络犯罪案件信息分析的运用背景,将层次文本分类的思想运用于网络犯罪案件信息分析系统的构建,提出了原型系统的构建模型。同时,本文为以语义网为基础的案件侦查本体构建提出了统一的标准知识表示结构框架,明确后续本体构建的基本规则。