论文部分内容阅读
摘 要:数字人文学科的迅猛发展,有力地冲击着图书馆的传统服务工作,迫使图书馆急需针对馆藏文献资源进行深度挖掘。文章概述了馆藏文献和文本挖掘的基本含义,指明了开展馆藏文献资源文本挖掘的意义,对文本挖掘技术及步骤进行了简要地分析,进一步应用开源文本挖掘工具,使馆藏文献资源真正得到深度挖掘。
关键词:馆藏文献;文献资源;文本挖掘
中图分类号:G250.7 文献标识码:A文章编号:1812-2485(2014)06-041-06
近年来,现代信息技术与人文研究融合而形成的新兴的数字人文学科的迅猛发展,有力地冲击着图书馆的传统服务工作,使常规的阅读和分析已经无法应对内容稀薄而数量庞大的馆藏文献,迫使图书馆急需针对海量的馆藏文献资源进行深度的挖掘。由于数字人文研究的一个重要趋势,就是对海量文献的深度挖掘和深度处理;又由于在现阶段印刷型文献在整个馆藏文献资源中普遍占有80%的比重,因此,对印刷型文献的深度文本挖掘,显得更为十分的重要。本文就馆藏文献资源的文本挖掘即技术步骤进行简要地浅析。
1馆藏文献及文本挖掘概述
1.1馆藏文献概述
馆藏文献是指图书馆收集、整理保存并为读者利用的各类文献资源的总和,是一个集合的概念,主要包括印刷型文献、数字文献及其它类型文献(光盘、磁带、缩微胶卷等),并有其形成发展的过程。在现阶段,印刷型文献占主导地位,在整个馆藏文献资源中普遍占有80%的比重,而数字文献的比重逐年上升。如今,现代图书馆集文献信息组织、传递、利用为一体,重视文献使用价值,要求我们以信息资源开发利用的程度及满足社会信息需求的能力作为深度挖掘馆藏文献资源的基本标准。
1.2文本挖掘概述
20世纪80年代中期,最早出现劳工密集型的人工纯文字挖掘方法。后来,随着现代信息技术与人文研究融合,数字人文学科的迅猛发展,已经使这一领域迅速取得进展。随着网络时代的到来,用户可获得的信息包含了从技术资料、商业信息到新闻报道、娱乐资讯等多种类别和形式的文档,构成了一个异常庞大的具有异构性、开放性特点的分布式数据库,而这个数据库中存放的是非结构化的文本数据。结合人工智能研究领域中的自然语言理解和计算机语言学,从数据挖掘中派生了两类新兴的数据挖掘研究领域:网络挖掘(Network Mining)和文本挖掘(Text Mining)。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。文本挖掘已经是信息检索、数据挖掘、机器学习、统计以及计算语言学等学科中的重要领域。文本挖掘是近几年来数据挖掘领域的一个新兴分支,目前关于文本挖掘并没有一个统一的定义,有人认为,文本挖掘是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。也有人认为,文本挖掘也称为文本数据库中的知识发现,总从大量文本的集合或讲料库中抽取事先未知的、可理解的、有潜在价值的模式和知识。还有人认为,文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程。又还有人认为,文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。它是一个从文本信息描述到选取提取模式,最终形成用户可理解的信息知识的过程。文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生。文本挖掘通常涉及输入文本的处理过程(如通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中),产生结构化数据,并最终评价和解释输出。文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。也就是说,文本挖掘是一个分析文本数据,抽取文本信息,进而发现文本知识的过程。文本挖掘通常具有某种组合的相关性,新颖性和趣味性。1998年底,国家重点研究发展规划首批实施项目中明确指出,文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。
2 馆藏文献资源文本挖掘的意义
近年来,人们在数字人文研究中,越来越多的论文探讨文本挖掘技术的应用,并产生了一大批重要的实践项目,研究热点包括作者归属与风格分析、作品情感分析、人物关系挖掘、模式发现与可视化、人文学科领域本体构建等。从一大批重要的实践项目和这些研究热点表明,在数字人文中对馆藏文献资源进行文本挖掘,有着十分重要的意义。一是有利于改变读者无法阅读、无法浏览或无法知晓一个学科或主题的全部文献,从而提高图书馆馆藏文献资源的利用率,提高图书馆读者服务工作的质量;二是有利于图书馆改变常规的阅读和分析,以应对内容稀薄而数量庞大的馆藏文献资源,从而拓宽图书馆对馆藏文献资源进行深度挖掘和深度处理的视野,开发馆藏文献资源文本挖掘的服务平台;三是有利于提升图书馆馆藏文献资源的资料价值和商业潜在价值;四是有利于图书馆在数字人文背景下所进行的人文学科研究,呈现出研究对象数字化,研究方法智能化,研究范式多样化,研究团队多学科化,从而促进图书馆事业的发展;五是有利于与国际数字人文研究的大好形势接轨。
3 馆藏文献资源的文本挖掘技术
图书馆开展数字人文研究,其目的就是对馆藏文献资源进行深度的文本挖掘。要进行深度的文本挖掘,在确定文本挖掘的工具和平台之后,面临的文本挖掘技术,则是最难的一项工程,它涉及到信息检索、数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。它有很大的技术难度,必须加大力度攻克它。因此,我们要十分重视文本挖掘技术。
近年来,由于现代信息的猛烈剧增以及大量数字图书馆项目产生的海量数字资源,文本挖掘技术在人文和社科研究领域的应用得到了人们越来越多的关注。目前,这一技术在多个领域取得了广泛的应用。例如,在自然科学研究领域,尤其是生物学、医学等,这一技术在基因、蛋白质及其相互关系的研究中发挥了巨大的作用。在商业领域中,这一技术被广泛应用于客户关系挖掘、用户使用偏好挖掘、竞争情报分析。由此说明,文本挖掘技术在人文和社科研究领域中起到了很大的作用。
从近年来国内外对文本挖掘技术的研究所取得的一大批重要的实践项目表明,文本挖掘技术包括一系列广泛的文本处理与数据挖掘技术,其完整过程包括预处理、模式挖掘、模式评价等多个步骤。最常见的文本挖掘技术包括文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测、可视化技术等。此外还有概念∕实体挖掘、生产精确分类、观点分析、文档摘要和实体关系模型等。在此必须明白,文本的特征表示是文本挖掘的基础,而文本分类和聚类是文本挖掘的最重要、最基本的挖掘功能,也是文本挖掘中应用的比较广泛的一个领域。这些技术的综合运用,可使图书馆从海量的文本数据中发现相关的、新颖的、有趣的知识提供了重要的技术手段。
4 文本挖掘技术步骤分析
4.1文本预处理
文本挖掘是从数据挖掘发展而来,但并非意味着简单地将数据挖掘技术运用到大量文本的集合上就可以实现文本挖掘,还需要做很多准备工作。这些工作就是文本预处理。文本预处理是文本挖掘技术过程中至关重要的一步,它是从文本中提取关键词来表示文本的处理过程。它直接影响到文本分类、文本聚类、关联规则、回归等后期工作的效果,它的主要任务是进行中文分词和去停用词。文本预处理这一步骤包括噪音消除、文本分词、拼写检查、词性标注、去停用词、命名实体识别、词频分析、情感分析、社会网络和语义网络分析、相似性分析、支持自定义词库、语言辨别、特征表示、特征提取、奇异值分解(SVD)等。其中文本分词、去停用词、词频分析、特征提取是较为常规的操作,也是文本预处理最核心的内容。在了解这些步骤之后,就要选用好的文本预处理功能的工具。有人认为,在选用文本预处理工具上,Rost CM和LingPipe的文本预处理功能都比较完善,但是前者的中文支持更好。Weka不支持中文的分词和消噪,需要自己修改程序实现。目前文本特征表示模型有向量空间模型、布尔模型、概率检索模型、语言模型等,其中向量空间模型处于主流地位。Weka的过滤器能将ARFF格式转换为向量空间模型。LIBSVM的前期处理功能相对较弱,只针对数据进行特征表示和特征提取以实现降维。
4.2文本分类
文本分类在目前还没有一个统一的定义。按理说,文本分类是在经过文本预处理的数据上,选择分类器进行训练、评价和反馈结果的过程。但也有其他几种说法,一是文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类是文本挖掘的一个重要内容。二是文本分类是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务的重要组成部分。三是文本分类是指按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档。四是文本分类是指在给定的分类体系下,根据文语义元是统计语义方法中的原子,是不可分本的内容自动确定文本类别的过程。当前的文本割的最小单位,在文本分类中语义元是词。五是文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。还有人认为,文本分类是一个有指导的学习过程,它根据一个已经被标注的训练文本集合,找到文本属性(特征)和文本类别之间的关系模型(分类器),然后利用这种学习得到的关系模型对新的文本进行类别判。文本分类一般包括文本的表达、 分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。
在四款开源工具中,Weka的分类算法最为完善,它的SMO分类器实现了SVM分类,同时也能够调用LIBSVM的Wrapper机制,以便于和其他算法进行同一配置下的比较。ROST CM的强项在于前期的中文预处理,而后面的算法都十分简陋。LIBSVM提供了c-SVC和v-SVC两种基于SVM的分类算法。
文本分类将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。这时,需要用各种不同功能的分类算法进行分类。常见的分类算法有TF-IDF(分类器)、Naive Bayes(朴素贝叶斯算法)、Rocchio算法、Knn(K最近邻算法)、决策树Decision Tree、神经网络算法和支持向量分类机(SVM)等。
4.2.1 TF-IDF(分类器)。TF-IDF(Term Frequency-Inverse Document Frequency)分类方法是应用最为广泛的一种分类器权值法。其中TF表示特征词在某文本中的出现频率,IDF表示特征词在整个文本集中的出现频率。由于分类器不存在优劣,每一组数据都有其适合的分类器,我们可以在训练分类模型时,需要尝试不同的分类器和不同的参数,以实现模型优化。
4.2.2 Naive Bayes(朴素贝叶斯算法)。Naive Bayes(朴素贝叶斯算法)是一种典型的概率模型算法,根据贝叶斯公式,算出文本属于某特定类别的概率。也就是说,这一算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上,可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的过程。
4.2.3 Rocchio算法。Rocchio算法又称类中心最近距离判别算法,是基于向量空间模型和最小距离的算法,也是基于TF-IDF的一种算法。基于TF-IDF的Rocchio是这种思想的一种实现方法,其中以一个N维向量来表示文本,向量维数N即特征数,向量分量是特征的某种权重,表示该权值的计算方法称为TF-IDF方法。通过这一方法,首先将训练集中的文本表示为向量,然后生成类别特征向量,即可以用来代表一个类别的向量,类别特征向量取值为该类中所有文本向量的平均值。在Rocchio算法中,训练过程是为了生成所有类别的中心向量,而分类阶段中,系统采用最近距离判别法把文本分配到与其最相似的类别中从而判别文本的类别。所以,如果类间距离比较大而类内距离比较小的类别分布情况,此方法能达到较好的分类效果,反之,类中心最小距离算法效果比较差。但由于其计算简单、迅速、容易实现,所以它通常用来实现衡量分类系统性能的基准系统,而很少采用这种算法解决具体的分类问题。
4.2.4 Knn算法。Knn算法即是K最近邻算法,最初由Cover和Hart于1968年提出。是一种基于实例的文本分类方法,在训练的过程中,将文本转化为向量空间模型。其基本思路是在给待定新文本后,计算出训练文本集中与待定文本距离最近(最相似)的K篇文本,依据这K篇文本所属的类别判断新文本所属的类别。它很好的克服了Rocchiu算法中无法处理线性不可分问题的缺陷,也很适用于分类标准随时会产生变化的需求。
不过,Knn算法也有两个缺点,一是判断一篇新文档的类别时,需要把它与现存的所有训练文档全都比较一遍,这个计算代价并不是每个系统都能够承受的。一些基于Knn的 改良方法比如Generalized Instance Set就在试图解决这个问题。二是当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
4.2.5决策树。决策树(Decision Tree)是被广泛使用的归纳学习方法之一。它有几大优点:(1)它是用样本的属性作为根节点,用属性的取值作为分支的树结构。(2)它是利用信息论原理对大量样本的属性进行分析和归纳产生的。(3)它的根节点是所有样本中信息量最大的属性。树的中间节点是以该节点为根的子树所包含的样本子集中信息量最大的属性。(4)它的叶节点是样本的类别值。(5)它用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样本的类别。(6)决策树的核心算法是一种贪心算法,它以自顶向下的方式在训练集的基础上构造决策树之后,取未知文本的属性,在决策树上测试路径由根结点到叶结点,从而得到该文本的所属类别。(7)决策树可以很好的抵抗噪声。但决策树最大的缺点在于不适应大规模的数据集,此种情况下决策树的构造会变得效率低下。
决策树方法是数据挖掘中非常有效的分类方法,它排除噪音的强壮性以及学习反义表达的能力使其更适合于文本分类。比较著名的决策树算法是ID3算法以及它的后继C4.5、C5、CART、CHAID等。他们的区别在于构造决策树与树枝剪除的算法细节不同。
4.2.6人工神经网络算法。人工神经网络算法(Artificial Neural Networks)是一种按照人脑的组织和活动原理而构造的一种数据驱动型非线性模型。它由神经元结构模型、网络连接模型、网络学习算法等几个要素组成,是具有某些智能功能的系统。它是采用感知算法进行分类。在此种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判别正确时,权值向量保持不变,否则进行增加或降低的调整,因此也称奖惩法。一般在神经网络分类法中包括两个部分训练部分和测试部分,以样本的特征项构造输入神经元,特征的数量即为输入神经元的数量,至于隐含层数量和该层神经元的数目要视实际而定。在训练部分通过对相当数量的训练样本的训练得到训练样本输入与输出之间的关系即在不断的迭代调整过程中得到连接权值矩阵。测试部分则是针对用户输入的待测样本的特征得到输出值即该样本的所属的类。
4.2.7支持向量机。支持向量机(Support Vector Machine,SVM)最初是由Cortes和Vapnik提出的,是一种相对较新的机器学习方法。支持向量机的基本实现思想是:通过某种事先选择的非线性影射把输入向量x映射到一个高维特征空间Z在这个空间中构造最优分类超平面。也就是SVM采用输入向量的非线性变换,在特征空间中,在现行决策规则集合上按照正规超平面权值的模构造一个结构,然后选择结构中最好的元素和这个元素中最好的函数,以达到最小化错误率的目标,实现了结构风险最小化原则。也就是说,支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习方法的VC维理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。
支持向量机分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。支持向量机分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都略优于kNN及朴素贝叶斯方法。但支持向量机也有缺点:一是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;二是支持向量机训练速度极大地受到训练集规模的影响,计算开销比较大。针对支持向量机的训练速度问题,研究者提出了很多改进方法,包括Chunking 方法、Osuna 算法、SMO 算法和交互SVM 等。
4.3文本聚类
文本聚类(Text clustering)是在没有学习的条件下对文本集合进行组织或划分的过程,其主要是依据著名的聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文本手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。
4.3.1文本聚类的主要应用。文本聚类是搜索引擎和语义Web的基本技术。这种技术可以将大量文本信息组成少数有意义的簇,并提供导航或浏览机制。文本聚类的主要应用有:(1) 文本聚类可以作为多文档自动文摘等自然语言处理应用的预处理步骤。(2) 对搜索引擎返回的结果进行聚类,使用户迅速定位到所需要的信息。(3) 对用户感兴趣的文档聚类,从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。(4) 改善文本分类的结果。(5) 数字图书馆服务。通过SOM神经网络等方法,可以将高维空间的文档拓扑保序地映射到二维空间,使得聚类结果可视化和便于理解。(6) 文档集合的自动整理。它是一个基于聚类的文档浏览系统。
4.3.2文本聚类的类别。文本聚类的类别有:基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网络的聚类和基于模型的聚类。基于划分的聚类主要包括K-means、X-means、K-medoid和ISODATA,其中X-means是K-means算法的改进。基于层次的聚类主要包括Birch Clusterer、Cure Clusterer、Single Link Clusterer、Complete Link Clusterer和Average Link Clusterer。基于密度的聚类主要包括DBScan和Opties。基于网络的聚类主要包括Sting Clusterer和Clique Clusterer。Cobweb属于基于模型的聚类。
4.4关联规则
关联规则最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。关联规则事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。关联规则挖掘是数据挖掘的其他研究分支的基础。
4.4.1关联规则的种类。(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
4.4.2关联规则的优缺点。关联规则有四个优点:它可以产生清晰有用的结果;它支持间接数据挖掘;它可以处理变长的数据;它的计算的消耗量可以预见。但关联规则也有不足之处:一是当问题变大时,计算量增长得厉害;二是难以决定正确的数据;三是容易忽略稀有的数据。在操作中,要注意发挥优点,克服不足之处。
4.5回归
回归,是研究一个随机变量Y对另一个X或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
回归分析的主要内容有:(1)从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小乘法。(2)对这些关系式的可信程度进行检验。(3)在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响显著与否,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。(4)利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便 。
回归分析用于确定两种或两种以上变数间相互依赖的定量关系,运用十分广泛。一般会将回归分析纳入文本分类的范畴,但有时为了弄清文本在比较每款工具不同所获得的回归算法,也可以单独拿出来分析比较。通过文本挖掘典型开源工具功能比较,我们会发现,Weka和Lingpipe都把回归分析放在分类器的jar包中;Weka分别实现了线性回归、逻辑回归和逐步回归;LingPipe只有逻辑回归算法;LIBSVM提供了ε-SVR和ν-SVR两种基于SVM的回归算法 。
4.6其他
除了以上文本分类算法以外,还有字符语言建模、访问数据库、模型评估和二次开发接口等其他算法。在文本挖掘典型开源工具功能比较中,LingPipe支持字符语言建模、医学文献下载/解析/索引、数据库文本挖掘。Weka和LingPipe都支持数据库访问,提升了工具的适用范围。在四款开源工具中,只有ROST CM不提供二次开发接口,其余三者均能在相应的开发环境下按需修改。Weka在算法实现上较为优秀,也支持新算法的添加。
5 结 语
通过对馆藏文献资源、文本挖掘、文本挖掘意义、文本挖掘技术及步骤分析,想必会对馆藏文献资源的文本挖掘能起到一定的作用。由于目前国内对馆藏文献资源的文本挖掘的研究,大部分仍然停留在对算法的改进上,文本挖掘工具的应用相对欠缺,需要我们在实践中更多地发现更为优秀的开源文本挖掘工具,把馆藏文献资源的文本挖掘做得更好。
参考文献
韩俊.论馆藏文献的评价[J].图书馆学研究,2006,(4):51.
2 Tan A H.Text Mining:The State of the Art and the Challenges∥Tsinghua University. Thinl Pacifie — Asia Conference on Knowledge Discovery and Data Ming.Beijing.1999:65—70
3Feldman R.Dagan I.KDT—Knowledge Discovery in Textual Databases [C]∥Proceedings of the Ist Annual Conference on Knowledge Discovery and Data Mining.1995:112-117. 转引自杨霞,黄陈英.文本挖掘综述[J].科技信息,2009(33):82.
4梅 馨,邢桂芬.文本挖掘技术综述[J].苏州大学学报(自然科学版),2003,24(5):72.
5 薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报(自然科学版),2005,19(4):60. l
6 郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,2012(3):12.
7 郭金龙,许鑫.数字人文中的文本挖掘研究[J].大学图书馆学报,,2012(3):13.
8 张雯雯,许 鑫.文本挖掘工具述评[J].图书情报工作,2012,56(8):29.
9 Aas K,Eikvil L.Text Categorization:a survey[Z].Teehnical Report 941,Nowegian Computing Center,1999:90-100.
10 张征杰,王自强.文本分类及算法综述[J].电脑知识与技术,2012,8(4):827.
11 Cover T M,Hart P E.Nearest neighbor peattern classification[J].IEEE Transactions on Information Theory,1967,13(3):21-27.
12张征杰,王自强.文本分类及算法综述[J].电脑知识与技术,2012,8(4):828.
13 张雯雯,许鑫.文本挖掘工具述评[J].图书情报工作,2012,56(8):29.
14 张雯雯,许鑫.文本挖掘工具述评[J].图书情报工作,2012,56(8):29.