论文部分内容阅读
伴随着信息技术的不断发展,电子文本信息日益增多。为方便用户可以快速、精准地从文本中找到用户所需求的信息,并且可以使用什么方法有效地组织和管理这些文本信息将成为信息技术面临的一大挑战。文本自动分类作为处理海量文本信息的关键技术,可以在很大程度上解决信息复杂混乱的问题。把相关信息资源归类,这样既方便用户准确地搜索到所需的信息,又能实现数据的有效管理。本文从提高文本自动分类准确率的角度出发,主要对文本自动分类及相关技术进行研究分析,从自然语言处理到分类的整个过程中,每一环节都紧密相连,其中最重要的是在自然语言处理过程中,要保证分词的准确性,才能保证后续分类的正确率。自然语言处理过程中,基于匹配词库考虑,本文以《铁路工程地质勘察规范》(TB1002-2007)为训练标准,首先对文本文档进行自然语言处理,由于分词的局限性及词的歧义识别问题,在构建语料库的过程中,计算机与人工结合进行分词,最终的分词结果选择词频大于某个预定阈值的词条作为最终的地质勘探语料库。为避免同一地勘专业词条被分开,在研究地勘文本自动分类的过程中,分词时把该语料加入Python库内进行字符串匹配。基于上述自然语言处理过程的描述,针对文本文档的分词结果进行特征降维技术处理,即词频大于某个阈值的词条作为特征词,然后对该类文本文档进行词云分析。词云图中词条形状的大小表示词条频率的高低,词频越高的词条所呈现的字体越大。最后利用机器学习方式对分词后的文本文档进行自动分类,本文中主要采用K近邻分类和贝叶斯分类两种机器学习的分类方式,在两种分类方式呈现的结果中,K近邻分类测试集的预测正确率明显高于贝叶斯分类测试集的预测正确率;在K近邻分类算法中,从最终结果分析,分十类的预测正确率比分十六类的预测正确率更高;控制文本长度时,K近邻分类算法处于最理想状态,正确率达到100%。