论文部分内容阅读
随着互联网技术的飞速发展和传播,互联网资源容量和类型呈现爆炸性增长。互联网资源多数以文本形式存在,面对不计其数的海量信息,如何有效管理和利用,从中发现有价值的信息,是当前研究的热点。文本分类技术是一个包括信息检索、机器学习和自然语言处理的多领域技术,是信息处理和数据挖掘的重要研究方向。人工特征工程加浅层分类器结合了文本分类和统计机器学习,是一种经典的文本分类方法。然而,这种统计机器学习方法需要人工特征工程,非常耗时耗力。卷积神经网络模型CNN能在训练过程中自动提取特征;可以捕获文本特征局部信息;避免陷入局部最优解,从初始数据,经过一个隐藏端到端模型,直接输出最终的分类结果,极大地增加了获得全局最优解的可能。然而,CNN模型的黑盒建模性质,使得CNN模型变得难以解释。文本分类领域CHI(χ~2统计量)特征选择+SVM分类器方法需要人工特征工程,容易陷入局部解,而CNN模型黑盒性质又难以解释。针对以上问题,本文借助启发式方法和加权融合思想,结合两种模型的优势,借鉴CHI特征选择的先验知识对文本分类的有效性、CNN模型可以识别文本特征局部相关性的优势以及无需人工干预自动提取特征的强大能力,将传统CHI特征选择加入卷积神经网络隐藏黑箱,以期增强卷积神经网络CNN的分类能力,解释卷积神经网络CNN特征选择黑盒过程。因此本文提出了一种结合传统特征选择方法和深度学习的算法——基于CHI的卷积神经网络中文文本分类模型C-CNN,该模型借助谷歌开源机器学习平台TensorFlow并在智能医疗问答系统中得到应用。本文最后还设计了相关实验进行验证,最终验证了文本分类算法C-CNN的准确性有很大提高。