基于CHI的卷积神经网络中文文本分类算法研究及应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:mikamireiko
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展和传播,互联网资源容量和类型呈现爆炸性增长。互联网资源多数以文本形式存在,面对不计其数的海量信息,如何有效管理和利用,从中发现有价值的信息,是当前研究的热点。文本分类技术是一个包括信息检索、机器学习和自然语言处理的多领域技术,是信息处理和数据挖掘的重要研究方向。人工特征工程加浅层分类器结合了文本分类和统计机器学习,是一种经典的文本分类方法。然而,这种统计机器学习方法需要人工特征工程,非常耗时耗力。卷积神经网络模型CNN能在训练过程中自动提取特征;可以捕获文本特征局部信息;避免陷入局部最优解,从初始数据,经过一个隐藏端到端模型,直接输出最终的分类结果,极大地增加了获得全局最优解的可能。然而,CNN模型的黑盒建模性质,使得CNN模型变得难以解释。文本分类领域CHI(χ~2统计量)特征选择+SVM分类器方法需要人工特征工程,容易陷入局部解,而CNN模型黑盒性质又难以解释。针对以上问题,本文借助启发式方法和加权融合思想,结合两种模型的优势,借鉴CHI特征选择的先验知识对文本分类的有效性、CNN模型可以识别文本特征局部相关性的优势以及无需人工干预自动提取特征的强大能力,将传统CHI特征选择加入卷积神经网络隐藏黑箱,以期增强卷积神经网络CNN的分类能力,解释卷积神经网络CNN特征选择黑盒过程。因此本文提出了一种结合传统特征选择方法和深度学习的算法——基于CHI的卷积神经网络中文文本分类模型C-CNN,该模型借助谷歌开源机器学习平台TensorFlow并在智能医疗问答系统中得到应用。本文最后还设计了相关实验进行验证,最终验证了文本分类算法C-CNN的准确性有很大提高。
其他文献
初步探讨了空间环境对黑色素瘤B16细胞致瘤基因和蛋白质表达的影响。选择经第20颗返回式卫星搭载的B16细胞,进行体外和体内实验后,筛选出性状变异明显的空间诱变B16细胞株,检
目的:提出对成年人下睑眶隔脂肪定量、定位的测量以指导下睑袋整形术的手术方式的思路,寻找恰当的测量方法,提高手术方式的科学性。方法:应用多普勒彩超及螺旋CT平扫测量对正常
[目的]寻找有效抑制柑橘黄龙病病原菌的拮抗内生菌.[方法]从肇庆地区所属的6个县(市)的柑橘果园中采集24份柑橘植株的枝叶样本,利用平板分离培养方法对其内生细菌进行了分离,并
发达的金融体系和良好的金融政策环境是战略性新兴产业快速成长的重要保障。在发展战略性新兴产业的过程中,政府的角色对金融服务、企业融资尤为重要。作为沟通资本市场与企
通过对福建省电力大楼计算机房室内环境超温的调研,找出机房环境超温的主要原因,并发现计算机房设计供冷量不足是一个比较普遍的问题。
研究了脆皮金柑在当阳市的抽梢和开花结果物候期、春梢结果母枝所开花的坐果率和春梢结果母枝长度、粗度以及结果枝类型的分布.结果表明,脆皮金柑春梢萌芽期在3月上旬,停梢期
目的:探讨雷公藤内酯醇(Triptolide,Tri)在小鼠同种异体皮肤移植中的免疫抑制作用及其可能的作用机制。方法采用BALB/c小鼠作为供体,C57BL/6小鼠作为受体,建立皮肤移植模型。随机分
目前我国特种设备检验工作进行的过程中,以风险为基础的检验技术得到的应用较为广泛,笔者依据实际工作经验及相关文献资料的记载,分析以风险为基础的检验技术内含,并介绍检验
阅读材料的选择是英语阅读教学中的一个关键问题,基于高职学生英语水平低的现状,文章运用需求分析理论对高职学生的阅读作了相关调查,提出应以学生的阅读需求为准绳的选材方法,并