基于自编码的神经网络文本特征选择的研究

来源 :天津科技大学 | 被引量 : 0次 | 上传用户:a81569476
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于自编码神经网络文本特征提取,主要目的是对当前文本挖掘的效率进行提升。由于现在网络的高速发展,大量的信息尤其是文本为主的信息在网络中大量传播,使得原有的文本挖掘技术缺陷暴露出来。对大量的文本数据,自编码神经网络可以对大量的文本特征进行降维,在不损害其准确率的情况下,提升速度。以此满足现代网络的高效率。  本文选用自编码神经网络的方法是基于深度学习算法中的一种,他开创了机器学习研究中一个新的方向。深度学习的理念来自于人工神经网络的研究,它是具有多层感知器的结构。深度学习通过低层特征的组合来合成更抽象的高层特征,目的是用来发现数据的分布式特征。自编码神经网络的输出节点与输入节点相等以及隐藏层的节点数小于输入输出节点数的两个主要特点,实现了文本特征降维,降低了空间复杂度的计算量。通过这样的方法,实现了自编码神经网络对空间向量的高效计算。  本文以50组内容相近的信息为例(每一组的信息内容不会超过30个汉字)进行编码,将汉字转变为字形点阵码,结合可视化技术,选择35组样本,作为自编码神经网络的输入信息。利用MATLAB工具中的神经网络模型进行实验,通过模型对输入的35组样本进行逐层的特征变换,使得原有的数据样本,从原来的特征空间变换到新的特征空间,并且建立文本特征库。选择剩下的15组利用上述方法进行文本特征提取,与特征库中的文本特征进行对比。实验表明自编码神经网络对文本进行特征提取,有良好的表现,能够很好地对文本进行分类,在减少了在时间和空间复杂度的计算量。
其他文献
计算机网络技术和流媒体技术的快速发展,尤其是3G移动通信技术和H.264数字视频编码标准不断的完善和普及,使得视频技术已被广泛用于人们日常生活中。但由于视频内容易复制、易
尽管二维掌纹识别技术的发展已经比较成熟,但是传统的二维识别算法主要利用手掌的灰度信息,无法完全避免光照强度变化、拍摄角度倾斜等因素带来的干扰。因此,人们开始关注使
中国手语合成系统旨在为聋人教育,聋健间的无障碍交流创造环境与基础,它利用人工智能,计算机图形学等技术,实现用三维虚拟角色演示用户指定的中国手语。系统的成功研发,为聋
近年来,随着互联网技术和视频技术的研究发展,网络上的视频数量越来越多,想要在海量的视频数据中准确提取自己所感兴趣的视频数据也是一个困难的事情,因此视频的检索技术应运
近年来,乳腺癌已经成为困扰女性身体健康的最常见的恶性肿瘤之一,如果治疗不及时还会危及生命。统计发现,若能及时诊断和治疗,患者的生存率在90%以上。乳腺钼靶 X线摄影检查是
移动手持设备的飞速发展,无线网络的全面覆盖,使得各种应用,尤其是多媒体应用,如视频,图片等,越来越多的进入到无线网络,如何提升多媒体数据在无线网络中的传输性能,成为了一
手写汉字识别是指将用户在设备上的书写笔迹记录并转化成最终汉字内码的过程,其中涉及到信息规整、模式识别等过程。手写汉字识别的难度主要体现在汉字集的庞大、用户各异的
功能加密扩展了身份基加密和属性基加密的概念,在方兴未艾的云计算架构下能够用来达成细粒度访问控制和计算正确性验证等重要安全目标.因此,追求更加高效、更加安全的功能加
当前,随着移动互联网的迅速发展,越来越多的移动设备,譬如手机,掌上电脑(PDA)等在日常生活和工作中被人们广泛的使用。而且,智能手机在国内的普及又带动了移动数据同步技术的
随着科学技术的快速发展,计算机相关硬件的普及和用户使用计算机水平的提高,利用计算机网络技术,运用电子公文管理系统采用数字化办公已被广泛使用。目前政府机关和企事业单