基于深度学习文本特征提取的聚类算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:sunshinewlm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速增长,网络全球化给人们带来的好处也愈加丰富,大量的英文文本携带着众多重要信息出现在种类繁多的资源当中,这些海量文本信息数据具有深度挖掘的价值,对于社会发展有着非常重要的意义。为了使得信息能够更准确地被捕捉,文本挖掘技术应运而生,这其中聚类算法在过滤信息和整合文本等方面具有很好的应用前景。通过对这些网络信息数据进行合理适当地聚类,可以更好地抓住当前世界的发展动态,掌握最新的发展趋势。但是英文文本具有维度高、特征稀疏、同义词多等特点,在使用现有的文本特征提取模型和文本聚类算法进行研究分析时,通常无法学习到文本词语之间的关联性以及上下文语义之间的延续性,进而造成了文本聚类精度和效率较低的问题。本文针对解决文本特征稀疏问题,改善文本聚类效果,对文本的特征提取模型和聚类算法进行了改进与提高,主要工作如下:1.提出一种基于Word2vec模型改进传统卷积神经网络的文本聚类算法。该算法使用网络中的英文新闻数据集作为实验数据,利用Word2vec模型学习文本词语之间隐含的语义联系,将文本转换成原始词向量的表达形式。接着通过增加空洞卷积层以及调整卷积核个数改进卷积神经网络的方法对原始词向量进行特征提取,有效增大了特征提取过程中的感受野,得到更具有代表性和低维的文本特征向量。最后使用优化后K-means聚类算法实现对文本特征的聚类分析。通过实验论证了该算法的有效性和优越性。2.提出一种结合ECA注意力机制的LSTM-CNN文本特征提取算法对文本特征向量进行提取。该算法首先在LSTM网络中利用门控措施控制神经网络的输出,保留住那些需要长时间记忆的信息特征,摒弃那些不需要传递的信息特征。接着通过添加ECA注意力机制赋予关键文本特征更高的影响力权重进而突出它们的表达作用。其中使用的一维稀疏矩阵代替了传统注意力机制中的全连接模型,大幅度地降低了网络中的相关计算参数,同时也避免了传统注意力机制中因为维度缩减对特征所产生的不必要预测。最后经过卷积神经网络进行二次特征提取后,使用结合RWMD相似度距离的K-means聚类算法对所提算法进行聚类研究。经过实验论证,聚类效果得到了有效的提高。
其他文献
光刻机是制造集成电路的核心设备,随着集成电路向先进制程不断发展,集成电路制造业对光刻机套刻精度要求越来越高。运动台定位精度、重复性决定了光刻机的套刻精度,目前对运动台定位测量的工具只有激光干涉仪和光栅尺两种,光栅尺环境鲁棒性相对较好。现阶段我国对光栅尺相位信号处理系统研究较为匮乏,尤其缺乏能够应用于28 nm浸没式光刻机的高分辨力光栅尺相位信号处理技术和设备。本文针对光栅尺相位信号的第一类非线性误
自1986年由A.Ashkin等人首次完成光镊实验以来,光镊技术已广泛应用于生物学、化学、胶体科学和物理学等领域。特别是在生物学中,它被应用于操纵细胞、细胞器、病毒、细菌和DNA分子,为研究这些基本生命单位和了解其生物学功能提供了有力的工具。光纤光镊继承了光纤灵活、体积小、结构紧凑的优点,可以通过人体的天然孔口到达病变组织,从而非常好的应用于体内医疗。在光纤光镊的研究中,提高可操作性以实现多维度操
近年来,随着先进的科学和技术的迅猛发展和智能家居设备的日渐普及,智能电视逐渐成为家庭物联网的控制中枢。然而在日常使用中,传统的遥控器操控具有一定的依赖性和局限性。手势作为一种非常契合人们在日常生活中各种交流习惯的一种人机交互方式具有自然、舒适等特点,相较于借助穿戴设备,通过摄像机进行手势操作更加符合人们的日常使用需求,因此基于视觉的动态手势识别的人机交互系统对于智能电视具有很高的研究价值。目前,基
高脂血症是导致多种心脑血管类型疾病的重要诱因且存在很多因此产生的并发症,由于其隐匿性导致多数疾病并无典型症状,极易耽误最有效的防治时间,对人们身体的生理机能产生了巨大的危害。其中,胆固醇浓度过高表现为高胆固醇血症,进而导致血脂水平整体异常。因此,胆固醇浓度值是检测高脂血症很重要的指标。目前常用的血脂检测方法多为医院生化检测测得,不仅给被测对象造成疼痛的感觉,而且还增加了针刺部位的感染风险,且实时性
微纳结构往往赋予材料/器件独特的力学、物理及化学性能,其在光学领域的研究可以分为运用光学原理对器件表面的微纳结构实现非接触无损检测以及研究微纳结构在如何影响器件的光学性能两方面。对于微纳结构的非接触光学表征包括粗糙度检测以及纹理方向检测,通过结合纵向的粗糙度信息以及横向的纹理信息即可以实现对微纳结构的三维表征。基于光学的非接触式粗糙度检测方法包括白光干涉法、共聚焦显微镜测量法、散射法等。由于散射法
随着互联网的快速发展,信息的爆炸式增长,文本信息是人们获取信息的主要来源,近年来自然语言处理技术受到越来越多研究者的重视,自动生成文本摘要技术是该技术的一个重要研究分支。本文针对自动生成文本摘要技术进行研究,并将句子语义相似度匹配技术和摘要评价技术作为摘要技术的支持性研究。首先通过改进传统注意力机制和损失函数,提出了一个基于语义相似注意力机制的摘要模型,将原文与生成摘要两者的语义特征向量余弦相似距
文本填充也叫缺失文本生成,主要任务是填充文本中缺失片段的信息,是自然语言处理一个研究领域。近几年,随着深度学习的快速发展,文本填充任务取得了一定的成果。但仍然存在一些问题,例如填充文本缺失部分信息与上下文语义信息不一致,使得填充后的文本连贯性和流畅性较差。填充文本缺失部分信息存在多样性和复杂性,以及考虑语法、句法和上下文语义信息等问题,使得填充任务变得更加艰巨。针对上述存在的一些问题,本文进行了基
文本填充作为文本生成领域中一个重要的研究课题,能够广泛应用于实际前景。通过缺失部分周围环境(上下文语境)来填充缺失的部分,生成能高度还原原文语义且语序连贯的文本,具有重要研究价值,适用于填充部分图像字幕、历史文档恢复、藏头诗生成、情报分析等许多自然语言生成方案。而目前对文本填充的研究还处于初始阶段,主要原因有采用传统的算法经常存在数据稀疏、语义特征向量表示不准确、缺少关键信息等问题,不能很好的完成
近年来,随着接入网的智能设备数量激增,庞大的数据流量给现有的通信系统带来了巨大的挑战。为了应对通信量激增带来的各种难题,边缘缓存技术成为研究热点。边缘缓存通过充分利用边缘节点的存储和计算资源,提前预测流行度较高的内容缓存到距离用户较近的边缘节点上,从而缓解核心网的压力。边缘缓存方案制定的过程中,缓存内容、缓存放置、缓存更新是边缘缓存需要解决的三大问题。本文主要针对基站之间的聚类、基于用户偏好的内容
随着电子系统的应用领域日渐广泛,电子电路的复杂性和集成度不断加深,对电路测试技术的要求也越来越高。模拟电路作为电子电路系统的重要组成部分,对其故障诊断技术的优化是提高电子电路测试技术的必要途径。然而,由于模拟电路元件的容差性和非线性,以及可测节点有限等特性,以往的故障诊断方法难以取得理想的测试结果,因此有必要探索更高效的测试诊断方法。本文基于神经网络技术,结合小波包分析方法,针对模拟电路中的软故障