【摘 要】
:
互联网的快速发展带来了海量的文本数据,结合神经网络对这些文本数据进行文本聚类以获得有价值的信息越来越受到人们的重视,深度文本聚类已然成为当前研究的热点。然而,现实中文本的构成只使用到部分关键词且每篇文本使用的关键词不尽相同,所以会出现文本的语义信息不完整的情况,给深度文本聚类增加了额外的困难。针对上述问题,本文基于增强语义聚焦文本聚类的研究,提出了增强语义信息的深度变分文本聚类模型(SEVAE)和
论文部分内容阅读
互联网的快速发展带来了海量的文本数据,结合神经网络对这些文本数据进行文本聚类以获得有价值的信息越来越受到人们的重视,深度文本聚类已然成为当前研究的热点。然而,现实中文本的构成只使用到部分关键词且每篇文本使用的关键词不尽相同,所以会出现文本的语义信息不完整的情况,给深度文本聚类增加了额外的困难。针对上述问题,本文基于增强语义聚焦文本聚类的研究,提出了增强语义信息的深度变分文本聚类模型(SEVAE)和自适应语义增强的深度文本聚类模型(ASEC)。针对深度聚类模型在文本聚类工作中的面临的语义缺乏完整性的问题,SEVAE设计了基于深度变分推断算法的语义增强模块,该模块以无监督的方式从邻居文本中自动挖掘增强语义并将其融合到文本语义表示的学习过程中,增强文本语义表示的语义信息。此外,SEVAE利用语义增强的文本语义表示进行后续聚类工作,结合聚类层构建完整的基于语义增强的深度文本聚类模型,提升聚类性能。本文在五个真实数据集上的进行了广泛的实验验证,实验结果表明,SEVAE模型的NMI指标在BBC,Reuters-1500,Abstract,Reuters-10k,20news-l这5个真实文本数据集上分别提升8.92、7.43、8.73、4.80和6.14个百分点。针对聚类过程中增强语义利用率低以及质量不佳的问题,ASEC首先设计了一个同时优化文本语义表示和聚类结果的语义增强聚类框架,该框架在SEVAE语义增强的基础上,也将增强语义融合到文本的重构期望中,提升了增强语义在整个聚类过程中的利用率。其次,ASEC还设计一个增强语义评估器,并构建一种自适应优化策略,该优化策略利用自适应训练的思想,实时地优化文本聚类过程中融合的增强语义的质量,使学习出的文本语义表示的语义完整性和模型的聚类性能始终保持在目前迭代状态最优。本文进行了广泛的实验验证ASEC的性能,实验结果表明,ASEC模型的NMI指标在BBC,Reuters-10k,Abstract这3个文本数据集上分别提升8.79、6.60和0.49个百分点。
其他文献
作者测定了1984年从黄河口区和挑河口区采集的十九种海洋生物的砷含量。把这些测定结果同水样及沉积物分析数据结合起来,结果表明该区尚未受到砷污染。
<正>1963年一个工人完全扎断的右手被接活1963年,车厂冲床工人王存柏在工作中被机器切断了右手,面临永久性残疾的风险,被送到上海市第六人民医院急诊时,骨科主治医师陈中伟当即做了一个决定——将断手接上。当时,完全的断肢再植在国内外还从来没有过成功的先例。断肢再植是一种非常精细且复杂的手术,在当时还没有手术专用的显微镜,这台手术对手骨、神经、肌腱以及小血管的对接都是在肉眼下完成的。当时医院没
<正>2022年《义务教育艺术课程标准》的出台,首次提出了义务教育阶段的艺术课程核心素养概念。新课标与《高中艺术课程标准》一脉相承,有力地促进了中小学与高中艺术课程的衔接。笔者在音乐校本实践研究的基础上,确立了“核心素养视域下《义务教育艺术课程标准》的音乐教学实践与策略”这一课题,以期为中小学音乐教师的教学提供参考。
<正>占地球表面71%的海洋,与湿地、森林一起构成地球三大生态系统。每个人印象中的海洋都不同,生活在渤海、黄海沿海地区的居民见到的海洋是黄色的,还有淤泥质海滩;生活在海南三亚、青岛等沿海地区的居民见到的海洋是蓝色的;而生活在辽宁盘锦沿海地区的居民还能见到红色海滩,这一处处自然景观无一不是自然环境与人文景观的完美结合。
<正>非洲猪瘟疫情暴发以来,我国养猪业遭受到巨大打击。疫情后,生猪存栏持续短缺、猪肉价格长期处于高位促使规模猪场纷纷积极展开复产复养或扩大生产规模。截至2021年年底,辽宁省设计年出栏5000头以上猪场约350家,设计年出栏2001~5000头猪场约500家,设计年出栏500~2000头猪场约4000家。中小规模猪场仍是生猪生产的主力军,但其管理水平和生产成绩却参差不齐。
目的:探究抗角质蛋白抗体(AKA)、抗环瓜氨酸肽抗体(CCP)、血清类风湿因子(RF)联合检测对类风湿关节炎(RA)的诊断价值。方法:回顾性分析、收集2018年6月-2021年12月抚州市中医院接收的45例确诊为RA患者病历资料,另收集同期抚州市中医院接收的45例确诊为非RA自身免疫疾病患者病历资料,通过查阅资料,患者入院时均在抚州市中医院接受AKA、CCP、血清RF检测,分析AKA、CCP、血清
目的:观察纳布啡预防性镇痛对下肢骨科手术术后患者疼痛和血流动力学的影响。方法:选取2021年1月至2022年5月在徐州医科大学附属淮安医院择期行下肢骨科手术的患者116例,按随机数字表法将患者分为对照组(NS组)、纳布啡低剂量组(0.1 mg/kg,N1组)、纳布啡中剂量组(0.2 mg/kg,N2组)、纳布啡高剂量组(0.3 mg/kg,N3组),每组29例。所有患者均在蛛网膜下腔阻滞麻醉下进行
作为外语教学的重要组成部分,写作发挥着重要的育人功能。针对当前写作教学存在的割裂化、套路化、浅表化等问题,本文提出从单元整体教学视角下设计和实施写作教学的理念和实践策略,并结合教学案例,阐述了基于这些理念和策略的实践运用。
目的 探讨菖蒲郁金汤治疗儿童抽动-秽语综合征(Tourette syndrome,TS)的可能作用机制。方法120只SD幼龄大鼠随机分为空白组(30只)和造模组(90只),造模组采用亚氨基二丙腈(IDPN)进行造模,造模成功后,再次随机分为模型组、硫必利组、菖蒲郁金汤组,每组30只。硫必利组给予硫必利药液(3.194 mg/mL)、菖蒲郁金汤组予以菖蒲郁金汤药液(5.152 g/mL)、空白组和模