基于跨语言神经主题模型的汉越新闻话题发现方法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:ddnihaoba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻
其他文献
词嵌入技术在文本情感分析中发挥着重要的作用,但是传统的Word2Vec、GloVe等词嵌入技术会产生语义单一的问题。针对上述问题提出了一种融合情感词典与上下文语言模型ELMo的文本情感分析模型SLP-ELMo。首先,利用情感词典对句子中的单词进行筛选;其次,将筛选出的单词输入字符卷积神经网络(char-CNN),从而产生每个单词的字符向量;然后,将字符向量输入ELMo模型进行训练;此外,在ELMo
摘要:随着科学技术的发展,电气自动化逐渐在建筑工程中普及。在建筑工程中安装电气自动化设备是合乎消费者需求的,也是合乎时宜的。本文就是在这个大背景下完成的,首先从建筑工程电气自动化的发展现状入手,介绍了我国建筑工程电气自动化的发展概况,进而分析了电气自动化对于建筑工程的重要作用,然后根据实际情况,简要概括了建筑工程中电气自动化存在的隐患,最后剖析了建筑工程中的电气自动化安装的要点,对建筑工程中的电气
期刊
现今无人机有着广泛的应用,但由于无人机自身噪声大,使得使用无人机拾音,从而实现无人机语音系统成为难题.论文针对无人机的噪声特征,综合比较多种语音降噪方法,提出了一种基于维纳滤波的无人机语音系统的实现方案.并且基于WebRTC协议实现流媒体传输,进而实现了无人机与地面站的实时信息交互.论文搭建由四旋翼无人机、麦克风阵列开发板等构成的硬件平台,应用维纳滤波降噪算法以及WebRTC技术,实现了无人机语音系统的降噪以及音视频交互,最终完成了无人机语音系统的设计与实现,为无人机噪音下的语音降噪提供了一种解决方案.
对社交网络上的海量文本信息进行情感分析可以更好地挖掘网民行为规律,从而帮助决策机构了解舆情倾向以及帮助商家改善服务质量。由于不存在关键情感特征、表达载体形式和文化习俗等因素的影响,中文隐式情感分类任务比其他语言更加困难。已有的中文隐式情感分类方法以卷积神经网络(CNN)为主,这些方法存在着无法获取词语的时序信息和在隐式情感判别中未合理利用上下文情感特征的缺陷。为了解决以上问题,采用门控卷积神经网络
“十三五”以来,住房城乡建设行业深入贯彻实施国家创新驱动发展战略,坚持新发展理念,围绕绿色发展,不断优化科技创新环境,统筹科技资源配置,持续推动科技成果的示范应用与推广转化,取得了一批前瞻性、引领性、实用性科技成果,行业科技实力和创新能力显著提升,科技创新的供给能力显著增强,为推动住房和城乡建设高质量发展,促进建筑业向绿色化、工业化、智能化转型升级提供了科技支撑.
期刊
针对现有语义分割算法参数量过多、内存占用巨大导致其很难满足自动驾驶需要等现实应用的问题,提出一种基于可分离金字塔模块(SPM)的新颖、有效且轻量的实时语义分割算法。首先,利用特征金字塔形式的分解卷积和扩张卷积来构建瓶颈结构,从而以一种简单但有效的方式提取局部和上下文信息;然后,提出基于计算机视觉注意力的上下文通道注意力(CCA)模块,来利用深层语义修改浅层特征图通道权重优化分割效果。实验结果显示:
多标记特征选择已在图像分类、疾病诊断等领域得到广泛应用;然而,现实中数据的标记空间往往存在部分标记缺失的问题,这破坏了标记间的结构性和关联性,使得学习算法难以准确地选择重要特征。针对此问题,提出一种缺失标记下基于类属属性的多标记特征选择(MFSLML)算法。首先,通过利用稀疏学习方法获取每个类标记的类属属性;同时基于线性回归模型构建类属属性与标记的映射关系,以用于恢复缺失标记;最后,选取7组数据集
针对推荐算法中的数据稀疏问题,通常引入社交数据作为辅助信息进行社会化推荐。传统的社会化推荐算法忽略用户的兴趣迁移,导致模型无法描述用户兴趣的动态变化特征,也忽略了社交影响的动态特性,导致模型将很久以前的社交行为与近期社交行为同等对待。针对这两点提出一种社交信息动态融合的社会化推荐模型SLSRec。首先,利用自注意力机制构建用户交互物品的序列模型,以实现对用户兴趣的动态描述;然后,设计具有时间遗忘的
摘要面对中国城市化的大课题,“城市绿色生态”已成为当今城市生态文明的本质体现,作为城市可持续发展的基本要素与条件,摆在我们城市建设者面前。简要阐述“绿色生态城市”的实现离不开多种策略的支持,分析西北地区城市绿化现状及误区,论述了西北区域城市多元化园林绿化发展的思路,秉承区域协调的理论,并提出改善措施,介绍了垂直绿化及屋顶绿化作为补充形式的建议。  关键词 绿色生态城市:绿色生态基础设施 策略:多元
期刊
为了解决计算机断层成像(CT)稀疏解析重建过程中产生条状伪影的问题,在经典的UNet网络结构的基础上,提出了多残差UNet(Mr-UNet)网络结构,以更好地压制条状伪影。首先,用传统滤波反投影(FBP)解析重建算法稀疏重建出含条状伪影的稀疏图像;然后,将该类图像作为网络结构的输入,且将相对应的高精度图像作为网络的标签进行训练,使得该网络具有很好的压制条状伪影的性能;最后,将经典UNet原先的四层