Skip-Gram结构和词嵌入特性的文本主题建模

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:ialyialyialy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之间联系,并将词嵌入的主题特性应用于主题建模的研究.先分析了主题一致性和常见词嵌入的联系,Softmax函数生成的主题-词项分布的特性;然后提出主题分布式假设,并引入Skip-Gram结构描述中心词的主题和相邻词之间的关联,从而充分使用词嵌入向量相似、关联特点挖掘文本主题.在3种公开数据集上的实验表明,该模型方法比较现有神经网络结构的主题模型,在主题一致性、主题词的专有性方面都有显著提高;同时模型的主题嵌入向量和主题代表词嵌入向量间具有很强的相似或关联特性.
其他文献
云资源负载预测是云计算系统体系规划的一个重要组成部分,其预测效果直接影响到云计算系统的经济性和服务质量.为保证基础设施及服务(Iass)模式下资源有效分配和高效调度,实
各位是在恰当的时机选择了一个恰当的工作岗位。希望大家能够在今后交易所的发展过程中,发挥你们的才干,最大限度地发挥作用,实现你们的理想,把深交所建设得更好。 You have
现有大量慢阻肺患者跟电子病历,但偏远地区缺乏相关有经验的医生且患者缺乏对疾病的认识.知识图谱利于知识的展示,利于医生学习新的医学知识,也能普及患者对疾病的认识,因此
按照中央关于农村基层组织整顿和建设的要求,辽宁省黑山县委从本地实际出发,以化解村级债务为突破口,打开了新一轮农村基层组织整顿和建设工作的局面。 明确工作目标 1995年
大豆抗胞囊线虫的表型鉴定工作量较大,鉴定结果易受环境影响,是抗源筛选和抗病品种选育的限制因素之一.不受时间、环境限制的分子标记鉴定为抗病鉴定提供了一种高效快捷准确
随着生物技术的不断发展,越来越多的基因表达数据被获取.为了对这些数据进行聚类分析,本文在深入分析传统的聚类算法之后,提出了双精英遗传聚类算法.该算法通过精英策略来保
推荐系统旨在解决项目的信息爆炸问题并为用户提供个性化推荐.通常,用户交互的历史项目对于用户交互的下一个项目是有着不同的影响的.为此,本文提出一种序列感知深度网络(Seq
目的 探讨2009年北京市甲型H1N1流感发病的地理区域相关性和聚集性,为今后传染病发病的空间自相关性分析提供参考依据.方法 利用OpenGeoDa 1.0.1软件进行空间全局和局部自相关性分析,呈现2009年甲型H1N1流感空间聚集区域.结果 2009年北京市甲型H1N1流感发病分布不是随机的,呈现显著的空间聚集,即高发病区与高发病区邻接,低发病区与低发病区邻接,表现出一定的空间自相关性.全局空
为系统鉴定黄淮海地区大豆种质资源对大豆疫霉根腐病的抗性,本研究采用改进的黄化苗下胚轴接种方法,利用8个大豆疫霉根腐病菌株对2017和2018年从黄淮海地区各育种单位收集的3
对MapReduce和Spark两种框架下的大数据极限学习机进行了比较研究.具体地,从程序运行时间、任务的同步次数、分类器的泛化性能和需要读写的文件数目4个方面进行了比较.得出了