基于HDP的主题词向量构造——以柬语为例

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:nicolas6520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。
其他文献
期刊
自控飞艇正在得到日益广泛的应用,地面指控系统是自控飞艇控制系统的重要组成部分,本文就其所涉及的关键问题和开发技术进行研究。论文分析并论述了满足无人飞艇应用需求的地
新近年链霉菌分子遗传学研究中以A因子(A-factor)为代表的自调节物质对链霉菌形态发育、抗生素产生的调控的分子机制及双组分调节系统的研究等方面作简要概述。A因子调节链霉素产生的级联
语音转换在教育、娱乐、医疗等各个领域都有广泛的应用,为了得到高质量的转换语音,提出了基于多谱特征生成对抗网络的语音转换算法。利用生成对抗网络对由谱特征参数生成的声
美国FDA于2006年9月3日批准Bayer Corporation提出的几个环丙沙星仿制药(i.v.)的注册申请,以增加廉价仿制药物在美国的市场份额,为美国患者提供更多、更廉价的治疗选择,减轻其医疗负
彼得·杜拉克生于1909年,是20世纪主要的管理和商业思想家。杜拉克是个多产的作家,甚至在其80岁时还如此,他的工作是全方位的。与他同时代的管理者们只有一件事可做,那就是思
11月20日,中国银行金融科技中心和林格尔园区奠基仪式暨中国“金融云谷”启动仪式在内蒙古和林格尔新区举行。自治区政府副主席黄志强,中国银行行长王江、首席信息官刘秋万,
随着互联网技术的发展,互联网服务器集群的负载能力正在面临着前所未有的挑战,实现合理的负载均衡策略尤为重要。为了使负载均衡达到最佳的效率,可以使用一致性哈希算法来对
近年来,在党中央、国务院的高度重视下,经各方共同努力,高校收费管理工作不断加强,收费行为日趋规范,乱收费势头得到一定遏制。但是随着高等教育改革和发展的不断深化,高校为