基于Huffman-LDA和Weight-Word2vec的文本表示模型研究

来源 :长春理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:reefstone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用
其他文献
长输管道建设中,焊接是制约施工速度和施工质量的关键环节。自动焊焊接质量高、速度快、经济性好、对焊工的技术水平要求较低,大大加快了管道敷设的速度。调研并总结了目前国内
深入研究了金属链式无级变速器传动机理和其锥盘V型结构的轴向加压原理.通过对锥盘夹紧力、推力关系等方面的研究,建立了锥盘动力传动特性的数学模型,仿真出加压机构的理论加
介绍开口冷弯型钢在建筑材料方面的应用,新型屋面板用开口冷弯型钢断面图及其成型辊花图。
随着一体化课程教学模式的推广,在技工院校越来越多的专业逐步走向了一体化教学改革的行列。从众多专业形成的成功经验来看,一体化教学确实是技工院校教学发展的趋势和目标。
为减少由等厚度熔覆层成形引起的阶梯效应,提出变扫描速度和不等高搭接方法打印变厚度熔覆层.基于光栅扫描路径,建立了变厚度切片模型,并与等厚度熔覆层成形工艺对比,分析了
目的回顾性分析新疆老年骨折患者损伤特点。方法利用图片存档及通信系统( PACS)和病案查询系统,整理并分析新疆2010年1月至2011年12月诊治的2454例老年骨折患者影像及病历等资
本文通过问卷调查收集数据,以应用型本科院校学生为受试,探讨英语听力水平和歧义容忍度之间的相关性。研究发现,学生听力水平和歧义容忍度水平整体偏低;听力高、低分组的学生
阅读教学作为语文教学的半壁江山,随着课改的深入,新的课程理念给阅读教学带来了新的挑战。如何提高小学生的阅读能力?笔者在这方面不断研究、探讨,取得了良好的效果。文章从
方矩形管成型有两种方法,一种是先成圆管再成方矩形管;另一种是直接成方矩形后再焊接. 后者无论焊缝是留在圆角上还是在其它位置上,焊缝闭合情况都不是很理想,成型过程不稳定
传统语音识别系统中,基于循环神经网络的语音声学模型对长距离历史信息记忆能力有限,难以利用语音的上下文相关性信息,标准长短时记忆单元参数规模庞大,神经网络训练收敛速度