基于LDA模型和Doc2vec的学术摘要聚类方法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:wj963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息
其他文献
新课程理念要求教师必须从“工匠型”转变为“专家型”,最大限度地提高教学质量。要想做到这一点,广大教师必须积极转变思想,对传统的教学模式进行大胆改革和创新。本文对小
冬小麦-夏玉米一直是黄淮海两熟区的主要种植模式,近年来由于气候变化,冬季冻害和干旱时有发生,为了充分发挥玉米C4作物高光效、高资源利用效率的特点,探索了双季玉米的新型
目的探讨小牛脾提取物注射液(CSEI)对人肺癌细胞A549增殖及放射敏感性的影响。方法分别采用不同浓度的CSEI及不同放射剂量处理A549细胞48 h后,用MTT法和平板克隆实验检测细胞
为确定彩色马铃薯薯块花青素含量、单株产量和商品薯率3个重要性状的QTL位点,以四倍体彩色马铃薯‘黑美人’בMIN-021’杂种F1代分离群体的210个单株无性株系及其亲本
音乐教育家柯达伊曾经说过:"有了歌唱的基础,更高层次的音乐教育就能得以发展……如果首先学习歌唱,然后学习其它,将使学生具有多种音乐能力的准备"。要在歌唱教学中达到美的教
现代学徒制人才培养是深化产教融合、校企合作的有效途径。文章首先分析了煤矿开采技术专业现代学徒制存在的问题。然后阐述了煤矿开采技术专业现代学徒制实践:改革人才培养
基于守恒方程组,建立了喷口电弧与PTFE蒸气相互作用的数学模型,并用该模型对SF6自能膨胀式断路器的开断过程进行数值模拟.结果表明:开断电流的大小对膨胀室内的压力有明显的
"校企合作、工学结合"模式在中职工科类专业已有成熟的实践经验,通过调研,分析了电子商务专业校企合作的现状。宁波市职业技术教育中心学校在开展电子商务专业模块化课程改革的
了解和比较LED性能似乎并不复杂:获得数据表,比较光输出、效能和光通维持率的数值,然后作出决策。遗憾的是,任何购买和设计决策如果仅仅基于前面几页规格的最佳数值,而不分析LED在