【摘 要】
:
基于主题翻译模型的短文本关键词抽取方法,均采用LDA(Latent Dirichlet Allocation)主题模型作为主题发现方法,然而LDA在处理特征稀疏的短文本时,主题发现效果较差,使得当前
【机 构】
:
贵州大学计算机科学与技术学院,贵州大学贵州省公共大数据重点实验室
【基金项目】
:
国家自然科学基金项目“基于算法机制设计和平坦化技术的调度算法研究”(编号:61540050), 贵州省重大应用基础研究项目“大数据聚合机制及分析与交易机理研究”(编号:黔科合JZ字[2014]2001), 贵州省科技重大专项计划“智慧法院数据融合分析及集成应用示范”(编号:黔科合重大专项字[2017]3002)资助.
论文部分内容阅读
基于主题翻译模型的短文本关键词抽取方法,均采用LDA(Latent Dirichlet Allocation)主题模型作为主题发现方法,然而LDA在处理特征稀疏的短文本时,主题发现效果较差,使得当前的主题翻译模型存在不完善之处。论文通过将DMM(Dirichlet Multinomial Mixture)模型作为主题发现模型,结合统计机器翻译,提出了一种用于短文本关键词抽取的TTM_DMM(Topical Translation Model based on Dirichlet Multinomial Mixture)主题翻译模型。该模型利用DMM模型发现短文本主题信息,在主题约束下学习词语与关键词的翻译概率,从而提高短文本关键词抽取效果。在真实数据集上的实验结果表明,论文提出的TTM_DMM模型在评价指标Precious、Recall以及F-measure上优于现有的短文本关键词抽取方法。
其他文献
为纪念毛泽东同志《在延安文艺座谈会上的讲话》发表70周年,学习贯彻党的十七届六中全会精神和胡锦涛总书记在第九次全国文代会上的重要讲话精神,落实中宣部关于深入开展"走基
随着数据量的增加,Skyline查询在许多领域具有较高的实用价值。由于传统的Skyline算法在大数据情况下处理效率较低,论文研究了MapReduce编程框架下的Skyline查询算法,通过选
在地震勘探中,描述复杂介质的正演和反演问题通常包含许多反映介质不同特性的参数.同时获得这些参数对进行更准确的岩性描述和油藏预测具有重要的理论和现实意义.为了提高频
地震波走时广泛应用于静校正、层析成像、Kirchhoff偏移成像、地震定位等研究.复杂地表条件是影响走时计算精度的重要因素.近年来,发展的曲线坐标系程函方程为精细刻画起伏地
作为一种新兴产业,我国物流产业起步较晚,当前仍处在初级阶段,如果沿用渐进式升级的产业演化模式,将会持续滞后于物流产业先进国家.本文阐述了先进国家物流产业演化的一般过
应用虚拟现实技术建立虚拟工程训练车间,可辅助学生在工程训练之前初步了解机械制造过程。本文采用MultiGen Creator虚拟建模软件和Vega仿真软件对工程训练车间进行了建模和仿
首先根据智能配送系统的三大服务主体(即货主、运输人员和物流企业)与系统的交互行为进行分析,归纳总结出系统应提供的所有服务活动。通过引入设计结构矩阵模型(DSM),对系统应提
2011年6月12日至19日,由中国文学艺术界联合会、中国杂技家协会共同主办的"纪念建党90周年·第二届中国杂技艺术节"在北京隆重举办。在为期一周的时间中,艺术节举办了第八
11月8日,举世瞩目的中国共产党第十八次全国代表大会在北京隆重召开。胡锦涛同志在大会上所作的报告高瞻远瞩,立意深远,主题突出,内涵丰富,论述精辟,对鼓舞和动员全党全国各族人民