增强文本特征表示的短文本主题建模方法

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:su18tt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交媒体和电商的快速增长,诸如微博、朋友圈、以及商品评论等在线应用创造了大量的短文本,但如何高效地挖掘短文本中有价值的知识仍然是一项具有挑战性的工作。主题模型是一种高效的常规文本(normal texts)数据的建模方法,它通过发现文档级别的词之间的共现信息来挖掘文本的主题结构,,共现模式以很高的概率捕获了词对一起出现的趋势,然而,直接将传统的主题模型方法应用到短文本时,由于短文本固有的稀疏性,传统方法会遭遇共现模式不足的问题。此外,主题模型一般基于词袋假设(bag of words)表示文本特征,在该表示法中,词的上下文和顺序信息被忽略,使得文本表示中词的语义信息严重丢失。另一方面,由于社交短文本具有实时动态性,其数量大规模增长,为了在大规模社交文本上进行高效的主题建模,并捕获社交文本固有的实时特性,需要寻求高效的并行计算模型。针对上述问题,本文进行了探索并完成了以下工作:1.研究了一般文本的特征提取技术,提出一种文本特征构建方法(PSTR),该方法中引入频繁模式挖掘技术,是一种应用模式集合来构建文本新的特征空间从而增强文本的特征表示的方法。该方法充分利用了数据集自身携带的丰富信息,可以在语料库级别捕获词之间的语义关系和共现模式,进而弥补基于词袋假设的稀疏性带来的语义间隔和共现不足问题。2.基于上述工作,本文进一步研究了在新的特征表示下的主题建模方法(PSTR-LDA)。在新特征表示的模式空间中,基于一个模式中的构成词表达了同一个主题内容的假设,提出一个假设,即:一种模式构成词的主题指定同一性,即一个模式是由词构成的,其所有的构成词在主题推论阶段共享同一个主题指定。这种假定可以更加真实地反应词之间的主题关系。其后,本文采用吉布斯采样算法对模型的参数进行推论,在不同类型的文本数据集上进行了多种对比实验,结果表明本文提出的方法挖掘得到的主题具有更高的一致性,在多个度量指标上都优于传统的主题模型和被认为最优的短语主题模型。3.针对大规模的社交文本上的主题建模问题,研究了相关的并行LDA建模方法和能捕获主题动态特性的动态主题模型(DTM),并介绍一种可以在大规模文本集上进行动态主题建模的方法(DC-LDA)。该方法基于数据分解和后期聚类技术:首先,整个语料库基于时间属性被分解成独立的片段,每个片段都是整个语料的一个子片段;然后,分别对每一个子片段进行独立的主题建模,因为这些片段是独立的,因此可以使用高度并行的LDA方法。经过这一步得到所有片段上的主题集合,再使用聚类技术对这些主题进行聚类,完成整个语料上的主题挖掘。因为每一步都可以高效并行处理,因此DC-LDA可用以处理大规模的数据,且执行时间比传统模型少多个量级。在多个数据上的不同度量指标的结果表明,相比于DTM,该方法的执行时间更少并且能有效地捕获主题的动态特性。
其他文献
随着近些年来工作流系统在办公自动化领域的大量应用,如何在流程节点执行的过程中便捷地操作业务数据,成为了业界研究的热点。传统的解决方案因为缺乏工作流节点与数据库数据
信息技术的迅猛发展使人们生产与收集的数据呈现出多视角特性,且单个视角所提供的信息具有不全面性、不充足性,为了更加精确地诠释研究对象,多视角学习技术应运而生。多视角
群智能算法的产生为求解优化问题提供了新的思路,同时也解决了工程技术领域的诸多实际问题。粒子群优化算法是一种经典的群智能算法,因其高效、参数少、易实现等优点被广泛关
本文以广州民航职业技术学院空乘专业学生为调查对象,采用文献资料法、专家访谈法、问卷调查法、实验法、数理统计法、逻辑分析法等开展研究。首先,本人通过对国内外相关文献进行文献综述,对身体功能性训练、空乘专业平衡能力的相关原理进行概述;其次,在空乘专业平衡训练中引入身体功能性训练,运用SWOT分析模型分析其优势、劣势、机遇、挑战;再次,通过身体功能性训练对人体平衡能力影响因素的理论分析和SWOT归纳分析
研究背景体外循环技术刚刚用于临床时,常规使用新鲜血液进行管路预充。血液预充有传染血源性疾病的危险、价格昂贵,而且血液预充容易造成体外循环过程中微循环瘀滞现象和酸中
番木瓜(Carica papoya L.)是我国重要的果树之一,在我国台湾、福建,广东、海南等区域都有大规模的种植,番木瓜环斑花叶病毒(papaya ringspot virus,PRSV)等病毒感染植株后,很难根除,而且它们在番木瓜的生长发育时期都会伴随着,且通过土壤、昆虫、人为因素等传染其他植株,从而对番木瓜的生长发育和果实品质等造成巨大的影响,导致一个番木瓜种植区域的番木瓜产业收成减少80%
近些年来交通拥堵状况日趋严重,造成不可估量的交通安全威胁、环境污染及严重的经济损失等问题,因此缓解拥堵问题刻不容缓。实时检测高速公路拥堵现象,便于交通部门进行监控,
NFC近场支付为用户带来了安全便捷的支付体验。传统的NFC卡模拟是基于硬件的虚拟卡模拟(Virtual Card Emulation),通过在手机中内置安全芯片(Secure Element,简称SE)为交易过
随着网络技术和多媒体技术的快速发展,各种形式的资源蓬勃增长。音乐资源因其独特的形式和作用备受科研者的青睐。高效地实现音乐资源的查找检索是十分必要的。本课题主要研
针对软件系统稳定性和鲁棒性的问题,本文基于软件网络中节点之间的调用关系,引入复杂网络的知识理论,从网络拓扑结构的角度,对复杂软件网络中识别影响力节点算法进行研究,并