面向短文本内容的热点话题发现与预测方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:minyii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断革新,网民日常交流的形式越来越多样化。微博作为一种新型网络媒体,每天产生海量的文本信息,这些信息包含了对若干热点话题、事件的描述。用户能够及时从海量信息中了解社会事件热点及趋势成了亟待解决的问题。因此,在怎样解决智能化的整合海量繁杂的微博文本信息,并及时从海量信息中迅捷高效地提炼出微博热点话题这一方面,拥有很好的现实意义,也有助于企业更好的把握用户需求。因此,本文针对现有的话题热点发现方法在处理微博文本数据时数字化表示不够精确、话题发现和预测效果较差的问题,设计了更为高效地热点话题发现及预测方案,重点在微博短文本数字化表示、短文本聚类、微博短文本中的热点话题评估及预测等方面进行深入研究。主要工作包括下述三个方面:(1)针对微博文本分词后存在高维稀疏性导致微博短文本数字化表示不够精确的问题,提出了基于数据采集技术和深度学习技术的微博短文本数字化表示方案。该方案首先设计了基于数据采集技术调用微博官方平台提供的应用程序接口 API(Application Programming Interface)并融合了定制化爬虫算法进行微博数据获取的方案;然后结合深度卷积生成式网络 DCGAN(Deep Convolution Generative Network)和分词后的编码 OHH(One-Hot-HMM)优势,提出了基于深度卷积生成式网络的文本数字化表示模型T-DCGAN(Text Feature Model of Deep Convolution Generative Network),该模型首先设计了基于信息统计的词条互信息MIW(Word of Mutual Information)算法来计算微博文本词间的信息关联性,其次设计了基于向量矩阵的微博文本表示的词向量矩阵SW-VSM(Subsidiary Word to VSM)算法来表示微博文本,接着通过DCGAN对微博词向量矩阵进行学习,学到微博文本的特征表示,T-DCGAN模型能够提高微博文本数字化表示的精确性。(2)针对传统Kmeans算法对输入初始中心点敏感的缺陷导致微博热点话题发现效果不明显的问题,提出了基于数据挖掘技术的微博文本内容热点话题发现方案。该方案首先设计了基于统计的微博文本频繁项挖掘算法IDSS(Item Space Saving Data)算法来统计微博词条的频繁项,然后提出了基于微博文本距离的微博短文本聚类算法SSDKmeans(Space Saving Distance Kmeans)来划分微博话题类别,最后设计了基于微博话题时间跨度因子的话题热度统计 ITFH(Heat Statistics Based on Microblog Information Time Span Factor)算法来统计话题集中的话题热度,该方案能够高效地发现微博文本内容中的热点话题。(3)针对微博文本热点话题热度趋势预测不够准确的问题,提出了基于概率图非线性条件随机场的微博文本话题热度趋势预测NLCRF(Topic Prediction of Nonlinear Conditional Random Field Based on Probability Graph)模型。该模型首先设计了基于图论的微博文本词图聚类MMGC(Microblog Text Graph Clustering Method)算法来获取微博热点话题的集合,接着设计了基于概率统计的微博话题前区预测PTFA(Prediction Algorithm of Topic Front Area)算法和基于路径回溯的微博话题后区预测PTBA(Prediction Algorithm of Topic Back Area)算法来获取微博热点话题的热度趋势,得到一组话题热度趋势的状态序列。NLCRF模型能够高效地预测微博热点话题的热度趋势。最后,通过真实微博数据集进行大量的实验,表明本文提出的方案相比于传统的方案能够对微博文本内容数字化表示更加精确、高效地发现与预测微博热点。因此,本文设计的方案能够智能化地从迅速生成地海量微博文本信息中发现热点话题,以及对微博文本话题热度趋势进行较为准确的预测,进而更加及时高效地了解到最新的社会探讨问题的热点、舆论趋势,规避不必要的风险。
其他文献
长时序植被动态监测是研究陆地生态系统过程和全球变化的重要环节,定量研究植被分布及变化的影响因素是当前植被生态研究的一个热点。本研究以黄河流域为研究对象,基于GIMMS NDVI数据和多源辅助数据,采用集合经验模态分解方法,分析了1982~2015年黄河流域植被NDVI的非线性变化趋势和阶段性变化特征;使用相关分析方法探讨了流域月尺度植被变化对气候因素的时滞响应,以及年尺度植被生长对水热条件响应特征
肺癌是目前我国发病率和死亡率最高的恶性肿瘤疾病,并且发病率呈增长趋势,严重威胁我国居民的健康和生命。然而肺癌的发病诱因目前尚不完全明确,也很难在发病早期察觉,因此尽
随着化石能源的日益枯竭以及环境的逐渐恶化,全世界均面临着能源和环境危机。糠醛作为一种重要的有机化工中间体和生物质平台化合物引起了研究者们广泛的关注,所以其在生产过
目的:通过胆汁反流性胃炎(bile reflux gastritis,BRG)临床观察量表建立数据库,运用多元统计方法分析本病发病的相关因素,并探究本病的证型及证候分布规律,为本病的辨证论治提供参考依据,并促使中医辨证规范化、客观化。方法:通过查阅书籍文献、指南和咨询专家,制订《胆汁反流性胃炎临床观察量表》,对2017年02月-2018年12月于山东中医药大学附属医院脾胃病科就诊200例符合纳入标
高超声速飞行器由于其具有高速飞行能力、突防能力强、大空域飞行的特点,故在军事和民用方面等领域都有着非常好的应用前景。因此,高超声速有关的技术得到了快速的发展,并逐
随着我国经济的发展,环境与能源成为人们日益关注的问题。在纺织企业中,许多生产环节都存在能耗较高的问题,尤其是在空气调节单元中,其能耗损失占了相当一部分比例,而在空气
随着并网型风电场的规模的逐渐扩大,风电场异常运行的事件越来越多,机网间机械和电气振荡对电力系统稳定性产生影响,有必要对机网和场网间相互作用进行研究。针对当前主流的
图像增强技术广泛应用于人类的生产生活中,尤其是在公共安全、工业生产和航空航天等领域,由此表明研究图像增强技术具有重要意义。在数字图像的获取过程中,天气阴晴、光照强度和拍摄角度都会对生成的图像质量造成不良影响,导致其亮度、对比度较低。如今,基于Retinex理论的各类相关算法,不仅在增强图像亮度上有显著效果,还可以实现局部细节识别。但是存在图像色彩信息丢失、饱和度低以及局部光晕严重等问题。本课题基于
近年来全球规模的能源、环境问题越来越突出。其原因是化石资源的枯竭导致能源危机,而伴随大量的消耗产生的二氧化碳、氮氧化合物、硫氧化合物则导致环境恶化。为了改善这些问题,我们将氢气能源作为代替能源,使用自然能源从水中制造氢气。在光催化材料中,半导体材料由于其独特的特性一直被广泛应用,有望在解决上述问题中发挥重要作用。半导体粒子的尺寸小时,这种微粒是半导体团簇,团簇的光物理性质表现出量子尺寸效应。MoS
白蛋白(albumin,ALB)是一种血清蛋白,仅在肝脏中表达,占肝脏新合成蛋白的5%~10%。本研究前期发现,白蛋白基因与雏鸭肝炎病密切相关,可作为雏鸭肝炎病的抗性标志基因,其表达具