短文本主题信息挖掘技术研究

来源 :沈阳工业大学 | 被引量 : 1次 | 上传用户:liongliong503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络社交媒体的快速发展,标志着迎来了信息快速变更共享的时代。网络社交媒体与传统的信息行业相结合,开发出许多和生活联系紧密的新应用,提高了人们的使用意愿。短文本信息作为新应用的主要表现形式之一,从中挖掘出有效的主题有重要的意义。目前,主题模型技术已然取得了不小的成果,成为文本信息智能化处理的重要方式之一。但是,由于短文本中文档和词之间的数据比较稀疏,传统模型在对短文本进行主题信息挖掘时,挖掘的效果并不理想。除此之外,利用文本集的词共现信息扩充数据获得主题分布成为短文本主题挖掘的主流方式,诸多研究均基于此种思想进行改进,但是,当前此类主题模型研究中对共现词语的语义较少考虑,本文提出基于语义分析的双词短文本主题模型(Semantic Analysis Biterms Topic Model,SA-BTM),在采用共现的双词获取主题时考虑语义关系对结果的影响。同时本文对与主题挖掘效果联系密切的主题维度确定方式进行了研究。本文的主要工作如下:1)研究共现词语语义关系对主题挖掘效果的影响。本文通过对大量文本数据进行训练,将共现词语用能够表征语义关系的词嵌入向量形式来表示,词语之间的语义关系通过语义相似度进行分析比较。研究对比了采用不同语义相似度区间扩充数据对主题挖掘效果的影响。2)提出了基于语义分析的双词短文本主题模型。通过分析文档中词语的语义关系,适当选取双词,以此为基础进行主题推断。实现了对短文本主题信息的有效挖掘,给出了主题挖掘效果。并与其他模型得出的结果进行了对比。3)提出了主题维度自动确定方法。针对在主题信息挖掘过程中,对挖掘效果影响较大的主题维度目前主要靠经验确定的问题,提出了主题维度自动搜索策略,实验证实可以在主题信息挖掘中快速确定适当的主题维度。本文通过网络爬虫爬取了知乎问题集等大量不同类型的文本构建实验数据集,应用本文提出的模型和方法实现了对主题的有效挖掘以及对主题维度的快速确定,通过与其他模型的对比实验,结果证实本文提出的模型挖掘结果具有更高聚合度。
其他文献
随着互联网的快速发展使得网络中数据的数量急剧膨胀,这带来了珍贵的数据财富。但由于大多数的网络数据为冗余数据,不具有重大价值,这为信息抽取任务带来了极大的挑战。实体
随着科学技术对人类生活的影响逐渐变大,对天空的污染也较之前越来越严重,想在恶劣的天气下获得清晰图像变成了一件很困难的事情。因此,从极端天气中对采集到的图像进行细节
基于径向基函数的优良性质,已经被成功的运用到神经网络、数字图像处理、偏微分方程数值解等方面。径向基函数插值是径向基函数众多应用之一,但是随着径向基函数插值的插值节
移相器是一种能控制射频信号的相位,却不产生能量衰减的微波器件,广泛应用于微波相位测量、通信系统、雷达系统、天线阵列以及微波自动控制系统中。近年来,尽管数字移相器发
伴随着互联网技术的发展以及人们阅读学习方式的变革,在线教育作为新兴的教学评测模式,以其跨空间、跨区域、实时快速、海量共享的特点在国民的学习过程中发挥着越来重要的作
微细铣削加工过程中,刀具的磨损状态直接影响着加工表面质量和加工精度。刀具的过度磨损或破损会显著降低工件的尺寸精度,甚至导致工件报废,因此掌握刀具磨损状态,及时换刀或
随着工业发展的进程,煤与石油等非再生能源的不断消耗,废气中的二氧化碳造成的环境影响也越来越大,其处理方法受到各国的关注。在生物科学的迅速发展中,有研究发现某些生物具
随着铁路事业日新月异的发展,一大批客运专线陆续投入使用,方便了人们的出行,但同时列车的运营安全也越来越受到人们的重视。在众多影响列车安全运营的因素中,异物入侵因突发
蛇纹石是一种含水的富镁硅酸盐矿物的总称,我国有着丰富的蛇纹石矿产资源。其主要成分是硅酸镁,常伴生有铁、镍、钴、铬及少量的铂族元素(如铂、铑、铱)等。在一些蛇纹石矿中有
目标检测与跟踪一直是计算机视觉领域研究的重心,在无人驾驶、视频监控等领域应用广泛。由于视频中光照的变化、目标的阴影、目标之间的遮挡、目标的消失与新生等因素,让目标