论文部分内容阅读
网络社交媒体的快速发展,标志着迎来了信息快速变更共享的时代。网络社交媒体与传统的信息行业相结合,开发出许多和生活联系紧密的新应用,提高了人们的使用意愿。短文本信息作为新应用的主要表现形式之一,从中挖掘出有效的主题有重要的意义。目前,主题模型技术已然取得了不小的成果,成为文本信息智能化处理的重要方式之一。但是,由于短文本中文档和词之间的数据比较稀疏,传统模型在对短文本进行主题信息挖掘时,挖掘的效果并不理想。除此之外,利用文本集的词共现信息扩充数据获得主题分布成为短文本主题挖掘的主流方式,诸多研究均基于此种思想进行改进,但是,当前此类主题模型研究中对共现词语的语义较少考虑,本文提出基于语义分析的双词短文本主题模型(Semantic Analysis Biterms Topic Model,SA-BTM),在采用共现的双词获取主题时考虑语义关系对结果的影响。同时本文对与主题挖掘效果联系密切的主题维度确定方式进行了研究。本文的主要工作如下:1)研究共现词语语义关系对主题挖掘效果的影响。本文通过对大量文本数据进行训练,将共现词语用能够表征语义关系的词嵌入向量形式来表示,词语之间的语义关系通过语义相似度进行分析比较。研究对比了采用不同语义相似度区间扩充数据对主题挖掘效果的影响。2)提出了基于语义分析的双词短文本主题模型。通过分析文档中词语的语义关系,适当选取双词,以此为基础进行主题推断。实现了对短文本主题信息的有效挖掘,给出了主题挖掘效果。并与其他模型得出的结果进行了对比。3)提出了主题维度自动确定方法。针对在主题信息挖掘过程中,对挖掘效果影响较大的主题维度目前主要靠经验确定的问题,提出了主题维度自动搜索策略,实验证实可以在主题信息挖掘中快速确定适当的主题维度。本文通过网络爬虫爬取了知乎问题集等大量不同类型的文本构建实验数据集,应用本文提出的模型和方法实现了对主题的有效挖掘以及对主题维度的快速确定,通过与其他模型的对比实验,结果证实本文提出的模型挖掘结果具有更高聚合度。