【摘 要】
:
微博中热点事件的话题检测与表述是微博网络舆情研究的重点问题。针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通
【机 构】
:
北京信息科技大学智能信息处理研究所
【基金项目】
:
国家自然科学基金资助项目(61772081)
论文部分内容阅读
微博中热点事件的话题检测与表述是微博网络舆情研究的重点问题。针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM模型和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。
其他文献
以往对于语篇的研究主要是从批评话语分析和语用学的角度出发,着重进行西方政治语篇研究或中西方政治语篇的比较研究,旨在揭示语篇背后的潜在意识形态。很少有研究专门探讨概
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的探讨鼻用糖皮质激素联合鼻腔冲洗治疗变应性鼻炎的临床疗效及对小气道功能的影响。方法选取自2016年10月至2018年10月于解放军967医院兴工街院区就诊的变应性鼻炎患者98
目的调查专业型硕士研究生"双轨合一"模式培训的效果,为专业型硕士研究生培训制度的完善提供依据。方法采用回顾性研究,调查分析专业型硕士研究生的结业考核结果,统计30个专
我会定于2016年6月10-12日在广东迎宾馆召开2016年广东省医学会放射肿瘤学学术年会。本次大会将以著名专家的专题报告为主,并有反映我省本专业先进水平的专家专题发言。欢迎
中国是一个多民族国家,由56个民族组成。中国55个少数民族的音乐发展形式是多种多样的,也是各具特色的,其在中国音乐历史发展中的地位和作用是不可忽视的,推动着中国多元文化
对填埋气的回收利用,既能减排温室气体,又能回收能源。分析了填埋气产生的原理和过程,对目前出现的填埋场产气模型进行了分类,并系统地分析了各种产气模型的计算方法、优缺点以及
<正> 有关麦作文明起源于西亚的历史结论,尽管迄今依然几乎为国际学坛所公认,然而这并不等于最终排除了多倍体普通小麦栽培分系起源的任何可能性。因为仅以中国的考古学发现
计算机是人们日常生活和工作的必要工具,它的安全与否直接影响人们的生活和工作。文章在充分分析了计算机网络通信安全上存在问题的基础上,提出了计算机网络通信安全上的防范措
“夜思”校园文化创意产品是由大连大学学生自发组织的校园文化创意实践项目,已成为宣传校园文化的有效途径,能够塑造校园形象的品牌,同时也能够实现一定社会效益。本文我们