【摘 要】
:
针对现有主题挖掘方法的不足,本文提出一种以句子为粒度的微博主题挖掘方法。首先,以标点符号为依据进行微博文本的句子划分,选择名词和动词为特征词来表征句子;其次,以高频
【基金项目】
:
国家自然科学基金资助项目“社会化媒体集成检索与语义分析方法研究”(项目编号:71273194)的研究成果之一
论文部分内容阅读
针对现有主题挖掘方法的不足,本文提出一种以句子为粒度的微博主题挖掘方法。首先,以标点符号为依据进行微博文本的句子划分,选择名词和动词为特征词来表征句子;其次,以高频特征词在微博文本集中的共现频次为基础构建词语相似矩阵,辅助计算句子相似度,构建句子相似矩阵;然后,以句子相似矩阵为基础进行聚类分析,通过分析聚类结果实现主题发现;最后,利用改进的LexRank算法计算各主题句子的重要度值,组合重要度值高的句子生成主题摘要,以完成对主题的描述。文章通过实验证明了该方法的可行性。
其他文献
在高等教育事业快速发展的今天,高等教育内涵式发展成为时代的主旋律,制度建设以校院两级体制为重点;人才培养当以教师内涵发展为主旨;团队建设则应以科研为导向;师资队伍建
目的:综述脂联素和高分子质量(HMW)脂联素在糖尿病治疗方面的研究进展。方法:介绍并总结了脂联素及其胰岛素的敏感性和改善胰岛素敏感性的分子生物学机制,以及HMW脂联素在胰
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
文章结合水泵机械的内部制造原理和工艺设计进行分析,对水泵壳体零件的机械加工工艺进行介绍,并对影响机械工艺的制造精度的影响因素进行分析,在机械制造尤其是类似于水泵这
钢框架结构是现代工程建筑施工的主要构成部分,以钢筋作为主要材料,具有轻便、灵活的特征。基于此,结合数字化建筑结构软件代表ANSYS技术,对钢框结构实际应用的抗震能力进行
对太原市64名孕妇头发中锌、铜、硒三种微量元素的含量及其影响因素进行了分析。元素的测定结果由核工业部第七研究所提供。结果表明,孕妇发锌低于正常值,差异显著,另外地19名生产畸
下班,又堵车了,街道上铺着连绵不绝的汽车长龙,夹杂着焦躁的喇叭声,无比壮观。
“后印象派”一词是在20世纪20年代之后被普遍使用的,被用来泛指印象派之后在观念和实践上与印象派相左的艺术潮流。“后印象派”画家曾一度受到印象派画风的影响,但又不满足
伴随着我国交通体系的发展,高速公路建设施工项目越来越多.由于我国地质地形条件复杂多样,使得高速公路修建难度大、周期长.通过阐述BIM技术的定义,探讨了BIM技术在高速公路