基于主题模型的微博话题检测算法

来源 :网络与信息安全学报 | 被引量 : 0次 | 上传用户:xingyu9404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型(VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,对微博数据构建文档词条矩阵和词语关联矩阵来提取主题词;然后,对主题词进行聚类,得到主题模型;最后,利用文本与主题模型相互匹配实现文本聚类,从而达到话题检测的目的。实验结果表示,该算法能有效地进行话题聚类并检测出话题,在最佳参数组合条件下,其各类别的平均F值达到95%以上。
其他文献
据农业部农情调度显示,截至2010年10月14日,全国已播冬小麦1.89亿亩,这为今后一段时间小麦价格运行在一个平稳的宏观环境中奠定基础。
<正> 俗话说:&#39;有人识得路边草,致富之路走定了。&#39;此话一点不假,一个人只要掌握一技之长,何愁不能致富。伐木后的如栗树类、栎树类、柳树、杨树、榆树、构树、桑树等
1.堆垛贮藏法。留种数量较多的品种可用麻袋包装,按品种堆垛贮藏,每堆下面应有垫板,以利通风。堆垛高度一般不宜超过6袋,细小种子不宜超过3袋,隔一段时间要翻动一下。否则,底层种子
使用控制模型UCON是高度分布式、网络化的异构开放式计算环境下实现数字资源保护的新型访问控制模型。首先,利用态式时间进程代数TCSP#建立了每个UCON核模型的形式化规约,以
为了使层次式无线传感器网络传输更安全、节点寿命更长、网络运行效率更高,提出了一种基于LEACH协议的WSN共享密钥管理方案。该方案具有很好的方案完整性与时效性、动态密钥
尊敬的《农家致富顾问》杂志社:贵社所赠的期刊,我单位均已如数收阅,非常感谢您社对广州市海珠区南华西街“全国百家期刊阅览室”的鼎力支持和帮助!您社赠送的优秀期刊,对推进南
提出一种"小云审大云"的云平台可信评测架构,通过引入独立第三方对云平台的可信性进行动态、实时的远程可信数据收集、验证、审计和评价。采用数据流可视化、监控与脱敏技术保
2010年4月国内产区菜籽油价格稳中有升,在国内油菜籽减产,油菜籽最低托市价提商的背景之下,菜籽油市场走势如何呢?