论文部分内容阅读
微博是近年出现的新型互联网信息交流平台,它具有主题分散、体量短小、文体自由等特性,它能对社会产生巨大的影响,所以信息监管部门和商业企业对基于微博信息的舆情分析都有迫切需求.提出基于搭配的文本聚类新方法,该方法先进行微博文本预处理,然后利用词类模型进行自动抽取有效搭配,最后基于有效搭配的模型进行文本聚类.实验证明利用词类文本聚类方法比传统文本聚类方法性能提高6.3%,而本文方法比利用词类文本聚类方法性能提升了16.8%,结果显示了本方法的有效性.