论文部分内容阅读
结合微博文本的特点,提出一种基于公共块的“补偿-对称”模型算法。该算法对预处理的微博文本使用word2vec计算词项之间的相似度,并进一步将微博公共词块数量、词项顺序和微博标签话题等融入算法,以对称计算的方式计算微博文本相似度。实验证明,与传统公共块算法相比,该方法对于微博文本相似度的计算更加准确,文本分类准确率和召回率更高。