论文部分内容阅读
为了减轻新闻工作者的负担以及提高信息标注的准确性,本文针对新闻及相关图片提出了融合彩色描述子和主题模型的自动标注算法.该算法利用彩色的尺度不变特征转换(RGB-SIFT)得到图像的底层特征描述子,通过K均值聚类算法得到图像的视觉单词及词典,利用词频-逆向文件频率(TF-IDF)对新闻的文本信息进行过滤.同时将视觉单词和过滤后的文本信息看作混合文档,利用改进的主题模型对该文档新闻进行自动标注.实验表明该算法提高了对新闻标注的准确率.