论文部分内容阅读
为规避审查,互联网中经常使用同音、形似、谐音等替代真实词汇谈论同一主题,需要有相应的表达、识别和检测机制。一个主题通常包含多个关键词,引入词网,根据相关词汇对主题进行索引。当一个词语被提及时,其所属的主题热度也相应增加,并增加与其相关联词语的出现频率和主题热度。引入各向异性扩散(anisotropic diffusion)方程作为热度扩散标准。实验结果表明,该检测方法所得结果与人工标注结果匹配度较高。