论文部分内容阅读
阐述了藏文Web不良信息的特点、类型、危害性,设计了倾向性藏文Web不良文本过滤系统结构.提出一种藏文Web不良文本检索算法.该算法从不良文本中提取倾向性关键词项,根据矩阵奇异值分解方法中的转移概率构造出倾向性关键词项的状态矩阵,提取平面坐标空间第一像限的奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的LSA算法.