论文部分内容阅读
文章通过有效的特征信息逼近策略,针对通过互联网发送的不良短消息给出了一种识别的方法。该方法采用经典的统计自然语言处理(SNLP)方式,抽取训练语料中的特征信息,并以特征信息为中心词,学习该词性链上的词性搭配关系,生成特征信息的词性转移表作为系统知识。在处理实际的短消息时,根据已有知识获得它的有害度评测值。据此开发的识别色情信息的实验系统,召回率及准确率分别在90%和80%以上。