论文部分内容阅读
随着近年来数据泄露事件的日益增多,对数据的保护变得越来越重要,要做到对数据的精确保护,首先就要完成对数据的准确识别。传统的做法是使用TF-IDF提取关键词,但是TF-IDF没有考虑文本上下文的关联语义,所以使用TF-IDF提取关键词进行内容态势感知效果并不好。提出使用Word2vec结合TF-IDF算法对基准语料库提取关键词词集,再使用关键词词集进行内容态势感知,实验表明该方案能够得到更准确全面的内容态势感知结果。