论文部分内容阅读
随着电子邮件的普及,邮件在当今军事情报中所占的比例越来越高。海量邮件中存在的垃圾邮件问题日益突出,其数量急剧增长,内容和形式也千变万化,给情报工作带来了巨大的困扰。邮件中存在的垃圾邮件严重降低了邮件的可用率,使情报工作的效率大大降低,情报检索工作的准确性也受到了严重的干扰。设计一个高效准确的邮件过滤和分类系统,从海量的邮件中提取出有价值的情报,已经成为当前军事情报工作的一个重要课题和迫切要求。现有的情报系统采用的情报过滤和情报检索所采用的方法大部分依赖于词典和关键字搜索。使用关键字搜索,命中率低,效率慢;依赖词典,则存在分词障碍,并且不能有效的抵抗人工干扰。本文对现有的算法在文本过滤和文本分类中存在的问题进行了分析,提出了改进方法,设计了一种速度快、计算简便、性能好、不依赖字典和分词技术的文本分类方法,并在此基础上设计了情报实时过滤分类系统。系统从邮件的预处理、特征选择、相似度计算、文本过滤及文本分类等方面对如何提高邮件和文本的过滤和检索性能进行了研究和探索。实验证明情报实时过滤和分类系统是抗干扰能力强、新词识别能力较好、时空高效的情报平台。其过滤策略能够有效的降低系统中的垃圾邮件含量,提高系统的有价值邮件的含量。基于过滤策略,分类策略也能快速准确的提取出满足用户预设条件的邮件。该系统满足了情报系统对于实时性和海量处理的需求。