论文部分内容阅读
数据广播是近年来所兴起的信息服务的新领域,它整合了互联网和广播电视网,它可以取所有网站作信源,取数字电视做信道,把网站内容整体推送到家。它继承了前两种媒体的长处(信源丰富、传播广阔),又避免了各自的短处(传播信道拥挤、不能保存随时查看),是一种全新的文化工具。随着数据广播业务的开展、广播数据类型和数量的增长,需要有一个系统帮助用户从大量的信息中选择和抽取自己所需要的信息,本项目就是为满足这种需求所提出来的。
本项目的设计目标是研究和实现能够主动收集和处理广播数据的系统,本文首先利用组播和数据广播的原理实现了一个数据广播的模拟播出和接收系统,在这个系统的基础上,扩展了主动数据库的主动机制,使之能够灵活的嵌入到我们的系统中,最后设计了一个广播数据的快速过滤器,使用户能够快速的过滤掉无用的信息。
主动数据库能够自动对内部的或外部的状态变化进行反应,而无需用户干预,本文扩充了主动机制并把它用于广播数据接收系统的管理,设计了接收系统特有的一些事件、动作和规则,同时采用定义2层优先级的方法来处理规则的冲突。在主动机制的实现上,本文采用了把事件监测器封装到动态链接库的方法,大大提高了系统的可扩展能力。
文本过滤的主要方法包括扩展的检索模型和改造的分类模型。前者主要利用字符串匹配算法,速度快但是精度不高,而后者主要采用文本分类算法,精度高但是速度慢。本文提出了利用2层过滤的方法综合了上述两种方法的优点。第一层是数据包级别的过滤,使用字符串匹配Aho-Corasick算法进行过滤,第二层利用概念层次对整个文本进行过滤。基于概念层次的快速过滤算法是本文的创新点之一。
通过实验我们可以看出,利用概念层次树来进行快速过滤,能达到50%以上的过滤效果和97%以上的准确度。同时又能够保证过滤时间不会太长。