信息过滤系统中特征选择算法的研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:tytytytytytytytytyty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息就是当前信息科学技术领域面临的一大挑战。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,可以在较大程度上解决信息杂乱的现象,方便用户准确地定位所需信息。目前,对于信息过滤技术的研究,大多数研究者的精力主要放在各种不同分类方法的研究与改进上。然而,特征选择一直是网络信息过滤中的基础性工作,而且是一项瓶颈技术。因此,对特征选择算法的研究也是十分必要的。目前常用的特征选择算法都直接利用了特征之间的条件独立性假设,通过构造一个评价函数,单独对特征集的每个特征进行评价,但是由于没有直接考虑特征的类别相关性,也没有考虑特征子集的冗余性,这些方法选择的特征子集在类别区分能力上往往存在着冗余,导致最终分类效果不佳。本文主要针对信息过滤系统中特征选择算法的相关问题,在如下几个方面进行了研究和讨论:1、对常用的特征选择方法的优点和缺点进行了分析,并针对存在的不足之处指出了相应的改进方向。本文首先对特征选择技术做了综合分析,并着重介绍了特征选择技术的框架。目前常用的几种特征选择方法各有所长,亦各有所短,文中从计算复杂度和分类效果出发,分析了它们的优缺点,并指出了可能导致的原因所在。另外,根据相关文献资料,列举出了常用特征选择算法的对比实验结论。这与本文最后的实验结果大致相同。2、从特征相关性和冗余性定义出发,提出了一种特征选择框架FSBC(feature selection based on correlation),即把特征选择过程分两步进行:第一步选取类别相关的特征子集;第二步通过冗余分析,去除候选特征子集中的冗余特征,最终获得优化特征子集。首先,选取类别相关特征时,本文根据这样一个原则构造评价函数来选取特征项:如果一个特征项t在一个类别的文档中频繁出现,而在其它类别中很少出现的话,那么该特征项t能够很好的代表这个类别,这样的特征项应该赋予较高的权值,并选来作为该类别的特征词,以区别于其它类别的文档。另外,文中引入了TFIDF权重计算的思想,考虑将词频和文档频率结合起来共同作为评价特征项的依据。其次,进行冗余分析时,本文采用聚类方法中常用的K-Means算法作为去冗余的核心算法,针对该算法中的初始簇中心的选择及初始簇个数的设置问题进行了相应的改进,使类K-Means算法更有效的减少特征集的冗余性。3、最后,将所提出的特征选择策略在网络信息过滤平台上进行了实验测试,并取得了令人满意的测试效果。本文将特征选择框架FSBC应用于网络信息过滤系统,并与信息增益(IG)和CHI统计方法进行了实验对比。实验表明,FSBC方法在准确率和查全率上要好于其它两种方法,尤其在特征维数较高时取得了不错的实验效果。
其他文献
随着Internet网络传输和处理能力的大幅提高,流媒体业务由于其丰富的应用必将会成为下一代互联网上应用的主流。基于目前的PC硬件性能,流媒体实时数据在计算机终端播放已不成问
软件复用被视为解决软件危机,提高软件生产效率和质量的现实可行的途径。引入软件复用来实现信用评估系统的构件化开发,可快速构建适应性好、可靠性高的信用评估系统以准确评
随着对复杂网络的深入研究,病毒营销作为新型的营销模式已经成为研究的热点。病毒营销又叫做口碑营销,主要是通过网络中的用户自发进行传播营销信息实现的。在病毒营销过程中,首
随着网络安全问题的日益严重,入侵检测系统(Intrusion Detection System,缩写:IDS)已经成为计算机与网络安全的重要组成部分。随着网络带宽的不断增加,由于处理能力的限制,现
集群技术是分布式计算的一个重要发展方向,目前,国外对它的研究非常深入,但国内还处于起步阶段。对于该领域的研究具有非常重要的意义,因为它与国家经济建设的众多部门都有密
由于Web服务的种种优越性及广阔的应用前景,自诞生之日起就受到许多机构和公司的认可与推崇,许多组织机构已将Web服务引入他们的商业流程中,并获得了直接的经济效益。然而随
数字视频是由若干帧组成的图像序列,其中含有丰富的信息。随着计算机处理能力的提高和数字图像处理技术的发展,将数字视频中的帧分解出来并加以处理和分析,从而获得必要的信息,已
汽车类型识别是智能交通的一个重要组成部分。目前,传统的电磁线圈感应识别车型法由于对路面的破坏、维护困难、不可移动性等原因,使其发展受到了有大的限制。近几年车牌识别得
无线传感器网络是由一组传感器以Ad Hoc方式构成的无线网络,其目的是协作地感知、采集和处理网络覆盖地理区域中感知对象的信息并发送给用户。无线传感器网络具有自身的特点:
本体(Ontology)是对一个特定领域中重要概念的共享的形式化的描述,由于具有明确性和共享性,它可以作为领域内不同主体之间进行交流的语义基础:更进一步的,Ontology可以帮助机