基于信息增益规则排序的关联文本分类

来源 :第二十四届中国数据库学术会议 | 被引量 : 0次 | 上传用户:xuqinxiaofan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对关联分类器会产生大量的规则,且效率比较低的问题,提出了以信息增益的方法来对每个类挖掘出来的规则进行重新排序,然后从每个类排序好的规则集中选取前K条分辨力强的规则构成分类器对文本进行分类,能够在规则集变小的情况下,取得比未修剪过的规则集更好的分类精度,同时也取得了比ARGBC分类器更好的分类效果。
其他文献
空间的Co-location模式代表了一组空间对象的子集,它们的实例在空间中频繁地关联.分析了Co-location模式挖掘的实质,在此基础上,提出一种Co-location模式挖掘的新算法,应用蚁群优化的思想在空间对象关系图里搜索Co-location行实例,采用垂直位图对Co-location行实例集进行约简,并基于Trie树存储表示Co-locaton模式的垂直位图,后根遍历Trie树计算参
克服了分段困难、存储困难两大难点,利用了伪周期性的特征,设计了基于伪周期数据流的模式管理方法。主要贡献在于:(1)模式发现,提出了数据流模式之间的距离的定义和计算方法,用来比对不同模式的相似程度;(2)模式组织存储,设计了模式森林(Pattern Forest)来存储模式,并通过其树形结构来反映模式之间演化关系。基于以上方法,实现了数据流模式管理系统,并设计了分析实验,取得了较为理想的实验结果.
随着数据挖掘技术和机器学习算法的进步,隐私保护问题越来越受到人们的重视.关联规则隐藏属于隐私保护中的知识隐藏.提出了一种基于FP-Tree重构事务数据集的关联规则隐藏算法,通过采用模式添加和模式删除的方法对FP-Tree的结构进行调整,再由调整过的FP-Tree反向重构事务数据集进行发布,从而实现对敏感关联规则的隐藏.
舆情是指一定时期内一定范围内的社会群体对某些社会想象和现实的主观反映,实时地计算舆情能够及时掌握真情动态、积极引导社会舆论.基于文本数据,提出了一种多维层次式舆情计算模型——文本立方体模型.该模型能够从多维度、多层次上来计算舆情,同时对文本立方体模型进行了钻取与切片操作分析.最后建立了文本立方模型的原型系统,通过实验分析,验证了文本立方体模型的有效性与实际可行性。
Web服务技术受到学术界和产业界越来越多的关注,其应用也越来越广泛.功能相同或类似的Web服务数量日益增加.在使用某个Web服务之前,服务消费者通常需要有关web服务的服务质量(QoS)方面的信息,然而,目前的UDDI注册中心只描述Web服务,并没有对其质量进行评估.服务质量信息对服务的管理和发现起着至关重要的作用。提出了一种基于QoS的Web服务发现模型QSWS,在此模型中,按Web服务消费者偏
Database-As-a-Service(简称DAS)模型为企业提供了一种创建、存储和操作数据的无缝机制,并且负责数据库的备份、恢复和移植.企业无需购买软硬件设备,也无需雇用专业人员,只需使用Database-Service-Provider(简称DSP)提供的数据库服务,所以它能显著地减少企业使用数据库的成本.目前许多研究提出了DAS模型数据加密方法和密文数据库的查询技术,但在这些现有技术上的
本文对基于内容图像搜索的医学图像数据库建立进行了研究。文章围绕图像一致性的预处理、多维标志医学信息存储、嵌入相似性度量方法、语义图像特征提取等进行了阐述。
本文提出了一种分布与集中特点相结合的两段式Web服务发布和发现体系PWSD。服务注册中心分散化,每个注册中心作为P2P网络的一个节点,各自保有独立的服务信息。服务提供者以集中的方式向注册中心发布服务,注册中心间则采用分布式的P2P技术进行Web服务信息的存储、交换查询。
个性化推荐系统的目标是推荐最合适的资源给最需要的用户,这种推荐多数是基于用户的一些历史行为而做出的.如果有足够的历史记录,协同过滤推荐方法往往比其他推荐方法要好.然而协同过滤方法存在严重的冷启动问题,即当有新的用户、新的资源时,协同过滤就无法完成推荐过程.针对冷启动问题,提出了一种新的方法,核心思想是先构造出用户和资源的类别模型,构造出"用户资源对"来标记出用户感兴趣的资源.而对于新的用户,根据其
本文提出了一种新的支持QoS约束的服务发现模型SDMQo SDQM引人了扩展Web服务注册中心和资源信息服务两种新的角色,采用了QoS反馈机制、资源信息监控机制、基于用户反馈的服务QoS参数统计更新机制、基于用户偏好信息的服务选择机制以及资源信息服务报警机制,更好地满足了服务QoS的应用需求。