基于增量学习和阀值优化的自适应信息过滤

被引量 : 0次 | 上传用户:taohongguanghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上电子信息的迅猛膨胀带来了信息过载问题,信息过滤技术能够帮助人们检出感兴趣的相关信息或者屏蔽非法信息。面对实时在线的网络信息过滤新挑战,自适应信息过滤只需少量的用户需求信息并在过滤过程中自主学习、自适应提高而成为人们关注和研究的热点。本文的主要工作就是研究自适应信息过滤中提高模板准确性的学习算法和过滤阈值优化的新方法。 论文给出了一种改进的自适应信息过滤模型,该模型将统计模型(向量空间模型)与概率方法(贝叶斯方法)相结合,通过在向量空间模型中对信息文本与用户需求进行向量表示和相似度计算来实现信息过滤。在需求模板的学习中运用向量中值法来构建初始的需求模板,通过增量学习伪相关反馈信息来提高需求模板的准确性。在过滤过程中以用户反馈信息为先验知识和训练数据,运用高斯指数分布和贝叶斯方法来推测文档的相关性概率,以线性效用函数最优为目标探测最优的过滤阈值。 在模型的训练阶段,本文给出了运用增量学习方法对附加的少量伪相关文档进行学习来训练需求模板的算法,采用文档词频方法来选择特征,运用Rocchio算法调整特征向量,以此提高过滤模板的准确性;在模型的测试阶段,以过滤系统效能函数最优为目标,给出了探索最优的过滤阈值的新算法。运用Rocchio算法实现系统自主地学习用户定期反馈的信息,并自适应地调整需求模板。 将该模型运用于自建的中文语料上进行相关主题的过滤测试实验,实验结果表明,利用增量学习方法和阈值优化策略,在较少的用户监督下能够有效地提高系统的过滤性能。
其他文献
《性理学大义》是唐文治为无锡国专教学撰写的最为重要的性理学教材。该书的撰写不仅与其在求学、治学中深受理学家志业与思想的影响有密切关系,也展现出其期以通过讲授性理
制备了聚硫堇(PTh)-磁性核,壳纳米粒子CoFe2O4/SiO2修饰电极。研究了神经递质多巴胺(DA)在该修饰电极上的电化学行为。实验表明,PTh—CoFe2O4/SiO2复合膜修饰电极对DA的电催化作用优
目的通过建立大鼠肺部侵袭性光滑假丝酵母菌感染模型,探讨大鼠肺组织树突状细胞相关C型凝集素-1(Dectin-1)和血清、肺泡灌洗液中白细胞介素(IL)-17、IL-23含量的变化及意义。
通过对在泰国本土从事汉语教学的教师进行调查发现:间接词汇教学策略使用几率最高,直接词汇教学策略次之,合作词汇教学策略的使用几率最低。男女教师在对直接和间接词汇教学
采用EMTPE程序仿真计算了500kVGIS系统中操作隔离开关引起的快速暂态过电压。比较、分析主变 压器高压侧分别采取①加装并联耦合电容器、②串接阻波器、和③两者相结合3种防
选取衡阳市基础条件基本一致的3处人工湖,对其天然成因、水体功能、补给方式、管理方法以及水质现状进行对比研究,发现补给水水质是影响水体富营养化的主要因素之一,并通过对
正在提交深圳市人大常委会审议的有关生活垃圾分类条例规定,对未按照要求分类投放生活垃圾的,《条例(草案)》对个人处五十元以上二百元以下罚款,对单位处一千元以上五千元以下罚款
报纸
文章针对在风景名胜区重建历史名楼而出现的不同看法,通过对黄鹤楼重建的回顾,分析了"假古董"之说的时代背景,对《威尼斯宪章》的真实性原则进行了重新认识;并举例阐述了历史
用产值单耗法预测渑池县2010年用电量,利用年均递增率法、电力弹性系数法、自然增长加大工业负荷法等3种预测方法对产值单耗法预测结果进行了校验.在适用条件、计算难度和适
<正>老年高血压是指除血压升高,还伴有心脑肾的损害,且排除假性或继发性高血压的全身性疾病,是导致老年人脑卒中、冠心病、充血性心力衰竭、肾衰竭和主动脉瘤发病率和病死率