基于遗传算法的自适应文本过滤方法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:cccccdddddccccccccc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息的飞速膨胀带来了“信息爆炸”问题,快速准确的从中获取用户所需要的信息,成为一个急需解决的问题。信息过滤(Information Filtering,IF)技术可以帮助人们检出感兴趣的信息从而屏蔽掉其它不需要的部分。面对实时在线的网络信息过滤新挑战,自适应信息过滤(Adaptive InformationFiltering,AIF)技术就在这种情况下产生了,由于具有只需要少量的用户需求信息和能自适应的调整过滤系统等一系列优点,从而成为学者们关注和研究的热点话题。在AIF文本预处理方面,针对文档频率对高频词过于依赖和互信息对低频词过于依赖这一特点,本文给出了二者组合的特征选择方法,试图用组合特征选择方法消除二者的缺点和弊端;另外,对文档频率进行了改进,综合考虑了类内文本频率和类外文本频率。实验结果显示:该方法能有效的提取更有代表意义的特征词来构建用户模板,这样不仅降低了向量空间的维数、简化了计算,而且减少了用户模板的冗余性。在AIF用户模板自适应学习方面,本文采用了一种基于遗传算法的自适应模板自学习过程。通过对系统伪相关反馈的信息进行遗传优化,选择最优的特征信息作为正例质心送入Rocchio(一种反馈算法)反馈模块,从而实现自适应的学习并更新了用户模板。根据实验结果,该方法有效地屏蔽了伪相关反馈信息的稀疏性以及特征歧义性对自学习的误导,改善了AIF系统的过滤性能。
其他文献
图像感兴趣区域提取技术是图像处理领域的研究热点之一,借助感兴趣区域提取技术,可以对图像数据压缩进行指导,可以帮助观察者对图像进行理解,还适用于在小屏幕上进行图像显示
多相流系统是一个非常复杂的非线性系统,各相间的界面效应和速度都不同,导致多相流的参数检测难度很大,电容层析成像技术(ECT)是基于电容敏感原理的过程层析成像技术(PT)。该
TCP是目前Internet中使用最广泛的端到端传输协议。近年来出现了许多新TCP拥塞控制算法,如慢启动,拥塞避免,快速重传和快速恢复,大大提高了网络传输的性能。由于密集波分复用
软件逆向工程技术的不断发展,带来了程序分析方法的不断进步。程序分析有助于人们理解软件构成,解决软件漏洞查找以及进行程序细节分析等。但是程序分析技术[1]也是一把双刃
近年来面向对象技术成为主流的软件开发方法。随着软件规模逐渐扩大,但软件的成本和进度也越来越难于把握和控制。软件估算技术提供了一种定量化的方法以控制软件开发过程,它帮
生物免疫系统是一种复杂的自适应系统,该系统能有效地使用多种机制防御外部病原体入侵。具体表现为免疫记忆、抗体的自我识别能力和免疫多样性的优点。同时生物免疫系统在运
Excel具有强大的数据表现能力和处理能力,以及它极低的使用成本和良好的易用性,使得Excel在中小型企业信息化过程中产生极其重要的作用,同时也使得目前绝大多数应用系统都离
随着自动化水平的不断提高,人们对于设备维修的认识水平也在提高。大型旋转设备是现代大规模生产装置的关键设备,要求长周期连续运行,在这种情况下,如果只对机器采用事后维修则会
影响力传播的最大化问题的目标是在网络中寻找影响力最大的K个点,使得从这K个点传播出的影响力(如信息、想法、观点等)期望影响到的节点数是最大的。该问题是社交网络的基础
预测是科学管理的重要环节,是决策、规划的前提。在社会经济管理中,经常要对某一事物或系统的发展趋势进行预测和分析。时间序列预测是预测领域内的一个重要研究方向,它是一种根