基于向量空间模型的自适应文本过滤系统研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:c472559561
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的不断发展和普及,各种各样的信息以爆炸般的速度产生。信息资源已经成为一种新的财富。但是,信息的日益增多带给人们诸多便利的同时也带来了诸如犯罪、色情、暴力、迷信以及邪教宣传等不良信息泛滥和信息过载等等很多问题。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经成为当前互联网研究和发展的一个重要问题。信息过滤便是在这种情况下产生的。信息过滤随着信息检索的发展而长期被人们研究。它是一个寻找符合人们兴趣的信息的处理过程,也就是从大量的动态信息中找出最大程度地满足用户真实需求并且滤除其它无用信息和非法信息的过程。信息过滤根据处理的信息内容可以分为文本信息过滤和非文本信息过滤。文本信息过滤,即文本过滤,就是根据用户的信息查询需求,从动态文本流中检索满足用户需求的文本的过程。TREC把文本过滤分为两种类型:一种是基于内容的文本过滤;另一种是基于合作模式的文本过滤。文本过滤作为信息过滤的一个研究分支,它涉及的知识范围非常广泛,综合了自然语言理解、人工智能以及知识论等领域的知识,其关键技术主要包括文本分词、文本特征向量降维、文本特征提取、用户模板和过滤阈值初始化以及机器学习等。本文研究的内容是文本过滤,主要是Internet上文本的过滤。论文的主要工作集中在自适应文本过滤系统的关键技术上,主要从以下几个方面进行了探讨:1.对当前广泛采用的一些文本过滤评价指标、文本特征项权重评估函数以及用户模板学习方法进行了总结。2.在分析研究期望交叉熵和互信息这两个文本特征项权重评估函数的基础上,基于两者对特征项权重评估的不同侧重功能,提出了将两者结合起来对文本特征项进行权重评估并在此基础上进行特征提取的方法。相关实验结果验证了该方法的可行性。3.提出了一种基于概念学习的过滤模板获取方法。该法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,该法
其他文献
XML语言已经成为互联网上表示和交换数据的标准,使得XML文档大量出现,因此如何查询XML文档变得更加重要。由于关系数据库有着技术成熟、应用广泛、数据管理能力强、数据安全程
随着计算机互联网的发展和广泛应用,网络安全特别是网络入侵问题变得越来越严重。因此,开展网络安全特别是入侵攻击与防范技术的研究,开发高效实用的入侵检测系统,对计算机网络的
目前我国各移动通信运营商大都拥有一个规模宏大的网络,如核心话务网、接入网、SDH和PDH传输网、分组交换网、智能网等多种电信网络。随着网络规模的不断扩大,网络设备的种类
本文针对我国农业信息多、广、散的特点以及农业信息网络的发展现状和存在的问题,研究并提出了使用Web服务技术集成农业信息。设计开发了基于Web服务的农业信息集成系统。在研
随着信息技术在全球范围的蓬勃发展,信息技术已经是无孔不入。各种数字产品日益渗透到社会生活的各个领域,数字家庭技术不断成熟。芯片和外围硬件的大幅度降价以及软件技术的迅
随着计算机图形学的飞速发展,三维计算机图形学已经渗透到计算机应用的方方面面。人们对计算机造型与绘制技术的要求不断提高,计算机模拟场景的规模越来越大,景物的细节也越来越
搜索质量是搜索服务的核心,决定了搜索引擎的质量。搜索引擎不但要搜索出相关性较高且符合用户需求的目标页面,同时也要针对低质量,甚至是人为“高质量”的作弊页面进行甄别和处
无线传感器网络是微机电系统、片上系统和无线通信技术高度集成而孕育出的一种新型信息获取和处理模式。它在环境、健康、家庭、军事、空间探索和灾难拯救有广阔的应用前景,
随着现代信息技术的迅猛发展,知识发现(KDD)在科学和商业中得到了越来越广泛的应用。知识发现通过一定的技术手段从海量数据库中获取人们无法直接看到的有价值信息,并以此为人们
随着高校的不断扩招,积累了越来越多的历史教学数据,管理和检索这些数据变得越来越困难。如何合理有效地利用这些数据中隐藏的信息,更好地为高校的教学、科研和管理工作服务,是现