基于文本分类的信息过滤系统模型研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:chen95127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先分析了网页上信息过滤的基本问题,包括:信息过滤的体系结构;过滤系统的特点及分类;检索和过滤的关系;过滤系统常用的模型以及过滤系统的性能评价指标等。从总体上对过滤系统进行一定的论述,指出信息过滤系统中现存的问题。 然后针对过滤系统中存在的部分问题,在现有信息过滤技术的基础上,对过滤算法进行了一定的改进,并给出了具有智能性、主动性和扩充性的个性化过滤系统的模型。本文的主要研究内容为以下三个部分:文本自动分类系统;个性化模式库的表示、建立和维护;改进的过滤匹配算法。 在文本自动分类系统中,本文给出了一个基于改进的向量空间模型的文本自动分类系统框架模型,重点描述此系统的实现算法。提出了一种“平均值”匹配阈值调整方法。 对于个性化模式库的表示,本文给出了一种多用户多主题的表示方式。使得每个用户个性化文件只表达一个用户的一个主题,这样可以更清晰的表达用户的兴趣。 在改进的过滤匹配算法当中,本文结合了布尔模型和向量空间模型的优点,综合考虑了过滤过程中的匹配度和相似度,给出一个新的过滤匹配算法。
其他文献
在远程教育领域,基于Internet的分布式多媒体远程教学系统成本低、且能真正突破课堂时空限制,正得到越来越广泛的应用。如何将教师上课的音视频等媒体信息通过Internet实时有效
网络可靠度计算在网络的设计、使用和维护等方面都具有重要的意义。目前,网络可靠度计算问题的研究已经取得了大量的成果,其中基于有序二叉决策图(OBDD, OrderedBinary Decis
通信网飞速发展,导致了管理通信网也成为一个非常复杂的问题。如果建立一个通信网而不进行相应的网络管理建设,对该通信网的维护以及管理的工作量将会非常巨大。网络管理在整
计算机网络和互联网在近些年来的发展给人们的生活带来了巨大的变化,而这都源自于计算机网络自身资源共享的特性。将各类资源接入计算机网络,可以丰富它所能够提供的服务的形式
随着电子商务及信息技术的发展,我国物流行业逐渐暴露出信息采集效率低、易出错、更新慢、无法实时跟踪查询以及出入库、拣货效率低等问题。通过对目前国内外物流行业的运作
移动代理技术是新型的分布计算技术,它弥补了传统的客户/服务器技术的不足,有着巨大的应用前景。目前移动代理的研究已经取得很多成果,但它仍然有许多不足之处,如移动代理的
城市交通拥堵问题日益严峻,通过交通信号控制对城市道路网络中的车辆进行疏导管理是缓解拥堵的重要手段。实际应用的交通信号控制系统大多采用离线控制方法,存在控制方式不够灵
校园网络中存在着大量的教育资源,包括图书资料、网络数据库、教学课件、管理系统等数据资源,还有网站、新闻、电子邮件、BBS等动态信息,由于资源种类繁多、形态各异,载体形
随着互连技术的高速发展,全球信息成几何级数增长,人们在互联网上搜索大量的信息、数据以服务于学习和工作,使用大容量数据文件的次数也越来越频繁,文件再也不是一张小小的软
随着现代通信技术的不断发展进步,高清电视、云计算、物联网、智能生活网等业务的兴起,传统的带宽传输速度已经难以满足人们对互联网的应用要求。GPON(Gigabit-Capable Passi