基于词语共现的BBS垃圾信息过滤模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cshuangyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的快速发展,各种网络应用服务越来越多,BBS系统(Bulletin Board Systems)为广大网络用户开辟了自由发表言论的空间,含有大量信息资源。开发出有效的BBS搜索引擎,有助于人们获得更多的知识和信息。在海量BBS信息中,存在大量人为加入的“垃圾信息”,比如大多数用户不关心的广告帖,虽然可以通过制定规则加以过滤或者人工加以排除,但是垃圾信息的人为性和随意性以及人工操作的开销过大,BBS系统难以保证所有信息都是规范的、有意义的。在通用搜索引擎中收录的BBS信息中,BBS中的垃圾信息对搜索结果产生了干扰。为解决上述问题,本文提出了一种基于词语共现向量空间的信息过滤模型,通过计算文本中题目与正文特征项之间的相关度进行文本过滤。课题的研究工作主要包括:(1)分析和总结了BBS信息的特点,在国内外信息过滤相关技术研究的基础上,在BBS搜索引擎框架中引入信息过滤技术。(2)提出了基于词语共现向量空间模型计算文本中标题与正文特征向量之间相关度的方法。(3)通过实验,对基于词语共现向量空间模型与基于知网的语义相似度模型进行了比较。在相同的训练集和测试集上,本文采用的模型对文本相关度的计算结果优于未进行语义分析的、基于知网的语义相似度计算的结果,而在进行语义分析的情况下,基于知网的语义相似度计算结果稍优于本文的模型。本文采用的模型具有系统开销小并具有自学习性能的优点,该模型可用于信息检索、信息过滤、自然语言处理等研究工作,具有广阔的应用前景。
其他文献
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗糙集理论(Rough Sets)就是在这样背景下不断发展起来的一种用于不精确、不确定数据挖掘与处
随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模式,并基于这种模式设计并开发了i OS手写输
在Internet环境下广泛应用的网络安全技术,例如防火墙、入侵检测、网络监控、安全审计、虚拟专用网等,这些核心技术都是以包拦截包分类为基础的。数据包分类的正确性、准确性
随着Internet迅速的发展以及CNGI(中国下一代互联网示范工程)核心网的开通,IPv6将逐渐取代IPv4。实践也表明IPv6网络协议比IPv4不仅在网络IP地址枯竭问题的完美解决上,而且在
近年来,数据挖掘引起了信息产业界的很大的关注,主要原因是存在着大量可以使用的数据,并且迫切需要将这些数据转换成有用的信息和知识。粗糙集理论(Rough Set)就是在这样背景
气象信息是涉及国计民生的重要基础资源,已广泛深入到人类活动的各个方面。国家在经济、社会、环境、外交、国家安全、可持续发展等各个领域,都需要气象工作提供可靠的保障。
本文主要研究嵌入式 Linux系统的裁减的问题。Linux系统的裁减的目的就是建立一个在特定的嵌入式环境下与需求相匹配的嵌入式 Linux系统。Linux的性能、可靠性、灵活性、和开
工作流管理技术是近年来在计算机领域中发展最为迅速的几种技术之一,并且一直都是1T领域的一个研究热点。同时,工作流技术作为现代企业实现过程管理与过程控制的一项关键技术
学位
随着Web信息的飞速增长,搜索引擎已成为用户必不可少的信息检索工具。元搜索引擎综合了多个搜索引擎的搜索结果,提高了搜索的覆盖率,但是它们返回的条目往往数目庞大,并且很