基于启发式规则和文本分类的信息过滤技术

被引量 : 0次 | 上传用户:ok695304259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet使用的日益普遍,网络给人们带来了无比丰富的信息,但是,Internet也充斥着各种色情、反动或者是暴力的信息和各种互联网病毒,网络上存在的各种不良信息等越来越多的干扰着人们正常使用互联网。如何有效控制这些信息的传播,并保障网络的内容安全已经成为信息过滤研究的主要内容之一。互联网中出现的不良文本大多以文本的形式出现,因此不良文本过滤技术已经成为不良信息过滤领域中的主要研究方向了。论文首先概述了信息过滤技术的基础知识:概念、分类、与其他信息处理技术的差别、常用的信息过滤模型。接着介绍了信息过滤系统中对文本的预处理过程,如:分词、特征选择等。然后介绍了Na(?)ve Bayes(NB)分类器、KNN(K NearestNeighbor)算法、SVM(support Vector Machine)等文本分类算法。本文重点介绍了判别式Na(?)ve Bayes(NB)文本分类算法。这一部分首先介绍了贝叶斯文本分类算法中常用的两种模型,以及二分类朴素贝叶斯文本分类算法的实现过程;然后详细介绍了判别式贝叶斯分类算法的优点及其详细实现过程;最后将判别式Na(?)ve Bayes分类算法应用到文本信息过滤领域中,设定文本的类别为两类:健康文本和可疑文本,提出了判别式Na(?)ve Bayes文本分类算法。文章最后提出了一种基于启发式规则和文本分类算法相结合的多级信息过滤模型。首先介绍了基于启发式规则的信息过滤模型,针对现在互联网上出现的不良信息的表现形式进行了规则库的设计和规则的设定。然后比较了基于规则的信息过滤和基于文本内容的信息过滤模型,结合二者的优缺点,本文提出了一种基于启发式规则和判别式Na(?)ve Bayes分类算法相结合的多级信息过滤模型(RDNB),具体的实现过程如下:首先用启发式规则来实现第一步的粗过滤,然后用判别式Na(?)ve Bayes文本分类器实现细过滤,最终判定文本的类别。实验结果表明,这种多级过滤模型取得了较好地准确率和F1测试值。
其他文献
制造业是国民经济的支柱,是直接创造社会财富的基础,现实的竞争压力迫使越来越多的制造型企业将一些原本由企业自己来实施的物流活动,采取物流外包的战略,交给专业的第三物流
森林景观质量评价指标体系建立的目的是描述森林景观的现状,将森林景观质量以指标的形式,定性或定量的表示出来。研究建立风景游憩林的质量评价指标体系,理论上可以统一风景
我国早在20世纪60年代就出现了代币券的雏形,从20世纪80年代开始,“代币券”、“代金券”或者“礼品券”等纸质票券开始盛行。随着信息技术的发展,采用磁卡或者IC卡技术制造
电子商务,特别是C2C电子商务的一大突出特点就是发展极快,在人们对其参与主体、经营内容及方式还不甚了了并讨论不休的时候,它又迅速向前推进,使得之前人们对其的分析变得陈旧、
〔目的〕调查黑龙江中俄边境口岸地区啮齿动物及其体表寄生虫的种类、构成和携带病原体的情况。〔方法〕2009年6-7月在黑龙江省黑河、逊克、抚远和饶河口岸地区,以夹夜法捕鼠
兴安杜鹃具有一定的观赏价值和药用价值,对其进行推广种植能带来一定的经济效益.基于此,概述兴安杜鹃的生物学特性、生态学特性、繁殖方法、药用价值及开发利用等方面的研究
因特网正在以迅猛的速度飞速发展,卫星作为一种重要的通信手段,其传输的因特网业务也日益增加.本文针对卫星信道的长延时特点对代P协议在卫星信道上的传输效率进行了分析,同
<正>一、问题的提出在教学过程中,课堂提问占有重要的地位,发提问是一种课堂常用、历史悠久的教学技能,从古至今仍受到各界高度重视。对于小学的课堂教学而言,教师的课堂提问
会议
名词短语,简单地来说,就是由修饰语和中心词(名词)构成的一种语言结构,名词短语作为衡量句法复杂性的指标可以预测写作质量;学术名词是学术写作中普遍使用的最具代表性和重要性的部分;Gardner和Davies(2013)新创的学术词汇表(Academic Vocabulary List),代表了当今学术写作高频用词,学术词表的创建确定了本研究可以量化的名词短语的中心词。纵观国内外,在名词短语实证研究方
为探究细粒含量fc、相对密度Dr以及初始有效围压σ′3c对饱和砂粉混合料小应变剪切模量Gmax的影响,对具有不同fc,Dr和σ′3c的混合料开展了一系列弯曲元试验.试验发现:随着fc