网络信息筛选

来源 :科技风 | 被引量 : 0次 | 上传用户:lastdemon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:互联网的飞速发展的今天,如何判断信息的真假,快速准确地查找到用户所感兴趣及更有价值的信息是本文的研究重点。根据砂的筛析试验,对现有的筛选方法进行层层递进,并结合用户对信息的兴趣度,信息的类别等查找用户感兴趣的和真实消息。同时类比爱情模型评分标准观测用户对信息的兴趣度,分数越高表明兴趣度越大及用户感兴趣的模型。
  关键词:过滤筛查;认知;信息流;兴趣模型
  1 筛析模型
  互联网时代的到来,人们每天都接收着数以万计的信息。本文假设初始互联网网络节点都是可信的。信息的分享只需要足够的数据包传输就行了。然而随着互联网的迅速 发展,网络节点的可信度有待考虑从而产生了大量的虚假信息,并被广泛传播。为提升真实信息的辨识度,本文借鉴砂的筛析实验对信息的选择同样采取从上到下层层筛选将有害信息及干扰信息的影响降到最小,从而达到降低信息杂质并最大限度的得到最有价值。在信息流传播的过程中,依次通过内容过滤,社会过滤,以及关键词过滤,从小到大,层层筛选。
  1.1 内容过滤
  通过信息接受者和信息内容的特征人工智能的将两者进行匹配,它是通过信息潜在接受者对信息需求的匹配。基于內容理解的过滤是对获取的网络信息内容进行识别、判断、分类确定其是否为需过滤的目标内容并对已确定的目标内容进行过滤等检测控制的技术。
  1.2 社会过滤
  通过个体和群体之间的联系进行过滤。其是在存在与目标用户兴趣相似的其他用户的基础下,将其他兴趣相似用户的内容推荐给目标用户。与基于内容的过滤的方式不同,它不需要任何文档内容的信息数据,它基于相似兴趣用户的使用模式而不需要其他任何文档内容的数据包传输。
  所谓的兴趣度指用户对信息感兴趣的程度。选择0-10之间的整数,0表示完全没有兴趣,10表示特别感兴趣。把用户感兴趣的信息具体化为其对某一信息的评分向量。通过具体分数的大小协作过滤信息。其具体实现方法是利用系统匹配技术找到当前用户的相似其他邻居用户,然后以邻居评分标准产生相关推荐。
  假设有M个用户和N项资源,则一个用户对资源的兴趣可以表示为一个M×N的矩阵R。其中每一项Rmn=r表示用户m对资源n的评分为r,如果Rmn=NULL,则代表用户m对资源n没有评分。
  1.3 关键词过滤[ 1 ]
  从信息中选取具有二值逻辑的特征变量来描述信息。特征变量之间用逻辑词与、或、非连接。若俩关键词同时包含在过滤文档中则可通过布尔操作生成特征变量的表达式。反之,若两关键词用布尔操作符相关联则表示两者之中有一个包含在过滤文档中。布尔操作就是用一系列的差与和来完成。
  假设规则关键字集合为H=(a1,a2,…,an),则扩充后可表示为H=(H(a1),H(a2),…,H(an)),其中H(ai)(i=1,2,…,n)是词典中与具有与a1相同语义的词语集合。增加扩充项就增加了同义词匹配的机会有利于截获同义不同形的相关文本从而提高查全率。
  1.4 信息过滤
  针对以上几种信息过滤的优缺点及信息可信度,为此我们结合几种过滤方法即对过滤方式的权值求和。即:
  N=α*I1+β*I2+γ*I3
  其中I1是内容过滤的兴趣预测值,I2是社会过滤内容预测值,I3关键字匹配预测值,其中α+β+γ=1。
  其利用内容过濾的优点,使在没有用户或用户很少的情况下,能够向用户推荐信息,同时也考虑社会过滤的优点,当用户数和评价级别数很多时,提高过滤结果的准确度,并结合布尔过滤的优点对关键词的内在联系进行了加强。这样通过这种综合过滤可以提高整个过滤系统的性能。由于几种过滤技术之间没有很强大的内在的依赖性,尤其当某种过滤技术得到改进后,系统整体性能就会提高。另外,此方法具有健壮的扩展性,它综合了传统过滤系统的优点,只需预测时在原来加权项的基础上进行累加,使过滤更准确。此外结合基于价值的过滤,可以使预测时间缩短,实时的反映用户需求[ 2 ]。
  2 兴趣信息
  互联网时代的到来,用户每天都接收着数以万计的信息。互联网网络节点在初始都是可信的。所以信息的分享只需要足够的数据包传输就行了。然而随着互联网的迅速 发展,网络节点的可信度有待考虑从而产生了大量的虚假信息。
  英国心理学家、数学家和人际关系专家提出了一个终极恋爱数学模型,让男女推算自己和心仪的对象是否能让爱情开花并结出幸福之果。这个由专家推导的爱情模型是:
  爱情=[(F+Ch+P)/2+3(C+I)/10]/[(5-SI)2+2]
  其中,Q自己对对方的好感,W对方的魅力,E吸引异性的内分泌物,C本人自信心,D亲密度,H形象。
  恋情测试者可对每个指标分别评分,自我形象SI评分为1至5,其它评分为1至10。将相应的值代入后,若总分介于8至10分之间,极有可能热恋;6至7分感情平稳;4至5分感情冷淡;低于4分不大可能有爱情。
  基于此,本文用爱情模型来模拟人类对信息兴趣的模型,其中Q是信息的形式及种类,W是用户初次印象,E用户对其求知欲,C信息对用户的重要度,D用户与信息的关联度,H是该地区或国家的的拓扑结构和力量。其评分标准与爱情模型中各项分值相同,若总分介于8至10分之间,用户对该信息兴趣极高;6至7分对该信息兴趣一般;4至5分代表兴趣冷淡;低于4分则代表该信息不会引起人类的注意,即该信息不会传播广泛。
  3 评价
  互联网的使用根植于社会的各个角落,人们每天接受数以万计的网络信息。因此网络信息深刻的影响人们对社会的认同感。提高信息查找的准确度以及信息传播的真实信刻不容缓。对于信息查找的准确度筛析模型虽然能够结合几种传统模型的优点,但其应用不够灵活,极有可能过滤掉有效信息。而对于兴趣信息的传播,虽然类比了爱情模型,但是爱情模型是非线性的,两者数据处理方法的差异太大。且该模型过于刻板,加权系数皆为整数。
  参考文献:
  [1] 何静,刘海燕,宫云战.内容过滤中过滤模版的改进技术研究[D].2003,2:28.
  [2] 王翠萍.基于用户兴趣度网络信息过滤模型研究[D].2007:30-31.
  作者简介:吴娜(1995-),女,汉族,湖北黄冈人,西北民族大学数学与计算机科学学院,2104级本科生,研究方向:数学与应用数学。
其他文献
汉语中的“甚至”和“连…也/都…”(以下缩写为“SZ”)是一对意义相近的词语,都可以表达一种“递进性添加”。所谓递进性添加指在连接词的作用下,本句表示的情况“高”于先行句所
近日,莒南县恒兴食品有限公司的生猪养殖和山东华达进出口有限公司的肉兔养殖两个标准化生产示范区顺利通过了国家标准化示范区专家组验收。至此,该县国家级标准化生产示范区达
2006年11月,山东省梁山县马营乡薛屯村农民徐建立,借助县交通局实施的“双通”工程,沿公路两旁引进优良晶种狐狸进行饲养,通过科学管理。
对于大多数农村学生来说,在初学英语时“爱英语”不难,随着学习的不断深入,想“一爱到底”却很难。  为什么学生会由一开始“爱英语”后来变成“爱英语难”呢?为此,上学期我将我校七年级四个班的168名同学分为三个阶段,对英语学习兴趣度变化做了调查,现汇总如下:  通过此表,我们不难看出,随着时间的推移, “兴趣浓厚”的学生数量在大幅下降,退级到下一阶的兴趣度群体中。是什么原因导致了这样一种变化呢?为此,
介绍了一种在Browser/Server结构模式下,利用ASP和Microsoft SQL Server 7.0网上考试系统的方法.该系统具有自动生成考试试卷、自动评分等功能,并允许考生在本地或远程通过浏
济南一家本土科研牛奶企业推出了自已的“蓝海战略”,即自已养牛、自已加工,挤奶后4小时内送达订户,以“新鲜战役”对抗外来乳业巨头的竞争。
本文就是通过对2004中国网球公开赛威廉姆斯、库兹涅索娃、萨拉波娃的六场比赛,就发球成功率、发球直接得分、第三板得分情况和发球的进攻性进行分析研究。为网球的训练比赛
豆腐是公认的营养食品    现代科学研究表明,豆腐中富含钙、铁、磷等矿物质及维生素,且不合胆固醇。其中,蛋白质的含量可达40%,碳水化合物的含量为25%,油脂的含量为20%,多元不饱和脂肪酸的含量则高达61%。对女性来说,常吃豆腐还可以补充天然的植物性雌激素,从而起到延缓衰老、预防疾病的作用。豆腐还是我们常吃的家常菜。用豆腐做菜,口味可浓可淡,几乎可以搭配所有的食材。但是,如果想更好地吸收豆腐中的
犬瘟热是一种急性、热性、高度接触性病毒传染病。水貂、狐、貉均为易感动物,其典型临床症状为双相热型,即体温两次升高,达40℃以上,两次发热间隔几天无热期;结膜炎,从最初的羞明流
法语的否定形式ne…pas拥有众多的变体,本文旨在研究这些变体的复合组合形式。我们将所有变体归为两类:时次类与数量类。借助实例,我们发现搭配基本上发生在类与类之间,同类间变