高敏感度网页效用挖掘算法研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:zxcmnbv1234567
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着互联网媒体的出现和快速繁荣,许多问题也随之而来。本文把效用挖掘中“效用”的概念引入到对网页敏感程度的度量方法中,将关键词的敏感程度和网页内容的敏感程度作为定量考察的基础,提出了基于敏感关键词组的网页敏感度的计算方法,进而能够有效的辨别敏感网页并区分其重要性。
  关键词:敏感度;数据库;计算
  中图分类号:TP182 文献标识码:A文章编号:1007-9599 (2011) 06-0000-01
  High Sensitivity Web Utility Mining Algorithm Research
  Lin Zhu,Zhang Peng
  Abstract:With the emergence of the Internet media,and rapid prosperity,many problems follow.Mining the effectiveness of this
  "utility" concept introduced to measure the degree of sensitivity on the page method,the key words of the sensitivity and the sensitivity of web content as the basis for the quantitative study,sensitive keywords presented based on the sensitivity of group pages method,and then be able to effectively identify and distinguish the importance of sensitive pages.
  Keywords:Sensitivity;Database;Calculation
  一、网页敏感度挖掘模型
  (一)相关概念及定义
  1.数据挖掘。是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[1]。2.文本挖掘。是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。3.向量空间模型。将每一篇文档都映射为一组规范化的正交词条矢量组成的向量空间中的一个点,将词作为文档的特征。4.tf-idf。用以评估一个词对与一个文档集中一篇文档的重要程度,词的重要性与它在文件中出现的次数成正比,但同时与它在文档集中出现的频率成反比。5.Web挖掘。涉及Web,数据挖掘,文本挖掘,计算机语言学等多个领域的一项综合技术[2,3]。6.效用。作为数据项本身有用性和重要性的一种综合度量,反映了数据项的重要程度。7.效用挖掘。是数据挖掘的一个分支,其挖掘的目标是找到高效用的项集。8.敏感词表。将用户指定的敏感词集合按一定的检索顺序排列而成的词表。本文根据敏感词对社会危害程度、影响范围等因素将词表分为四级:普通(Ⅳ级)、严重(Ⅲ级)、非常严重(Ⅱ级)和警报(I级)等四级,并分别赋予不同的权值。9.否定词表。将不是、从不、没有、不能、几乎不等表示否定意义的形容词集合。否定词效用表是在否定词表的基础上赋予一定的权值而得到的词表。
  (二)网页敏感效用计算模型
  将经过处理的网页内容看作向量空间模型中的一个向量,将敏感词表和否定词表中的词看作项,词的效用值看作项的主观价值,将一个词在一篇网页中出现的频率看作该项在该事物中的客观值。具体定义如下:
  W={w1,w2,…,wm},由敏感词表中的敏感词所组成的集合,wi为敏感词。
  N={n1,n2,…,nm},由否定词表中的否定词所组成的集合,ni为否定词。
  D={D1,D2,…,Dm},由VSM中的空间向量所组成的数据库,每个向量代表一个网页的内容。
  o(wp,Dq),客观值,为敏感词wp在网页Dq中出现的频率值。
  f(np),否定词值,为否定词np在否定词表中的效用值,由用户设定。本文f(np)=–1。
  e(wp,Dq),否定客观值,否定词集N在网页Dq中敏感词wp第n次出现时,在wp前第一个分句标点到敏感词wp范围内出现的频率值为Mn。
  
  s(wp),敏感度值,为敏感词wp在词表中的敏感级别,由用户设定,反映出词的敏感程度。s(wp)>s(wq)说明s(wp)比s(wq)影响力更强。敏感度值独立于数据库D。
  u(wp,Dq),效用公式u(wp,Dq)=e(wp,Dq)s(wp)
  s(X,Dq),网页Dq的敏感度,s(X,Dq)=
  ε,网页敏感度阀值,由用户设定。对于网页Dq,如果s(X,Dq)>ε,则称之为高敏感度网页,反之为低敏感度网页。
  二、敏感网页挖掘系统的设计与应用
  (一)系统设计
  系统流程如下图所示:1.系统通过网络蜘蛛从互联网上抓取网页,得到网页集合;2.对得到的网页集进行网页清洗、分词、去停用词,并保留网页url,得到网页文本集合;3.使用tf-idf权重模型建立向量空间模型;4.使用敏感词效用表及否定词效用表对网页向量敏感度进行计算,得到敏感向量集合;5.与用户预设的敏感度阈值进行比较,只保留高于阈值的敏感网页向量,并按敏感度由高到低的顺序进行排序,得到最终的敏感向量结果集合;6.使用保留的url信息将文本向量还原成网页返回给用户。
  (二)实验结果
  实验数据采用经人工筛选的包含敏感网页的新闻网页的数据集作为样本。并设定本系统的高敏感度关键词集阀值为2.5%,关键词敏感度级别值为W1=8、W2=4、W3=2、W4=1。
  经更换样本空间反复测试,本算法结果查准率和查全率均在96%以上。并能够按照敏感程度由高到低排序。给互联网网络管理者提供了很大程度的方便。
  三、需要注意的问题
  在建立向量空间模型时,只保留敏感词前第一个分句标点到敏感词范围内的否定词。在计算否定客观值e(wp,Dq)时,否定词频率以相加计数的方式累计到其后面出现第一个敏感词的Mn上。
  参考文献:
  [1]Jiawei Hn,Micheline K,etc.数据挖掘概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2001
  [2]李盛韬.基于主题的Web信息采集技术研究[D].北京:中国科学院计算技术研究所,2002
  [3]林冬雪.基于改进向量空间模型的web信息检索技术研究[D].重庆:重庆大学工,2005
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
其他文献
<正> 夏季雨水多,温度高,湿度大,病原菌滋生,在夏季饲养的家兔容易得各种疾病。为了确保家兔健康生长,要特别注意抓好家兔五种疾病的防治。一、兔瘟一年四季,不分年龄和日龄
阐述了材料标准化阻抗的测量方法与原理。研究分布电容C0对绕线法测量结果的巨大影响,指出C0可能使线圈的等效电感变为本身串联电感的很多倍,也可能使线圈的总等效电感变为负
兔毛贮存应做到“三避免”:①避免贮存在塑料袋内。兔毛易发热受潮,时间一长,就会发黄变质。②避免高温和长时问曝晒。因高温易使兔毛纤维发生裂解变质。③避免长时间重压。因长
摘要:随着数字信息化时代的到来,多媒体信息世界丰富多彩,人们开始注意对多媒体数据进行保护,如是“数字水印”的概念就此产生了。本文主要对DCT数字水印算法和DWT数字水印算法这两种两种典型的水印算法进行了分析研究。  关键词:数字水印;DCT数字水印算法;DWT数字水印算法  中图分类号:TP309.7 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02  数字水印技术
针对实际工艺中使用微带线耦合器在实现高耦合系数时寄生参数较大、且工艺实现较为困难的问题,采用带状线耦合器与微带线耦合器相结合的设计方法,结合ADS仿真软件,实现了具有
“勘探与生产技术数据管理系统(A1)”属于中国石油的信息化建设项目上游领域四个子系统之二,其目标任务建设既能满足中石油信息管理需求,又能为中石油带来高速发展和可观经济效益
网络管理软件的发展随着网络的发展逐渐成熟,由于目前市场上的网络管理软件种类繁多,难以区分。本文旨在为让广大读者找到适合自己网络使用的网络管理软件,能够在日常的网络管理
用射频磁控溅射方法制备了记录磁头用FeCoAlO薄膜软磁材料,与FeCo合金薄膜相比,FeCoAlO薄膜的软磁性能有明显改善。(Fe72Co28)100-x(Al2O3)x薄膜的饱和磁感应强度Bs在x=3.1~5.9范围内
前不久,辽宁省盘锦市的一个生态饲养场靠养猪“养”出了一个“全球生态500佳”,并且从联合国捧回了“大奖”。生态饲养场的领导说,现在他们生产的猪肉市场价最高达到每公斤30元