论文部分内容阅读
摘要:随着互联网媒体的出现和快速繁荣,许多问题也随之而来。本文把效用挖掘中“效用”的概念引入到对网页敏感程度的度量方法中,将关键词的敏感程度和网页内容的敏感程度作为定量考察的基础,提出了基于敏感关键词组的网页敏感度的计算方法,进而能够有效的辨别敏感网页并区分其重要性。
关键词:敏感度;数据库;计算
中图分类号:TP182 文献标识码:A文章编号:1007-9599 (2011) 06-0000-01
High Sensitivity Web Utility Mining Algorithm Research
Lin Zhu,Zhang Peng
Abstract:With the emergence of the Internet media,and rapid prosperity,many problems follow.Mining the effectiveness of this
"utility" concept introduced to measure the degree of sensitivity on the page method,the key words of the sensitivity and the sensitivity of web content as the basis for the quantitative study,sensitive keywords presented based on the sensitivity of group pages method,and then be able to effectively identify and distinguish the importance of sensitive pages.
Keywords:Sensitivity;Database;Calculation
一、网页敏感度挖掘模型
(一)相关概念及定义
1.数据挖掘。是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[1]。2.文本挖掘。是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。3.向量空间模型。将每一篇文档都映射为一组规范化的正交词条矢量组成的向量空间中的一个点,将词作为文档的特征。4.tf-idf。用以评估一个词对与一个文档集中一篇文档的重要程度,词的重要性与它在文件中出现的次数成正比,但同时与它在文档集中出现的频率成反比。5.Web挖掘。涉及Web,数据挖掘,文本挖掘,计算机语言学等多个领域的一项综合技术[2,3]。6.效用。作为数据项本身有用性和重要性的一种综合度量,反映了数据项的重要程度。7.效用挖掘。是数据挖掘的一个分支,其挖掘的目标是找到高效用的项集。8.敏感词表。将用户指定的敏感词集合按一定的检索顺序排列而成的词表。本文根据敏感词对社会危害程度、影响范围等因素将词表分为四级:普通(Ⅳ级)、严重(Ⅲ级)、非常严重(Ⅱ级)和警报(I级)等四级,并分别赋予不同的权值。9.否定词表。将不是、从不、没有、不能、几乎不等表示否定意义的形容词集合。否定词效用表是在否定词表的基础上赋予一定的权值而得到的词表。
(二)网页敏感效用计算模型
将经过处理的网页内容看作向量空间模型中的一个向量,将敏感词表和否定词表中的词看作项,词的效用值看作项的主观价值,将一个词在一篇网页中出现的频率看作该项在该事物中的客观值。具体定义如下:
W={w1,w2,…,wm},由敏感词表中的敏感词所组成的集合,wi为敏感词。
N={n1,n2,…,nm},由否定词表中的否定词所组成的集合,ni为否定词。
D={D1,D2,…,Dm},由VSM中的空间向量所组成的数据库,每个向量代表一个网页的内容。
o(wp,Dq),客观值,为敏感词wp在网页Dq中出现的频率值。
f(np),否定词值,为否定词np在否定词表中的效用值,由用户设定。本文f(np)=–1。
e(wp,Dq),否定客观值,否定词集N在网页Dq中敏感词wp第n次出现时,在wp前第一个分句标点到敏感词wp范围内出现的频率值为Mn。
s(wp),敏感度值,为敏感词wp在词表中的敏感级别,由用户设定,反映出词的敏感程度。s(wp)>s(wq)说明s(wp)比s(wq)影响力更强。敏感度值独立于数据库D。
u(wp,Dq),效用公式u(wp,Dq)=e(wp,Dq)s(wp)
s(X,Dq),网页Dq的敏感度,s(X,Dq)=
ε,网页敏感度阀值,由用户设定。对于网页Dq,如果s(X,Dq)>ε,则称之为高敏感度网页,反之为低敏感度网页。
二、敏感网页挖掘系统的设计与应用
(一)系统设计
系统流程如下图所示:1.系统通过网络蜘蛛从互联网上抓取网页,得到网页集合;2.对得到的网页集进行网页清洗、分词、去停用词,并保留网页url,得到网页文本集合;3.使用tf-idf权重模型建立向量空间模型;4.使用敏感词效用表及否定词效用表对网页向量敏感度进行计算,得到敏感向量集合;5.与用户预设的敏感度阈值进行比较,只保留高于阈值的敏感网页向量,并按敏感度由高到低的顺序进行排序,得到最终的敏感向量结果集合;6.使用保留的url信息将文本向量还原成网页返回给用户。
(二)实验结果
实验数据采用经人工筛选的包含敏感网页的新闻网页的数据集作为样本。并设定本系统的高敏感度关键词集阀值为2.5%,关键词敏感度级别值为W1=8、W2=4、W3=2、W4=1。
经更换样本空间反复测试,本算法结果查准率和查全率均在96%以上。并能够按照敏感程度由高到低排序。给互联网网络管理者提供了很大程度的方便。
三、需要注意的问题
在建立向量空间模型时,只保留敏感词前第一个分句标点到敏感词范围内的否定词。在计算否定客观值e(wp,Dq)时,否定词频率以相加计数的方式累计到其后面出现第一个敏感词的Mn上。
参考文献:
[1]Jiawei Hn,Micheline K,etc.数据挖掘概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2001
[2]李盛韬.基于主题的Web信息采集技术研究[D].北京:中国科学院计算技术研究所,2002
[3]林冬雪.基于改进向量空间模型的web信息检索技术研究[D].重庆:重庆大学工,2005
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
关键词:敏感度;数据库;计算
中图分类号:TP182 文献标识码:A文章编号:1007-9599 (2011) 06-0000-01
High Sensitivity Web Utility Mining Algorithm Research
Lin Zhu,Zhang Peng
Abstract:With the emergence of the Internet media,and rapid prosperity,many problems follow.Mining the effectiveness of this
"utility" concept introduced to measure the degree of sensitivity on the page method,the key words of the sensitivity and the sensitivity of web content as the basis for the quantitative study,sensitive keywords presented based on the sensitivity of group pages method,and then be able to effectively identify and distinguish the importance of sensitive pages.
Keywords:Sensitivity;Database;Calculation
一、网页敏感度挖掘模型
(一)相关概念及定义
1.数据挖掘。是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[1]。2.文本挖掘。是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。3.向量空间模型。将每一篇文档都映射为一组规范化的正交词条矢量组成的向量空间中的一个点,将词作为文档的特征。4.tf-idf。用以评估一个词对与一个文档集中一篇文档的重要程度,词的重要性与它在文件中出现的次数成正比,但同时与它在文档集中出现的频率成反比。5.Web挖掘。涉及Web,数据挖掘,文本挖掘,计算机语言学等多个领域的一项综合技术[2,3]。6.效用。作为数据项本身有用性和重要性的一种综合度量,反映了数据项的重要程度。7.效用挖掘。是数据挖掘的一个分支,其挖掘的目标是找到高效用的项集。8.敏感词表。将用户指定的敏感词集合按一定的检索顺序排列而成的词表。本文根据敏感词对社会危害程度、影响范围等因素将词表分为四级:普通(Ⅳ级)、严重(Ⅲ级)、非常严重(Ⅱ级)和警报(I级)等四级,并分别赋予不同的权值。9.否定词表。将不是、从不、没有、不能、几乎不等表示否定意义的形容词集合。否定词效用表是在否定词表的基础上赋予一定的权值而得到的词表。
(二)网页敏感效用计算模型
将经过处理的网页内容看作向量空间模型中的一个向量,将敏感词表和否定词表中的词看作项,词的效用值看作项的主观价值,将一个词在一篇网页中出现的频率看作该项在该事物中的客观值。具体定义如下:
W={w1,w2,…,wm},由敏感词表中的敏感词所组成的集合,wi为敏感词。
N={n1,n2,…,nm},由否定词表中的否定词所组成的集合,ni为否定词。
D={D1,D2,…,Dm},由VSM中的空间向量所组成的数据库,每个向量代表一个网页的内容。
o(wp,Dq),客观值,为敏感词wp在网页Dq中出现的频率值。
f(np),否定词值,为否定词np在否定词表中的效用值,由用户设定。本文f(np)=–1。
e(wp,Dq),否定客观值,否定词集N在网页Dq中敏感词wp第n次出现时,在wp前第一个分句标点到敏感词wp范围内出现的频率值为Mn。
s(wp),敏感度值,为敏感词wp在词表中的敏感级别,由用户设定,反映出词的敏感程度。s(wp)>s(wq)说明s(wp)比s(wq)影响力更强。敏感度值独立于数据库D。
u(wp,Dq),效用公式u(wp,Dq)=e(wp,Dq)s(wp)
s(X,Dq),网页Dq的敏感度,s(X,Dq)=
ε,网页敏感度阀值,由用户设定。对于网页Dq,如果s(X,Dq)>ε,则称之为高敏感度网页,反之为低敏感度网页。
二、敏感网页挖掘系统的设计与应用
(一)系统设计
系统流程如下图所示:1.系统通过网络蜘蛛从互联网上抓取网页,得到网页集合;2.对得到的网页集进行网页清洗、分词、去停用词,并保留网页url,得到网页文本集合;3.使用tf-idf权重模型建立向量空间模型;4.使用敏感词效用表及否定词效用表对网页向量敏感度进行计算,得到敏感向量集合;5.与用户预设的敏感度阈值进行比较,只保留高于阈值的敏感网页向量,并按敏感度由高到低的顺序进行排序,得到最终的敏感向量结果集合;6.使用保留的url信息将文本向量还原成网页返回给用户。
(二)实验结果
实验数据采用经人工筛选的包含敏感网页的新闻网页的数据集作为样本。并设定本系统的高敏感度关键词集阀值为2.5%,关键词敏感度级别值为W1=8、W2=4、W3=2、W4=1。
经更换样本空间反复测试,本算法结果查准率和查全率均在96%以上。并能够按照敏感程度由高到低排序。给互联网网络管理者提供了很大程度的方便。
三、需要注意的问题
在建立向量空间模型时,只保留敏感词前第一个分句标点到敏感词范围内的否定词。在计算否定客观值e(wp,Dq)时,否定词频率以相加计数的方式累计到其后面出现第一个敏感词的Mn上。
参考文献:
[1]Jiawei Hn,Micheline K,etc.数据挖掘概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2001
[2]李盛韬.基于主题的Web信息采集技术研究[D].北京:中国科学院计算技术研究所,2002
[3]林冬雪.基于改进向量空间模型的web信息检索技术研究[D].重庆:重庆大学工,2005
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文