论文部分内容阅读
首先介绍一下TF-IDF算法的官方概念:TF-IDF是一种统计方法,用来评算估测一个词字对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常常被用来搜索应用,作为文件与用户的查询之间的相关程度的度量或评级。
接下来看一下TF-IDF算法的核心使用概念:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词或者这个短语具有很好的类别区分能力,适合用来进行分类。同时,如果一篇文章中出现了我们要查的词,我们就会认为该文章与我们要查的词有比较大的相关性。延续这种思路,如果一篇文档中出现要查询的词的次数越多,该文章与要查询的词之间的相关性应该越大。
具体我们应该如何使用TF-IDF算法,可以采用如下思路:在TF-IDF算法中,先定义一个TF(t,d)表示词语t在文章d中的出现次数。我们可以通过关键词密度查询工具来查询该词的TF值,但仅仅考虑词出现的次数是不行的,因为我们通常查询的都是两个以上的词,比如“AA BB”或者“XX YY ZZ”等形式。如果是这种形式的查询,到底哪个词出现的次数应该作为重要性的依据呢?这就引出了IDF来测量词的稀缺度,在这里我们定义IDF为IDF(t)= log(N / DF(t))(具体含义下段会解释)。
其中DF(t):该词(以t为代表)在多少篇文章中出现过。查询办法是通过google搜索某一个词t,得到的搜索结果我们可以理解为DF(t)。
另外,我们定义一个大写字母N来表示总文章数。这个数值虽然在我们工作中没有什么实际的用处,因为我们不可能知道搜索引擎索引了多少文章。但是对于搜索引擎来说,N却是一个判定词权重的数据。
接下来是log:这个也不是我们工作中需要考虑的数值。一般来说,log的底数可以随便设定,我们采用+1的方式来抑制多倍夸张情况的出现。
接下来我们看一段实例,如何真正的去操作TF-IDF算法:
TF-IDF值 = TF×IDF(TF乘以IDF)=(1+log tf(t,d))× log(N / DF(t))。以《网站权重 SEO》和《SEO学习:什么是网站权重》这篇文章为例:“网站权重”TF值为:w=1+log 31(次出现)=2.49。“网站权重”IDF值为:log(1万亿(假设值,08年数据)/ 23,200,000篇)=4.63。“網站权重”TF-IDF值为:2.49*4.63=11.53。“SEO”TF值为:w=1+log 34(次出现)=2.53,“SEO”IDF值为:(1万亿(假设值,08年数据)/ 1,220,000,000篇)=2.91。“SEO”TF-IDF值为:2.53*2.91=7.36。我们得到了“网站权重”TF-IDF值11.53和“SEO”TF-IDF值7.36。
TF-IDF值越大,文章与索引词越相关;只有当“网站权重”这个词权重高的页面,才有可能在“网站权重 SEO”这个搜索结果的排名上有比较好的效果。
接下来看一下TF-IDF算法的核心使用概念:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词或者这个短语具有很好的类别区分能力,适合用来进行分类。同时,如果一篇文章中出现了我们要查的词,我们就会认为该文章与我们要查的词有比较大的相关性。延续这种思路,如果一篇文档中出现要查询的词的次数越多,该文章与要查询的词之间的相关性应该越大。
具体我们应该如何使用TF-IDF算法,可以采用如下思路:在TF-IDF算法中,先定义一个TF(t,d)表示词语t在文章d中的出现次数。我们可以通过关键词密度查询工具来查询该词的TF值,但仅仅考虑词出现的次数是不行的,因为我们通常查询的都是两个以上的词,比如“AA BB”或者“XX YY ZZ”等形式。如果是这种形式的查询,到底哪个词出现的次数应该作为重要性的依据呢?这就引出了IDF来测量词的稀缺度,在这里我们定义IDF为IDF(t)= log(N / DF(t))(具体含义下段会解释)。
其中DF(t):该词(以t为代表)在多少篇文章中出现过。查询办法是通过google搜索某一个词t,得到的搜索结果我们可以理解为DF(t)。
另外,我们定义一个大写字母N来表示总文章数。这个数值虽然在我们工作中没有什么实际的用处,因为我们不可能知道搜索引擎索引了多少文章。但是对于搜索引擎来说,N却是一个判定词权重的数据。
接下来是log:这个也不是我们工作中需要考虑的数值。一般来说,log的底数可以随便设定,我们采用+1的方式来抑制多倍夸张情况的出现。
接下来我们看一段实例,如何真正的去操作TF-IDF算法:
TF-IDF值 = TF×IDF(TF乘以IDF)=(1+log tf(t,d))× log(N / DF(t))。以《网站权重 SEO》和《SEO学习:什么是网站权重》这篇文章为例:“网站权重”TF值为:w=1+log 31(次出现)=2.49。“网站权重”IDF值为:log(1万亿(假设值,08年数据)/ 23,200,000篇)=4.63。“網站权重”TF-IDF值为:2.49*4.63=11.53。“SEO”TF值为:w=1+log 34(次出现)=2.53,“SEO”IDF值为:(1万亿(假设值,08年数据)/ 1,220,000,000篇)=2.91。“SEO”TF-IDF值为:2.53*2.91=7.36。我们得到了“网站权重”TF-IDF值11.53和“SEO”TF-IDF值7.36。
TF-IDF值越大,文章与索引词越相关;只有当“网站权重”这个词权重高的页面,才有可能在“网站权重 SEO”这个搜索结果的排名上有比较好的效果。