基于TF—IDF算法的研究与应用

来源 :炎黄地理 | 被引量 : 0次 | 上传用户:einsun222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  首先介绍一下TF-IDF算法的官方概念:TF-IDF是一种统计方法,用来评算估测一个词字对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常常被用来搜索应用,作为文件与用户的查询之间的相关程度的度量或评级。
  接下来看一下TF-IDF算法的核心使用概念:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词或者这个短语具有很好的类别区分能力,适合用来进行分类。同时,如果一篇文章中出现了我们要查的词,我们就会认为该文章与我们要查的词有比较大的相关性。延续这种思路,如果一篇文档中出现要查询的词的次数越多,该文章与要查询的词之间的相关性应该越大。
  具体我们应该如何使用TF-IDF算法,可以采用如下思路:在TF-IDF算法中,先定义一个TF(t,d)表示词语t在文章d中的出现次数。我们可以通过关键词密度查询工具来查询该词的TF值,但仅仅考虑词出现的次数是不行的,因为我们通常查询的都是两个以上的词,比如“AA BB”或者“XX YY ZZ”等形式。如果是这种形式的查询,到底哪个词出现的次数应该作为重要性的依据呢?这就引出了IDF来测量词的稀缺度,在这里我们定义IDF为IDF(t)= log(N / DF(t))(具体含义下段会解释)。
  其中DF(t):该词(以t为代表)在多少篇文章中出现过。查询办法是通过google搜索某一个词t,得到的搜索结果我们可以理解为DF(t)。
  另外,我们定义一个大写字母N来表示总文章数。这个数值虽然在我们工作中没有什么实际的用处,因为我们不可能知道搜索引擎索引了多少文章。但是对于搜索引擎来说,N却是一个判定词权重的数据。
  接下来是log:这个也不是我们工作中需要考虑的数值。一般来说,log的底数可以随便设定,我们采用+1的方式来抑制多倍夸张情况的出现。
  接下来我们看一段实例,如何真正的去操作TF-IDF算法:
  TF-IDF值 = TF×IDF(TF乘以IDF)=(1+log tf(t,d))× log(N / DF(t))。以《网站权重 SEO》和《SEO学习:什么是网站权重》这篇文章为例:“网站权重”TF值为:w=1+log 31(次出现)=2.49。“网站权重”IDF值为:log(1万亿(假设值,08年数据)/ 23,200,000篇)=4.63。“網站权重”TF-IDF值为:2.49*4.63=11.53。“SEO”TF值为:w=1+log 34(次出现)=2.53,“SEO”IDF值为:(1万亿(假设值,08年数据)/ 1,220,000,000篇)=2.91。“SEO”TF-IDF值为:2.53*2.91=7.36。我们得到了“网站权重”TF-IDF值11.53和“SEO”TF-IDF值7.36。
  TF-IDF值越大,文章与索引词越相关;只有当“网站权重”这个词权重高的页面,才有可能在“网站权重 SEO”这个搜索结果的排名上有比较好的效果。
其他文献
摘 要:揉弦是一种弦乐器演奏很有表现力的技巧(其中包括小提琴、中提琴、大提琴、低音提琴),用它可以来表现不同风格和特征的每一个音或每一个乐段。本文首先简述了揉弦的种类及如何学习揉弦,并针对揉弦学习中出现的问题提出有效的纠正方法,仅供参考。  关键词:揉弦种类;问题;分析;应用  1 揉弦的种类  揉弦在音质上,可以分成两种:一种是强烈的有深度的“揉”弦,另一种是表面上起装饰作用或收尾作用的“柔”弦
期刊
摘 要:创新驱动发展战略指导下,国家对于创新创业人才的需求与日俱增。高校作为人才培养主阵地,适应新时代背景下经济社会发展需求开展创新创业人才培养符合高校工作实际。结合当前高校“双创”人才培养开展实施现状,论述高校开展“双创”人才培养的必要性,并提出中外合作办学环境下高校“双创”人才培养实施路径,以期为深入持续开展“双创”人才培养工作提供经验借鉴。  关键词:创新创业教育;中外合作办学;培养路径  
期刊
摘 要:全新世以来,我国乃至全球发生过多期古洪水事件,古洪水作为一种环境驱动力对古文化的兴衰演变具有重要的影响。即使在科学技术如此发达的今天,洪水依然会给我们的生命和财产造成重大威胁。远超历史调查洪水重现期的万年尺度的古洪水研究对于生态环境以及全球气候变化的认识都具有重要的意义。因此,本文从认识古洪水入手,通过介绍古洪水的年代和水文学研究方法,认识万年尺度古洪水的危害,以期能让大众了解洪水,认识自
期刊
摘 要:地理是高中生学习的基础课程之一,学习这门课程不仅能够使学生在考试中获得更高的分数,同时还能够解决其在实际生活中遇到的种种问题,提高其综合能力。为此,本文将从地理核心素养入手,探讨培养学生实践能力的方法策略。  关键词:中学地理;核心素养;实践能力;培养  “核心素养体系”一词正式被提出是在2014年3月30日,该理念是在教学三维目标的基础上提出的,是对三维目标的发展和深化。不同学科中核心素
期刊
摘 要:习近平总书记在2017年6月14日会见国际足联主席伊凡蒂诺时对中国足球的发展提出了“三大愿景”,第1个是提高国民健康素质,第2个是培养爱国主义、集体主义和顽强拼搏的意志品质,第3个是提高中国足球的竞技水平,参加世界杯、举办世界杯和赢得世界杯。习近平总书记还指出,足球运动的真谛不仅在于竞技,更在于增强人民体质,培养人们爱国主义、集体主义、顽强拼搏的精神。在谈到足球运动的普及时,强调要培养全社
期刊
摘 要:时代在不断地发展,教育领域也在悄然地发生变化,现如今,小学数学教学已经不再是之前一味地注重学生文化知识的学习,注重学生分数提高的情况,对学生核心素养的发展也提起了足够的重视,希望能够在数学教学中培养学生的学习能力与数学思维,促进学生的全面发展。本文就核心素养下小学数学高效课堂的构建方法展开了研究。  关键词:核心素养;小学数学;高效课堂  0 引言  教学理念一直在进行革新,在以前,教师受
期刊
摘 要:随着社会的发展以及生活水平的提高,大学生的消费水平逐渐提高,而且消费形式日趋多元化,大学生的消费观念也发生了很大的变化,产生了享乐主义、拜金主义等不良思想。所以对大学生树立正确的消费观的引导就变的非常重要。  关键词:消费;大学生;正确消费观;引导  1 加强社会对大学生消费观的引导和教育  大众媒体具有强大的号召力,应该充分利用媒体的这一特性来引导大学生树立科学的消费观。对于大学生不仅要
期刊
摘 要:问题导向是指以问题为中心开展教学活动的教学。本人通过对实践原则的了解与把握,提出在高中地理课教学中实施问题导向的路径:创设情景,提出问题缘由;互动探究,揭示问题本质;总结引领,提升学生素养。在对这三步实施步骤逐一探究、设例解析的基础上,深化对问题教学法的理解,强化其在高中地理课教学中教学中的应用,使其成为课堂改革教学中一种有效的教学法。  关键词:课堂教学;问题导向;路径思考  现阶段,在
期刊
摘 要:课堂教学是学生获得知识必不可少的重要途径之一,是促进学生身心发展的主要方式,更是进行教学活动的主要阵地。因此,课堂教学的实效性直接关系到学生知识获得的多少、学生身心的发展和教学目标的实现。  关键词:小学语文;阅读教学;实效性  阅读教学是语文教学的重头戏,在语文教学中占有很大的比例,阅读教学的实效性对提高整个语文教学的实效性具有特殊意义。  1 制定科学的教学目标  教学目标是课堂教学的
期刊
摘 要:随着国家提出可持续发展战略,环境保护也成为当前社会的热点问题。为了提高全面的环保意识,教育领域开始重视学生环保观念的培养。因此,作为初中地理教师在组织教学工作时,需要合理渗透环保教育,让学生形成良好的环境观念。鉴于此,本文主要以“人类活动与环境”为例,分析教师如何在地理教学活动中培养学生环境观念。  关键词:初中地理;课堂教学;环境观念;培养  前言  素质课改背景下,初中地理教学呈现出新
期刊