大数据背景下文档关键词抽取方法的探讨

来源 :新教育论坛 | 被引量 : 0次 | 上传用户:mhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:关键词抽取是借用计算机从文档中选择出能够反映主题内容的词,提供一个简短的内容摘要,便于用户获取文档信息。在当今大数据时代,在文本处理的许多领域,关键词抽取都是一项重要技术。选取关键词的目的是运用关键词最大限度反映出文档内容,研究从文档集中选取关键词的方法。本文通过引入能够与文档相关程度的指标 (分数),建立出 的数学模型,给出文档关键词抽取方法。
  关键词:关键词抽取;TextRank算法;多文档 ;聚类
  0 引言
  在大数据背景下,关键词提取在文本处理的许多领域,都成为一项重要技术。大数据是全体数据,追求精确度和因果关系都变得意义不大,寻找事物之间的相关关系变得更加重要。在面对大量文档时,人们想通过阅读关键词来了解大致意思,所以如何较好提取关键词尤为重要。周锦章等[1]将文档集进行词向量表征,通过构建TextRank的转移概率矩阵,提出一种基于词向量与TextRank的关键词抽取方法。罗燕等[2] 运用词频统计规律改进传统TE-IDF算法,改善了关键词的提取效果。门家乐[3]提出了如何用TextRank做关键词提取。目前关键词提取的主流方法有基于隐含主题模型的LDA[4]、基于TF-IDF [5]词频统计的关键词抽取,基于词图模型TextRank[6]的关键词抽取。
  1 关键词概念
  一般来说,文档的主题要通过一些特定的,能够体现主题的词语来刻画,这样的词叫作关键词。对于文档,首先是要确定一个文档的关键词。我们可能猜测文档中最频繁出现的词语应该是最重要最有资格充当关键词。但是,这个直觉实际情况恰恰相反。出现最频繁的大部分词语都是那些类似于“the”或者“and”等常见词。这些词语通常用于辅助表达,但本身不携带任何含义。实际上,英语中几百个常见词,往往在文档分类之前就被去掉。
  事实上,描述主题的词语往往都是罕见。从信息论角度看,用罕见的词语当作关键词比起相对常见的词做关键词,更能引起人们的注意,能获得更大的信息量。但是,并非所有罕见的词语在做关键词时同等重要。一方面,某些在整个文档集合中极少出现的词“notwithstanding”(尽管), “ albeit”(虽然)并不能提供多少有用的信息,当然做检索词语是不合适的。另一方面,比如, “chukker” (马球戏的一局)的词虽然和上述词语一样罕见,但是该词语却能提示我们文档明显和马球运动有关。上述两类罕见的词语区别在于它们是否在部分文档中反复出现有关。也就是说,类似“albeit”的词语第一次出现并不会增加它多次出现的可能性。但是,如果一篇文章中出现“chukker”,那么随后可能会提到“first  chukker”(第一回),“second chukker”(第二回)发生什么,以此类推。也就是说,如果这类词在文档中出现,那么他它们很可能反复出现。罕见词“chukker”具有两个特点:一是罕见,二是连续性。
  我们一旦确立了罕见词语做关键词,那么不能做关键词的罕见词看作是“噪音”。下面,我们将给出尽可能避免噪音的一种获取最大信息量的检索词语选择方法。
  2 关键词选择方法
  为了特定搜索目的,按照以下步骤完成互联网上调查。
  (1)文档集
  选定m个检索词,在Google依着这m个检索词查询,获得相应的m类文档:N= ,假设这些子文档集总和为 N,建立由N个子文档构成的文档集。
  (2)词项(词组)集
  为了对N个文档赋予关键词,对所有文档逐一地进行分词。分词是按照一定的规范重新组合成词项的过程。中文分词是文本挖掘基础。对于输入一段中文,成功的中文分词,可以达到电脑可以自动识别语句含义的效果。对所有N的个文档进行分词后,我们获取了“词项(词组)”集合。在这个词项(词组)集合中的每一个词项(词組)可能成为某一文档的关键词。当然,并不是在词项(词组)集合中的词都能称为关键词。一个词项(词组)能不能成为关键词,就要看这个词项(词组)能不能代表文档的信息。
  (3)词(词组)出现的概率
  为词项(词组)i在文档j中的得分。
  【例】假定文档集中有N= =1048576篇文档,并词项1在其中 =1024个文档中出现,假定文档5中,词项1出现20次(假定这也是在这个文档中词语出现最多的次数)
  D15= =1 10=10
  词项1在文档5中得分为10。
  (5)赋予文档关键词
  对文档集(N个文档)中的指定的文档 j,计算所有词项在该文档中的得分,得分最多的词项作为文档j的关键词。
  基于关键词的得分,按照分数由大到小,给关键词排序,确定文档的关键词。
  结束语:本文通过引入能够与文档相关程度的指标Dij(分数),建立出Dij的数学模型,给出文档关键词抽取方法。词项Dij与词项出现的概率及词项所含信息量有关,本文给出的关键词抽取方法理论简单易懂,只是运用了简单的概率、-log2pi与信息量Ii呈负相关关系等数学知识,并且该方法操作简单,可行性强。本文只是给出理论方案,没有给出计算机运行程序,在推广方面仍存在不足,这点是我继续研究的方向。
  参考文献:
  [1]周锦章,崔晓辉.基于词向量与TextRank的关键词提取方法.计算机应用研究[J/OL],2019,36(5). [2018-03-09]
  [2]罗燕,赵书良,李晓超等.基于词频统计的文本关键词提取方法[J] 计算机应用.2016,36(3):718-725.
  [3]门家乐.基于TextRank的关键词提取算法. 探索与观察.
  作者简介:
  第一作者简介:孟晓燕(1981-), 汉,女,山东菏泽人,本科,副教授,主要研究方向高等数学、应用数学。
  第二作者简介:赵卫红(1978.12-),女,籍贯:山东青岛,学历:本科,单位:青岛黄海学院,职称:副教授,职务:教师,研究方向:高等教育,英语教学与研究。
其他文献
摘要:目的:分析常规的康复治疗和快速康复外科治疗对胃癌的影响。方法:择取我院2018年12月-2019年4月72例胃癌患者作为研究对象,根据随机数字表的方法,将其划分成对照组与实验组,各36例。对照组行常规康复治疗,实验组采用快速康复外科治疗,在此基础上,比较对照组与实验组的第一次排气时间、住院时间、住院费用、反应蛋白、IL-6水平、术后并发症发生率。结果:实验组第一次排气时间、住院时间、住院费用
期刊
摘要:本文以珠三角中小外贸企业为对象分析其自有品牌的发展现状,在此基础上实证分析自有品牌拥有情况对社会消费品零售总额的影响,最后提出中小外贸企业发展自有品牌的策略。  关键词:自有品牌;社会消费品零售总额;珠三角中小外贸企业;策略  一、引言  自有品牌(Private Brand,简称 PB)是商业零售企业自己创意并经营的商品品牌。零售企业通过搜集、整理、分析消费者对某类商品需求特征的信息,提出
期刊
摘要:为确保2020年实现农村贫困人口全部脱贫、贫困县全部脱贫摘帽,各地开展多层次、多角度、多方式的精准扶贫工作。金融扶贫作为精准扶贫的重要方式,能够有效激发部分有生产力且有发展意愿的贫困群体的积极性,有利于促进农民能力提升,推动农村经济建设,积极响应十九大上提出的“让贫困人口和贫困地区同全国一道进入全面小康社会”的扶贫目标,深刻领悟习近平总书记提出的中国扶贫攻坚工作一系列重要讲话和措施。一些地区
期刊
夏季常突然的,在充满窒息的空气里,一场暴雨突至,夹杂着呼啸的风,以摧枯拉朽之势昭告它的到来。虽气势磅礴,却也显得有些虚张声势。每到这时,我尤为想念江南梅雨。江南的雨,温软如玉,悄无声息,轻轻撩拨在人的心弦之上。我想念江南的雨,想念它隐者的模样。  江南的梅雨,安安静静地做着唐诗宋词的韵脚,翩跹在自己的天上人间,也会偶尔调笑着,给路边的花儿们,留下一个个轻柔柔湿漉漉的吻。必然地,落雨时分,在某个长着
期刊
摘要:融媒體相比于传统媒体来说具有较大的优势,发展速度较快,并在发展过程中对传统媒体产生较大的冲击,降低了传统电视媒体的影响力。本文从传统电视媒体的现状入手,深入进行分析,结合实际情况探索出融媒体时代背景下传统电视媒体转型的路径,以供参考。  关键词:融媒体时代;传统电视媒体;转型;路径  引言:随着科学技术的创新发展,计算机逐渐渗透在人们日常生活的各个方面,为人们提供优质的服务,带起一股计算机狂
期刊
摘要:分体式太阳能热水器实现了集热器与蓄热水箱的分离,采用强制循环的换热方式,以S3C9488芯片为核心部件,实现定温上水、温差循环、定时定温加热等功能,通过用户界面可以设置时间、温度、水位及实时显示,并具有高温保护、防溢流保护和防冻保护。  关键词:分体非承压:温差循环;模糊控制  目前,市场上太阳能热水器控制器多采用整体式结构,强电与弱电部分在同一块线路板上,有一定的安全隐患;绝大部分控制器采
期刊
摘要:军官福利保障就其形态而言,可分为军官福利保障社会化、军官福利保障市场化、军官福利保障货币化、军官福利保障法治化等。但不管是社会化保障还是市场化保障或者货币化保障,都必须建立在法治保障的基础之上,并以此为依托。因为法律具有最高的权威,具有极强的制约力。因此,对军官福利实行法律保护,不仅是必要的,而且是有效的。特别是在我国市场经济迅猛发展,民主与法制日益健全的条件下,探讨研究并逐步实现军官福利保
期刊
摘要:习近平总书记5月2日在与北京大学师生座谈时指出:“要把立德树人的成效作为检验学校一切工作的根本标准,真正做到以文化人、以德育人,不断提高学生思想水平、政治觉悟、道德品质、文化素养,做到明大德、守公德、严私德。要把立德树人内化到大学建设和管理各领域、各方面、各环节,做到以树人为核心,以立德为根本。”因此在立德树人视角下大学生诚信及其教育事业关系到高校教育和人才培养,而大学生诚信与否及大学生诚信
期刊
摘要:现如今,石油被广泛应用于现代工业生产过程中,随着工业对石油需求量的日益增大,石油的开采量和开采技术也随之提高,特别是海洋石油。在海洋石油开采的过程中,对钻井设备的使用必不可少,钻井设备的使用对石油开采量具有提升作用。石油钻井设备与企业的生产成本息息相关,企业为了提高经济效益,在激烈的市场竞争中脱颖而出,就必须重视对钻井设备的维修管理,切实解决设备中存在的问题,保证钻井设备的稳定运行。本文对海
期刊
摘要:随着我国市场化经济的不断发展,企业之间的竞争也是如火如荼,而现代企业想要在如此激烈的市场竞争中脱颖而出,就需要积极的提高自身的影响力,增强自身的核心竞争力。企业想要达成这一点,就需要紧随时代发展,将信息化技术融入到企业的财务管理以及内部控制之中,切实的提升企业的核心竞争力。因此,本文首先将分析企业内部控制及财务管理信息化建设中出现额问题,然后详细阐述企业内部控制及财务管理信息化建设的具体措施
期刊