基于复杂网络的文本关键词提取分析平台

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:arthurpzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来以及互联网的蓬勃发展,关键词作为对文本主题的高度概括,成为用户搜索信息必不可少的工具,如何快速有效地挖掘文本关键词成为现今研究的热点。而基于复杂网络的文本关键词提取作为最新的关键词提取方法,学者们对其的研究也十分热衷。本文将文本数据抽象为复杂网络进行研究与分析,并构建了关键词提取分析平台实现对文本关键词的批量自动提取,主要成果如下:1.总结了国内外学者对关键词提取的研究概况,主要介绍了不同领域对关键词提取的经典方法,并分析了各类方法的局限性;针对现有的基于复杂网络的文本关键词提取算法进行研究,详细介绍了复杂网络常用的节点重要性衡量指标,包括常用的统计参数和相关算法,并对其进行对比分析。2.考虑到词频对文本主题的重要性,提出“词频分享权重”的概念,继而提出了一种构建加权文本网络的新方法,将目标节点的词频值根据邻居节点对其的重要度贡献来分配给相应的连边,从而实现对网络的加权,改善了目前已有研究大多基于“词语在同一个句子中共现次数”为连边加权的现状。3.在构建的加权文本网络基础上,结合人类语言特性引入位置权重系数,基于PageRank算法提出了一种基于复杂网络的文本关键词提取算法LTWPR。利用该算法对采集的新浪新闻语料进行多类关键词提取实验,并将实验结果与两种经典算法进行比较,验证了该算法的准确性和有效性。同时从多方面说明LTWPR算法在挖掘文本的关键词方面表现优异,适用于大批量文本网络关键节点挖掘。4.开发了一个基于复杂网络的文本关键词提取分析平台,实现批量读入文本数据、批量输出文本关键词。平台具有界面简洁友好、操作便捷、可扩展性强的优势,能够较好地批量处理文本数据、仿真各类文本关键词提取算法并将结果与作者标注的关键词进行对比等功能。平台较好地集成了本课题的研究成果,有助于快捷直观地进行文本关键词提取研究,具有良好的工程实用性。
其他文献
党的十八大以来,国内学术界对习近平的生态文明思想展开研究,并取得较为丰富的成果。学者们主要从形成背景、理论来源、主要内容、显著特点、价值意义和实践路径等方面对习近
<正>今年双十一,化妆品行业的前十名,八个是国货,国际品牌只有欧莱雅和玉兰油两个。当然,国际大牌没有放开跟我们玩。但这也反映了一个趋势:国际品牌在淡化。当初很多品牌在
中小企业在我国经济发展中占有重要地位。税收的优惠政策决定着中小企业的成长,而其在我国的实行过程中仍存在很多缺陷。通过对我国中小企业税收优惠政策现状及问题的分析,从
全球经济一体化进程日益加快,进而导致全球范围内的市场竞争愈演愈烈,企业之间的竞争越来越激烈,企业单纯的发展已经远远无法满足当今时代对企业发展的基本需求,所以,企业并
<正> 世界闻名的珍稀植物红杉Sequoia sempervirens是裸子植物中唯一染色体倍性最高的自然多倍体(2n=6x=66),植物学工作者一直十分关注着它的起源问题。Hirayoshi &Nakamura
期刊
在家禽养殖中,疾病是影响家禽健康的重要因素,一旦家禽养殖中出现疾病威胁,不仅会影响养殖户的收入,而且会威胁到人们的健康。因此,必须做好疾病预防工作。基于此,本文就家禽
现金对于企业就像血液对于人一样重要,现金管理如果出现问题,企业就会面临大问题。加强现金管理对中小企业的发展非常重要,为此,分析了我国中小企业现金管理中存在的问题,并
阐述了高等农业院校本科教学管理的系统整合思想,研究了农业本科教学管理理念的内部与外部的创新,最后提出了其管理体制创新路径,即建立"1个重心、2级管理、3个层次"的高等农
<正>党的十八大报告明确指出,要"促进城乡要素平等交换和公共资源均衡配置,形成以工促农、以城带乡、工农互惠、城乡一体的新型工农、城乡关系。"小城镇建设,就是要通过统筹
韦氏儿童智力量表是迄今为止最权威和应用最广泛的儿童智力量表之一。自面世以来,它在各类特殊儿童的筛查、诊断、安置、干预与治疗过程中一直发挥着重要作用。目前,该量表已