基于复杂网络的关键词提取研究

被引量 : 0次 | 上传用户:gf_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸时代,信息量呈几何级数增长。面对海量文本,如何快速掌握某篇文章的主题、把握作者思想,成为节约读者时间、提高阅读速度的关键问题。关键词作为文章主题和作者思想的体现能够有效解决该问题。然而,网络上的绝大部分文章并未提供关键词,如果对这些文本采取人工标引的方法进行关键词标注,不仅费时费力、效率低下,而且主观随意性比较大。因此,关键词自动提取的研究具有重要的现实意义。传统的关键词提取算法只注重文档的表层统计特性(如词频、词语位置、词语长度等),忽略文档的语义信息和结构信息,导致关键词语义和结构信息的缺失。而现有基于词语网络的关键词提取算法,虽然在一定程度上利用了文档的结构信息,但语义信息的利用依然不足,并且网络的构造过程过分依赖于分词的粒度。针对上述问题,本文对基于复杂网络的关键词提取进行了研究。首先针对传统词语网络构造过程中过分依赖分词粒度的不足,提出一种邻近名词合并的算法,在ICTCLAS初步分词的基础上利用提出的邻近词合并算法识别出名词短语,并将短语添加到分词词典中,然后对待处理文档重新进行分词;其次针对传统词语网络语义缺失的问题,在文本复杂网络的构建过程中利用知网对网络节点进行语义标注,为词语网络加入语义信息,然后利用改进的语义相似度计算方法计算节点间的相似度,合并相似节点;再次,在节点重要度计算过程中,提出一种综合考虑网络节点介数和节点加权中心度的综合权值公式。最后,根据提出的算法流程,设计并实现了一个基于复杂网络的关键词提取的原型系统,并对本文提出的各种算法进行了对比实验,结果表明本文提出的关键词提取方法获得了更好的抽取效果。
其他文献
现代汉语中的副词种类繁多,陈望道先生的《文法简论》只将其分为两类,即限制副词和修饰副词1。而王力先生的《中国现代语法》则将副词分为八类,包括程度副词,范围副词,时间副词
人们对优质教育资源需求的不断增加与优质教育资源短缺的矛盾成为当前义务教育阶段的主要矛盾。“择校热”、“城乡教育差距显著”等一系列现实问题及由此引发的教育公平问题
非煤矿山行业是对经济社会发展具有重要影响的资源性和基础性行业。随着中部崛起和产业转移的推进,安徽非煤矿山行业担负着保证工业长期持续发展原料供给的重担,而非煤矿山行
近年来,世界篮球中锋运动员水平普遍提高,要提高篮球中锋运动员的竞技水平首先必须对篮球中锋运动员自身及其在比赛中的规律性有清楚的认识和准确的把握。中锋的比赛跑动能力
本文利用露头、钻孔岩心、测井等资料对华南晚二叠世含煤岩系进行了沉积学、层序地层学和聚煤作用研究。在区内共识别出砾岩类、砂岩类、化学岩类、泥质岩类和火山碎屑岩类5
随着中国经济的快速发展及全球“汉语热”的到来,越来越多的留学生来华学习汉语。学习汉语,尤其是熟练掌握汉语能愿动词的基本用法,这对在华留学生来说毕竟不是一件很容易的
团队情绪智力,是近10年来在西方兴起的一个跨越团队与情绪智力研究的新课题,反映的是团队建立觉察和调节团队中情绪的规范的能力。团队情绪智力能帮助团队建立包括团队信任、团
随着互联网技术和计算机技术的高速发展,人们获取资源和服务变得更加方便快捷了,但与之伴随而来的安全问题也日益突出。人们遭受到的安全威胁类型越来越多,包括黑客攻击、网站木
农产品质量安全问题已成为农业发展新阶段中最主要的矛盾之一,无公害农产品就是伴随着环境问题和食品安全问题产生并推广的。目前正值我国无公害农产品推广十年之际,在其蓬勃
超疏水、超疏油材料由于其优异的自清洁能力在基础科学研究和工业领域中具有广泛的应用价值。受自然界超疏水荷叶表面的启发,人们对超疏水表面的构筑、制备和性质研究产生了