基于图模型的关键词抽取研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:syj19630113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网上文本数量飞快增长,检索导某个用户有关的信息非常复杂。目前研究人员已经做了许多与信息检索和文本分析有关的工作来克服这类问题,这是一项关于关键字提取的热门研究课题。用于观察和分析的数据可能有很多类型,如图片和其他形式。用户还可能通过社交媒体、维基百科或其他途径来产生数据。大多数人在推特平台上产生导本人有关的数据(推特是一个社交媒体平台,是最流行的短文本获取平台之一,因为每条推特消息最多包含140个字符)。关键字提取是一个向计算机输入文本,然后计算机根据文本内容返回一组相关的关键字和短语的过程。关键字提取有助于读者在不阅读整个文档的情况下理解文档的大概内容或至少是核心思想。这样潜在的读者就不会浪费宝贵的时间去认真阅读不感兴趣的文档。通常,用户可以通过搜索关键字找到与特定事件相关的文章。关键词提取方法在许多领域得到了广泛的应用,尤其是在信息检索领域中提取关键词时。这是一个特别有潜力的应用,因为人们会根据关键字检索重要的信息。在这篇论文中,我们在从推特上收集来的四个不同主题的数据集上使用了一个基于图的关键字提取算法。通过NLTK对数据集进行预处理,我们可以得到优化后的数据,并由此生成共生关系图。此外,我们还展示了对共生关系的研究是否能够跟踪每一篇文章的结构,但是,这种方法处理起来更为繁琐,而且常常导致可视化的混乱。相较于其他的可视化算法库,我们选择更加可靠的python内置绘图库。TextRank算法是一种基于图的关键字提取算法,它主要遵循Google的pagerank算法,但在单词和连接的处理上又有所不同。TextRank算法会计算每组相关单词的分数,然后我们可以通过该分数找到语料库中更重要的单词,并且还可以找到这些相关单词的准确率。词云也是一种流行的自然语言处理可视化算法,它能够用不同的外观来表示单词。互联网上有许多词云相关的例子。本研究测试所用数据皆是由从推特上获取的真实数据。
其他文献
天然酶在执行其生物功能过程中往往不是以单体形式存在,而通过彼此相互结合,形成有利于反应进行的复合催化中心,提高其催化效率。然而,由于蛋白酶与蛋白酶相互作用过程转瞬即
地震数据采集是地震勘探的重要环节,是地震数据处理、解释的基础,近年来,随着勘探程度的不断深入,新勘探区域地表条件和地下构造变得越发复杂,如沙漠、山地、高原等区域,由于
分子内电荷转移(Intramolecular Charge Transfer,ICT)指的是分子内的不同基团之间的电荷转移过程。近些年来,具有ICT特性的有机小分子由于其在有机发光二极管,化学传感器,染
以科学技术和信息网络为时代特征的今天.教育面临着一次又一次的改革,改变的目的就是让教育对象得到更好的发展。培养一批批身心健康,和谐发展的幼儿,是幼教工作者的最大理想
会议
动机作为影响第二语言学习因素中最为重要的因素之一,近二十年一直是二语习得研究领域的热点。随着中国国际地位的上升以及中华文化的广泛传播,越来越多的外国人选择学习汉语。对汉语作为第二语言学习者学习动机的研究也日益增多,但鲜有从活动理论视角对汉语二语动机进行的研究。因此,本研究将尝试从活动理论的视角来探讨来华前后留学生汉语二语学习动机的变化及原因。本研究以湖北工业大学国际学院留学生为样本进行问卷调查,以
偏好处理是人工智能领域的一个热门研究领域,条件偏好网(Conditional Preference networks,CP-nets)是一种图模型,可以表示变量与变量的偏好关系。其主要研究内容包括CP-nets的表示、推理、聚合和学习等。近年来,CP-nets的学习研究正吸引越来越多的关注,并取得了一系列的成果。CP-nets学习的思想是通过观察用户的查询记录来提取偏好结构和多个偏好参数。但是,C
微型扑翼飞行器是一种以昆虫和鸟类为仿生对象的新概念飞行器,在低雷诺数下飞行具有很高的气动效率和灵活性,还具有体型微小、飞行隐蔽的特点,在军、民领域有重要的应用价值
LiH_2反应体系的基态和第一激发态的势能面在与天体物理学相关的Li+H_2的反应中,发挥着至关重要的作用。我们利用多参考组态相互作用(MRCI)的方法和aug-cc-pv5z的基组计算了LiH_2反应体系的从头算能量点,为了保证所构建的势能面的精确性,对于LiH_2反应体系的每个电子态,我们都选用了83930个分子构型来计算能量点。从我们构建的势能面中得到的关于H_2(X1∑_g+)和LiH(X
随着科技的进步、社会意识的提高,节能减排越来越引起大家的重视。作为节能领域的重要代表,铝合金等轻量化材料越来越引起人们的广泛关注。7075铝合金是一种典型的Al-Zn-Mg合金,广泛用于航空航天、高速列车结构件。激光-电弧复合焊是铝合金焊接近几年来热门的探索点,这种焊接方法吸收了激光和电弧焊接两方面的优点,既有激光的高能量密度的同时又存在电弧的高热输入量。此外,通过二者的相互作用,来改善激光能量的
由于现阶段社会对仿生扑翼飞行器的需求加大,传统大型固定翼和旋翼的飞行器的理论基础与小型扑翼飞行器差距太大,且现阶段并没有完备的理论基础和数据基础,在风吹或者翅膀扑