TextRank关键词提取算法与SOM文本聚类模型的优化研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:wangwei0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息技术快速发展,为满足人们对浩瀚网络文本信息的检索需求,文本聚类逐渐成为人们研究的焦点。在文本聚类过程中,关键词提取与聚类算法分析起着至关重要的作用。为改善的文本聚类效果,本文从这两个方面展开研究:1.提出改进的TextRank关键词提取算法预处理文本。将基于滑动窗格的词互信息作为边权重加入到TextRank算法的图模型中,优化了TextRank算法中候选词评分分配问题。在此基础上,将候选词的顶点权重-单文档词频TF(Term Frequency)加入到TextRank算法的权值迭代计算公式,用词频调整词的跳转概率,一定程度上解决了等概率“跳转”问题。实验结果表明:所提算法的准确率、召回率以及F1值均有提升,算法的迭代计算效率提升20%;所提取关键词更能代表文本特征,有助于改善后续的文本聚类效果。2.将贝叶斯正则化理论引入SOM文本聚类训练算法,在SOM权值调整公式中引入反映网络权值复杂性的惩罚项,避免权值调整过程中出现过度拟合;利用贝叶斯推理获取权值调整公式中的最优超参数,使迭代训练过程中网络权值和输入样本的概率分布趋于更一致,达到提升SOM文本聚类结果的目的。在UCI和文本数据集上的实验结果表明:与传统的SOM算法相比,所提算法的聚类凝聚度平均提升了1.5倍,聚类的准确率亦有提高,聚类效果较好。
其他文献
最近几年来,用递归神经网络被越来越广泛的应用于推荐系统。其背后的原因是,用户的行为序列中存在一些固有的模式,而递归神经网络往往能很好的挖掘出这些模式。递归神经网络
业务流程是为特定的对象(客户)创造价值的过程,是达成特定目标的一系列相互关联、有组织的活动或任务。作为一种特殊的组合服务,业务流程可以被封装成可重用的组件形式并集成
自从二十世纪九十年代以来,核方法已经被广泛应用于模式识别与机器学习领域。作为一种基于非线性映射的非线性方法,核方法等价于先将原始数据通过非线性映射变换到一高维空间
如今,网络信息资源的获取成为人们关注的重点,有价值的信息已经成为一种新的财富资源。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,能够在较大的程度上解决信
随着网络信息数量在互联网上日益庞大,对于网络信息质量的要求也越来越高,越来越多探索网络信息过滤的新技术正在逐步的发展中,由于网络信息动态性极强,而这些动态性主要表现
现在越来越多的企业、组织利用网络通信系统开展各种业务活动,系统的安全性日益受到人们的关注。如何有效地认证用户身份的真实性,保护通信过程中信息的安全性成为这些系统必
近年来,随着Internet的飞速发展,分布式系统的应用范围和规模出现了极大的改变,其带来的显著变化之一是大规模的信息发布系统的广泛使用。传统的同步通信模型由于其紧耦合的
目前,信息系统市场需求日益增大,而传统的软件开发模式和软件架构越来越无法满足日趋复杂的客户需求和随时发生的需求变化。随着市场的需要,软件开发理论在不断的发展完善,面
学位
在现代服务业大力发展的今天,异构网络融合已经成为必然趋势。多种接入方式并存,多种形式的终端共存,以及用户跨终端无缝切换于现代服务业应用,这些场景已经不仅仅是未来的愿
无线网络优化工作是基于采集上来的各种反映网络状态数据的研究分析而展开的,数据的有效性、真实性对于优化工作的开展具有十分重要的意义。在各种网络优化数据来源中,MR测量