基于复杂网络理论的文本聚类和关键词提取方法研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:pipe55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,文本信息的数量正以几何速度飞速增加,如何在这些海量的文本信息中快速的获得自己有用的信息,并且合理的管理和使用这些文本信息,已经成为当今亟待解决的问题。合理的利用数据挖掘技术,能够有效的解决这一问题。文本聚类和文本关键词提取是文本挖掘领域中重要的研究内容。文本聚类将文本集分成若干个类,要求同一类中的文本之间相似度较大,而不同类的文本之间的相似度较小。文本聚类作为一种无监督的机器学习方法,不需要训练集,不需要事先知道聚类个数,因此具有一定的灵活性和现实性。文本关键词提取是处理文本信息的重要技术之一,是文本自动分类、自动聚类、自动摘要生成等文本信息处理的前提和基础。本文介绍了文本聚类和文本关键词提取的研究背景、研究意义、国内外研究现状和相关的理论知识。本文在总结之前国内外经典的文本聚类和关键词提取研究的基础上,分别提出了文本聚类和文本关键词提取的新方法,具体工作包括以下两个方面:1.提出一种基于复杂网络社团划分的文本聚类方法,首先提出了一种加权复杂网络社团划分的新算法,通过不断寻找复杂网络中的稠密集并对其进行适当操作,达到了划分加权复杂网络的目的。其次将该算法应用于文本聚类,将文本用向量空间模型表示,用余弦公式计算文本之间的相似度,根据邻居节点构造出加权复杂网络,用本文提出的算法对加权复杂网络进行社团划分。最后,对Reuters-21578数据集中的部分样本进行聚类,实验表明该方法具有良好的聚类效果。2.提出一种基于加权复杂网络的文本关键词提取方法,通过分析已有的基于复杂网络的关键词提取算法的特点和不足,提出了一种基于加权复杂网络的文本关键词提取新算法。首先根据文本特征词之间的关系构建文本的加权复杂网络模型,其次通过节点的加权聚类系数和节点的介数计算节点的综合特征值,最后根据综合特征值提取出文本关键词。实验结果表明,该算法提取的关键词能够很好的体现文本主题,提取关键词的准确率比已有算法要高。
其他文献
H2S选择性脱除一直是气体净化领域的热点课题。本文介绍了有机醇胺溶液选择性脱除H2S的溶剂,反应机理和传质动力学。总结了醇胺溶剂选择性脱除H2S的最近的研究进展。
通过盆栽试验,研究不同施用量(0、30、60、90 g·kg^-1)污泥蚓粪的沿海滩涂土壤对玉米生长及重金属积累的影响。结果表明:随污泥蚓粪施用量的增加,玉米株高及生物量呈上
近年来,我国畜牧业发展迅速,其中养牛产业规模更是不断扩大,肉牛和奶牛及其相关产品的生产水平不断提高,推动了我国畜牧业的快速发展。但牛结核病、乳腺炎等多种疾病的不断传
税收是国家财政收入的基本来源,是促进国民经济和社会发展的根本保障。网络经济时代的到来,为传统的税收征管和税务业务的运作带来了新的挑战。对税务机关而言,一方面,面临着
评述了甲醇蒸气重整制氢机理的研究现状,重点讨论了铜系催化剂上的甲醇蒸气重整制氢反应体系,对催化剂结构与其催化活性之间的相互关系进行了归纳总结,在此基础上对高性能甲醇蒸
在750℃、0.1MPa、纯甲烷进料、空速为1704h-1、固定床反应条件下,用Cu、Cr、Ba、Ni、V对Mo/HZSM-5催化剂进行了改性研究,使芳烃收率高达13%~15%,同时对催化剂的稳定性和反应
基础教育课程改革是我国改革开放和经济、社会发展的必然产物,是顺应国际教育发展的潮流之举,是大势所趋。改革的目的就是要更好地提高中华民族的素质,更好地培养高素质的创
传统的固体酸催化的烷基化反应催化剂易积炭失活,使反应在超临界流体中进行,可以有效地解决这个问题.本文对超临界条件下烷基化反应的研究进行了回顾.
使用环氧树脂MC-150EP对来自环状芽孢杆菌的糖氨基转移酶BtrR进行固定化以制备光学纯β-井冈霉烯胺,在单因素试验的基础上,采用响应面试验进一步优化固定化工艺,得到最佳固定
为构建一种核酸免疫胶体金的制备方法,将抗体与寡核苷酸共价连接,并与含互补序列的寡核苷酸修饰的胶体金杂交。紫外扫描检测显示,使用4-(N-马来酰亚胺甲基)环己烷-1-羧酸磺酸