文本挖掘若干关键技术研究

被引量 : 43次 | 上传用户:honghe2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的飞速发展,能获得的文本信息集合出现了爆炸性的增长。人们在为如此海量、丰富的文本资源欣喜之余,又不得不为难以驾驭如此庞大的信息而惋惜。文本挖掘技术就在这样的背景下应运而生并受到越来越多的关注。作为一个新的正在迅速成为热点的研究领域,文本挖掘致力于从庞大的文本资源中找到“金矿”,为用户服务。文本挖掘从数据采集到知识的发现是一个复杂而又繁琐的过程。要经历数据的准备、模型的建立、文本的挖掘、结果的展示等一系列的过程。本文就其中的关键步骤和难点问题进行了研究,主要内容如下:本文首先研究了向量空间模型建模的整个过程,针对两个标准的benchmark数据集TanCorp(中文)和Reuters(英文)建立了向量空间模型,作为后续研究的基础。同时,针对向量空间模型所使用的关键词集过于庞大而导致的模型高维性问题,引入关联规则方法对其进行简化,并给出了对文本数据进行关联分析的具体实现方案以及当有新的文档到达时的增量更新方法。本文重点研究了文本数据的聚类方法。对基于非负矩阵分解的聚类相关理论和算法进行了深入地分析和探讨。为了进一步提高非负矩阵分解方法的收敛性能,提出了两种新的基于矩阵变换的非负矩阵分解算法,并从相关理论分析和性能仿真的角度对其进行了验证。仿真试验表明,基于矩阵变换的NMF算法,具有和现有方案类似的计算复杂度,却可以有效提高非负矩阵分解的收敛速度。同时,针对文本数据中高度相关难以划分的问题,引入核聚类方法,在对核函数的基本理论进行总结的基础上,深入研究了核聚类算法、模糊核聚类算法以及基于语义核的局部自适应聚类算法,在此基础上,将高斯核与语义信息结合起来,提出基于高斯语义核的局部自适应聚类算法,以提高核聚类算法的性能。并分别结合人工生成数据集以及Reuters文本数据集合进行了仿真评估。在此基础上,针对文本数据中存在大量层次类别关系的问题,研究了划分和凝聚相结合的层次聚类思想,重点分析了基于NMF的层次聚类算法,对于如何确定层次聚类的数目进行了讨论,提出了两种不同的基于NMF的层次聚类处理方法。结合TanCorp多层数据集的研究和仿真表明:基于特征-文本矩阵V进行凝聚层次聚类的算法可以在不影响聚类效果的前提下大大降低计算复杂度。此外,还研究了聚类结果的两种表示方法,对基于NMF的聚类表示和基于testor理论的聚类表示进行了深入的分析。最后,将所研究的文本挖掘方法应用到科研信息领域,设计并架构了用于进行科研信息自动建议的原型系统,并给出了初步的仿真结果。
其他文献
航空瞬变电磁法(ATEM)具有效率高,成本低等优点,可以广泛应用于地质填图、直接或间接找矿、水工环勘查等各个领域。近些年随着国家的重视,航空瞬变电磁法得到了迅速的发展。
目的体外诱导小鼠胚胎干细胞SF1-G定向诱导分化为胰岛样细胞,观察诱导分化培养过程中印记基因Kcnq1、Cdknlc印记变化,探讨胚胎干细胞体外诱导分化培养过程中表观遗传学的稳定
骨骼肌损伤是运动医学领域的常见病,修复后容易再次损伤。本研究将从组织形态学、生物力学和mRNA层面了解黄芪丹参复方制剂中的重要成分黄芪皂甙和丹参酮ⅡA对大鼠骨骼肌急性
为评估电子对抗装备对光电搜索跟踪系统的干扰效果,针对光电搜索跟踪系统工作过程中的搜索、捕获、跟踪三个不同阶段,提出了相应的干扰效果评估方法。在光电搜索跟踪系统的搜
1915年,陈独秀与群益书社陈子沛、陈子寿兄弟签订合同,《青年杂志》(第2卷起更名为《新青年》)创刊。这一启蒙知识分子与出版商人各安其位、各取所需的合作,促成了新文化运动
社会融合进程已经是21世纪残疾人事业发展的世界趋势,越来越受到各方的关注。有效的社会融合评估系统将有利于根据智障人士的经济、就业、教育和生活安置等各方面的情况做出
当今服务业在社会经济中的地位逐渐提升,人力资源作为服务的提供者在极大程度上决定了服务的质量,通过对人力资源的投资管理,提高服务水平,是众多服务型企业增强竞争力的有效
通信电源作为各种通信系统中必不可少的重要组成部分,其任务是安全、可靠、高效、稳定、不间断地向系统提供能源,随着通信技术的日新月异发展,对通信电源系统提出了越来越高
<正>改革是推进环保事业持续健康发展的动力。环境保护部深入贯彻习近平总书记系列重要讲话精神,坚决落实党中央决策部署,以改善环境质量为核心,以解决制约环保事业发展的体
从2003年物业税在北京、辽宁、重庆等6个省市试点以来已经过去了六年,目前已经进入了实施的讨论阶段。虽然很多学者对物业税法律制度的设计进行了系统深入的研究,包括物业税