基于文本多特征值的功率谱分析方法的研究

来源 :济南大学 | 被引量 : 3次 | 上传用户:w8521843d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展和计算机模拟人类思维的能力不断提高,各种信息大量涌现,人工管理信息已经远远不能满足日益增长的社会需求,如何使用计算机在看似凌乱的数据中快速找出潜在的、有价值的信息才是当前的需要。近年来,文本相似性计算已经有了长足的发展,被广泛应用到文献检索、信息过滤、机器翻译、信息归类等领域,但大多数研究是针对某种具体的应用而言的,一种算法在另一领域的适用性较差,新应用需要研究新的算法来解决。另外,系统化的表示文本与计算方法的研究还存在着诸多缺陷,阻碍了文本智能化的发展。文本计算是文本智能化处理的主要理论之一,文本的数学表示及其计算则是文本智能化处理的基本方法。本文针对文本多特征值的提取,构建二维特征集合,系统化地表示文本特征,完成文本多特征值的存储及对文本规范化处理。通过研究面向文本计算的二维特征集合的构成、运算方法及其性质,形成一套面向文本的基于二维特征集合的计算体系,为文本中词条多特征属性的应用奠定了基础。本文研究了各种经典的特征提取算法和文本相似性计算模型,通过多角度地提取文本特征创建经济领域的主题词表,并以该主题词表为核心研究文本的能量分布。此外,本文受人类想象运动会引起脑电波的变化思想的启发,认为人们在写作过程中头脑的脉冲信号与写作过程存在着密切的联系,本文通过模拟作者写作过程中脑电信号的变化特点并结合词语的某些特征值对文本的贡献构造词语脉冲信号函数,并通过叠加词语脉冲信号函数的方式,形成文本脉冲信号函数。为解决文本高维度的问题,本文将该模型转化到频域,得到每篇文本的功率谱图,由此提出基于功率谱估计方法的文本相似性计算模型,该模型一方面利用功率谱图表示文本的语义和语法结构,获取更多、更深的文本语义信息特征,增强文本表示的准确性,减少文本语义信息量的损失;另一方面通过功率谱分析研究文本的书写趋势和内在规律,探索文本分析的新方法,增强文本计算的精确性和全面性。最后,本文以建立功率谱库的形式,完成待测文本的相似性判别。由最终的实验结果可知,本文提出的功率谱匹配算法不仅可以摆脱语言和文字之间的歧义及语序的变化导致的错误分析结果,还能完成长文本之间、短文本之间、长文本与短文本的相似性计算问题,提高了文本处理的应用广度和应用效果,同时也验证了通过功率谱估计的方式表示文本是可行的。
其他文献
本文主要基于复杂网络理论来研究推荐系统中的用户评分预测问题。重点研究了用户评分行为的异质性,提出了多个有效的个性化推荐算法。这些工作推动了推荐系统从个性化推荐算
近年来,伴随着计算机技术的迅猛发展,数字三维几何的表示方法已经在诸多行业得到了广泛的应用。在工业应用中,三角形网格与四面体网格是三维几何模型表示中比较通用的存储格式。
Android操作系统是一个由Google和开放手机联盟共同研发的针对移动设备的操作系统。复杂的架构、公开的源代码、开放的平台及它提供的强大的开发环境和工具等特点,为开发人员
随着科学技术进步和发展,使得各行各业产生了大量数据,人类进入了大数据时代。大量数据的产生对我们来说既是机遇也是挑战。因此,急需我们从大量数据中发现有用的信息来促进
随着移动互联网时代的到来,搭载着智能操作系统的移动终端成为了互联网关键入口和创新平台。目前,全球移动终端市场正以爆炸性的态势迅猛发展。其中Google公司开发的Android
根系是植物的重要组成部分,根系的生长状况可以反映该地区的气候以及土壤特性,根系的发达与否也能够反应出整株植物的健康情况。研究根系的生态参数是研究根系生长状况的基础,对
微电网是智能电网的一部分,它源自于分布式发电技术,充分发挥了分布式发电的优势,有效的弥补了大电网中的不足,同时还使用了先进的控制技术,解决了分布式电源的接入问题。本文主要是对微电网运行的经济性进行研究,应用协同遗传算法对这一问题进行优化,使其在不同的运行条件下,能够给出具有较低运行成本的配置方案,同时还要保证污染物排放较少。本文主要的研究工作如下:(1)介绍了微电网相关的理论知识。阐述了微电网的概
目前,“量子通信”技术是确保未来信息社会通信的机密性和隐秘性的关键技术。但是由于实际因素的限制和量子自身的脆弱性,“量子通信”技术在传输过程中产生误差的概率非常大,而且量子信息在传输后的测量也会出现失真等问题,从而有效地识别量子状态是很有难度的,需要提出方法以便能够较好地改善这个问题。本文提出了基于量子纠缠状态和计算机编码的纠缠验证方法,分别是基于量子纠缠状态和最小二乘法的计算机编码方法和基于量子
学位
图像融合技术是20世纪70年代后期被提出并发展起来的一门新技术,在军事和民用领域都有着广泛的应用。基于变换域的图像融合算法是目前研究的热点,在众多多尺度分析工具中,非下采
能源是人类社会和经济发展的重要物质基础,是提高人们生活水平的先决条件,而如今世界能源结构中处于主导地位的化石能源越发紧缺,能源危机已经成为一个无法回避的严重问题。与此同时,大量化石燃料的开采使用,也已经造成严重的环境问题。为了应对上述问题,世界各国纷纷采取提高能源效率和改善能源结构的措施,以实现可持续发展。其中,太阳能光伏发电以其独有优势,越来越受到世界各国的瞩目。本文以光伏发电系统作为研究对象,