论文部分内容阅读
随着网络技术的快速发展和计算机模拟人类思维的能力不断提高,各种信息大量涌现,人工管理信息已经远远不能满足日益增长的社会需求,如何使用计算机在看似凌乱的数据中快速找出潜在的、有价值的信息才是当前的需要。近年来,文本相似性计算已经有了长足的发展,被广泛应用到文献检索、信息过滤、机器翻译、信息归类等领域,但大多数研究是针对某种具体的应用而言的,一种算法在另一领域的适用性较差,新应用需要研究新的算法来解决。另外,系统化的表示文本与计算方法的研究还存在着诸多缺陷,阻碍了文本智能化的发展。文本计算是文本智能化处理的主要理论之一,文本的数学表示及其计算则是文本智能化处理的基本方法。本文针对文本多特征值的提取,构建二维特征集合,系统化地表示文本特征,完成文本多特征值的存储及对文本规范化处理。通过研究面向文本计算的二维特征集合的构成、运算方法及其性质,形成一套面向文本的基于二维特征集合的计算体系,为文本中词条多特征属性的应用奠定了基础。本文研究了各种经典的特征提取算法和文本相似性计算模型,通过多角度地提取文本特征创建经济领域的主题词表,并以该主题词表为核心研究文本的能量分布。此外,本文受人类想象运动会引起脑电波的变化思想的启发,认为人们在写作过程中头脑的脉冲信号与写作过程存在着密切的联系,本文通过模拟作者写作过程中脑电信号的变化特点并结合词语的某些特征值对文本的贡献构造词语脉冲信号函数,并通过叠加词语脉冲信号函数的方式,形成文本脉冲信号函数。为解决文本高维度的问题,本文将该模型转化到频域,得到每篇文本的功率谱图,由此提出基于功率谱估计方法的文本相似性计算模型,该模型一方面利用功率谱图表示文本的语义和语法结构,获取更多、更深的文本语义信息特征,增强文本表示的准确性,减少文本语义信息量的损失;另一方面通过功率谱分析研究文本的书写趋势和内在规律,探索文本分析的新方法,增强文本计算的精确性和全面性。最后,本文以建立功率谱库的形式,完成待测文本的相似性判别。由最终的实验结果可知,本文提出的功率谱匹配算法不仅可以摆脱语言和文字之间的歧义及语序的变化导致的错误分析结果,还能完成长文本之间、短文本之间、长文本与短文本的相似性计算问题,提高了文本处理的应用广度和应用效果,同时也验证了通过功率谱估计的方式表示文本是可行的。