论文部分内容阅读
随着互联网的高速发展,各领域的信息化产生了大量数据,如何将这些数据充分利用起来,是目前亟待解决的问题。传统数据库技术可有效组织、管理和利用结构化数据,但是对于非结构化的文档数据却无法充分利用。在我国高校科研管理信息化建设中同样产生了大量的非结构化文档数据,当下这些文档数据并没有得到充分利用。为解决该问题,本课题提出了一种优化的特征提取方法,可有效地从文档集中提取文档的特征向量,并结合向量最近邻索引技术构建了一个适用于海量文档场景的文档相似检索系统。本文主要完成了以下几项工作:(1)本文针对传统文本特征提取算法的不足,提出了一种优化的文本特征提取方法。该方法在融合同义词的基础上,创新性地提出TF-IDF-ICD算法,分别从词语的词频类别分布(ICDT)和词语的文档频率类别分布(ICDD)两个方面,进行词语与文本类别的关联关系的考虑。同时引入了基于TF-IDF-ICD的特征降维(DR)方法,该方法通过保留具有高TF-IDF-ICD值的词语来限制特征向量空间的维度。最后通过实验证明了本文方法能够在保证分类准确率的前提下,减少特征空间维度,从而降低文本特征向量的存储空间,十分适合科研项目文档的应用场景。(2)利用特征提取方法将科研项目文档转换成特性向量后,结合向量最近邻索引技术构建了基于科研项目文档特征向量的最近邻索引结构,该索引结构为二叉树,并且以文档特征向量之间的距离作为索引依据,其核心思想是科研项目文档特征向量在索引树中的距离越接近表示两个文档越相似。系统可以通过该索引结构提供科研项目文档的相似检索功能。系统同时设计了合适的存储方式,将文档特征向量和文档向量最近邻索引结构存储在数据库中,可以为多个节点提供相似检索服务,从而有效解决了高并发的问题。本系统为科研人员提供了快速、准确定位相似科研项目文档的功能,极大地提高了科研项目文档的利用价值,同时也为科研管理工作带来了方便。