论文部分内容阅读
随着计算机应用的日益普及,数字化文件已逐渐替代传统纸质文档而成为各类文件存储和交换的主要形式。在日常文件管理中由于自然人在文件管理中自身内隐性记忆的不确定性,导致随着时间的不断推移和文件数量的持续递增,各个类别中文件的语义会逐渐偏离原类别的语义,进而导致原始文件分类的失效并造成文件管理混乱。针对这一问题的存在具有普遍性,同时作为传统文本分类研究的逆向工程,具有一定的学术研究价值和现实意义。论文从用户文件分类管理过程的问题域特征分析入手,在充分借鉴、融合现有文本分类、自然语义理解、知识挖掘和机器学习等相关领域取得的研究成果基础之上,围绕基于用户分类习惯及语义理解特征的文件分类管理技术,从基于自然语言的文本语义特征提取、用户分类习惯与语义理解特征识别以及半监督学习机制的设计等三方面开展了以下探索性研究工作:首先对国内外相关领域文献收集整理的基础上,结合文本分类、自然语义分析和知识挖掘领域研究成果以及对文件分类管理问题特征分析,提出了课题研究的基本思路和技术路线;其次,针对文本语义特征提取技术,结合研究课题的问题域特征,考虑具体实现和计算法复杂性等方面问题,提出了基于SUMO本体概念的文本语义表示模型。在此基础上运用粗糙集理对用户文件分类规则进行提取,借鉴基于条件熵的启发式属性约简算法,提取出用户的分类规则,构建了文件分类模拟器;第三,为提高文件分类模拟器的预测精度并不断强化用户关于文件分类的内隐性记忆,提出以人机交互方式对文件分类模拟器的分类规则进行增量学习方法,并针对学习策略中完全匹配与部分匹配的缺点,提出一种基于相似度的匹配算法,并对规则的增量学习算法进行了初步研究。最后,结合论文研究的理论成果,对基于用户文件分类及语义理解习惯的计算机辅助文件分类管理系统进行了初步设计和原型开发,同时借助原型系统对主要的研究成果进行了实验验证。