论文部分内容阅读
本文立足于文本文件的修复,提出了有别于传统数据恢复技术的内容修复技术,强调文件内容层面的可用性维护。首先,将从文件格式的研究以及文件修复的共性谈起,阐述传统的数据恢复方法、现有的文件修复的方法、技术以及各种实现了文件修复功能的软件、开放源代码资源。同时也给出了导致文件损坏或不可用的主要原因。
随后,在此基础上,本文分类阐述了明文文本、标签类文本以及复合文本的内容修复方法,其中提出了中文多编码盲识别算法、HTML标签清理与主体文本提取算法和MS Word文件的内容提取修复算法等创新算法。
最后,本文还介绍了文本文件内容修复子系统的设计与实现。该子系统作为“软损坏”文件修复系统的重要模块之一,应用了上述各项修复技术,着重解决了复合文本文件的修复。修复的效果达到并超过了同类软件的修复水平。