文本文件内容修复系统的技术研究及系统实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chenlecheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文立足于文本文件的修复,提出了有别于传统数据恢复技术的内容修复技术,强调文件内容层面的可用性维护。首先,将从文件格式的研究以及文件修复的共性谈起,阐述传统的数据恢复方法、现有的文件修复的方法、技术以及各种实现了文件修复功能的软件、开放源代码资源。同时也给出了导致文件损坏或不可用的主要原因。 随后,在此基础上,本文分类阐述了明文文本、标签类文本以及复合文本的内容修复方法,其中提出了中文多编码盲识别算法、HTML标签清理与主体文本提取算法和MS Word文件的内容提取修复算法等创新算法。 最后,本文还介绍了文本文件内容修复子系统的设计与实现。该子系统作为“软损坏”文件修复系统的重要模块之一,应用了上述各项修复技术,着重解决了复合文本文件的修复。修复的效果达到并超过了同类软件的修复水平。
其他文献
本文以“汉芯”DSP3000作为目标处理器平台,在参考几种目前较为流行的仿真策略的基础上,提出了一种独特的设计具有高仿真效率的指令集仿真器的方法。这一设计方法采用了模块化
本论文根据雷达信号处理系统模块化、标准化、通用化的发展趋势,讲述了以ADSP为基本运算单元,基于CompactPCI标准总线的通用信号多DSP并行处理模板的设计以及对通用信号处理系
本文提出了基于环形自同构的频域半脆弱水印算法。在该算法中提出结合版权标识与视频本身特征来生成认证信息,该认证信息对于视频(图像)压缩编码处理具有相当强的稳健性,而对恶意
本文通过对现有的远程容灾方案进行深入分析之后,结合实际需要,提出了一种基于LINUX的远程容灾复制方案。它的基本思想十分简单:定期地扫描数据,以寻找新的或被更新的数据,并把它