文本文件内容修复系统的技术研究及系统实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：chenlecheng

【摘要】

：

本文立足于文本文件的修复，提出了有别于传统数据恢复技术的内容修复技术，强调文件内容层面的可用性维护。首先，将从文件格式的研究以及文件修复的共性谈起，阐述传统的数据恢复

【作者】

：

祝佳

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2005年期

【关键词】

：

文本文件文件修复中文编码内容提取 COM 软损坏

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文立足于文本文件的修复，提出了有别于传统数据恢复技术的内容修复技术，强调文件内容层面的可用性维护。首先，将从文件格式的研究以及文件修复的共性谈起，阐述传统的数据恢复方法、现有的文件修复的方法、技术以及各种实现了文件修复功能的软件、开放源代码资源。同时也给出了导致文件损坏或不可用的主要原因。随后，在此基础上，本文分类阐述了明文文本、标签类文本以及复合文本的内容修复方法，其中提出了中文多编码盲识别算法、HTML标签清理与主体文本提取算法和MS Word文件的内容提取修复算法等创新算法。最后，本文还介绍了文本文件内容修复子系统的设计与实现。该子系统作为“软损坏”文件修复系统的重要模块之一，应用了上述各项修复技术，着重解决了复合文本文件的修复。修复的效果达到并超过了同类软件的修复水平。

其他文献

基于"汉芯"DSP的仿真开发环境的研究

本文以“汉芯”DSP3000作为目标处理器平台，在参考几种目前较为流行的仿真策略的基础上，提出了一种独特的设计具有高仿真效率的指令集仿真器的方法。这一设计方法采用了模块化

学位

指令集仿真器DSP指令集虚指令集嵌入式系统

多DSP并行的通用信号处理模板及高速数据通信设计

本论文根据雷达信号处理系统模块化、标准化、通用化的发展趋势，讲述了以ADSP为基本运算单元，基于CompactPCI标准总线的通用信号多DSP并行处理模板的设计以及对通用信号处理系

学位

雷达信号处理通用信号处理模板数据通信总线标准数字信号处理

基于环形自同构映射的频域视频内容认证

本文提出了基于环形自同构的频域半脆弱水印算法。在该算法中提出结合版权标识与视频本身特征来生成认证信息，该认证信息对于视频（图像）压缩编码处理具有相当强的稳健性，而对恶意

学位

数字签名数字水印视频内容认证环形自同构MPEG4

基于LINUX的远程容灾复制

本文通过对现有的远程容灾方案进行深入分析之后，结合实际需要，提出了一种基于LINUX的远程容灾复制方案。它的基本思想十分简单：定期地扫描数据，以寻找新的或被更新的数据，并把它

学位

LINUX远程容灾复制

文本文件内容修复系统的技术研究及系统实现

与本文相关的学术论文