文本文件修复工程初探

来源 :全国第五届计算机语言联合学术会议 | 被引量 : 0次 | 上传用户:maohhmaohh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模汉语语料库中,不可避免的存在乱码,为了尽量不笃语料库的统计和分析,应尽量修复带有乱码的文本。我们用汉字编码分区识别和接续关系识别的办法对乱码进行了处理,收到了初步成效,研制了只需极少人工干预的文本文件修复软件。
其他文献
随着新课程改革在高中教学研究中的不断深入,合作式学习在高中课堂中应用范围越来越广。尤其是在高中英语教学模式中,以互相合作的学习方式展开英语学习,相比传统的“老师讲,
围绕中心服务大局姚志能江泽民总书记视察人民日报社的讲话,充分体现了党中央第三代领导核心对新闻工作的高度重视,使我们党报工作人员大大增强了光荣感、使命感和责任感,我们要
该文介绍了在南靖县城关拦河闸地基工程中由卵石、砾、粗砂等组成的卵石地层中用高喷法和注浆法相结合建造地下连续防渗墙的经验,指出对于复杂、特殊地层的防渗墙,必须根据地层
会议
该文从侦收雷达信号的角度上分析补侦收雷达信号波束的海面反射,讨论海面脉冲雷达波束掠海产生的反射面积与掠海角的关系,描述了掠海动态海面和它的反射系数,并闸述了海面反射波
(四)疑问点——有疑问,才有问题;有问题,才能深入,疑问是深入的动力。记者在采访过程中,应始终促使自己的头脑保持疑问点。旧的疑问点消失了,又产生新的疑问点。一个个具体