基于统计模型及依存分析的中文自动校对技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xtmpjordan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文以大规模真实语料为基础,建立了几个统计模型,以六万汉语句子(其中三万正确的,三万错误的)为测试集进行了实验.实验结果表明,在汉语的自动校对中,字的三元模型的效果要好于其他模型,它能够找出大部分的常见错误和不符合汉语语言规范的用法,准确率达到62.52﹪,召回率达到63.63﹪.由于训练数据不足导致的数据稀疏,该模型误报和漏报了部分错误.统计语言模型对句子中距离较远的搭配错误和语法错误无能为力,将依存句法分析应用到校对中,部分地解决了这个问题.依存句法分析能够很好地体现出句子中的结构化信息,找出句子中词与词之间的搭配关系,因而能够发现这类错误.在应用了依存句法分析之后,整个系统的召回率有了提高.该文还对单字串进行了处理,提高了系统准确率,降低了误报.最后把以上三种方法结合起来,构建了一个校对模型.
其他文献
IP网络条件接收技术是数字版权管理中比较重要的IP网络内容保护安全传输部分,它融合了最新的IP网络传输技术,网络安全技术,信息安全和数字电视广播条件接收技术等体系,条件接
该文首先介绍了该课题研究的背景和内容.第二章叙述了与基于内容检索相关的技术和标准.第三章介绍了基于MPEG-7标准的多媒体内容检索系统的设计方法,提出了特征提取、特征描
随着网络技术的迅猛发展和因特网的广泛普及,网络安全问题变得日益突出。防火墙(Firewall)是网络安全的第一道屏障。合理的使用防火墙有利于提高网络抵抗黑客攻击的能力和系统
该文提出了基于自动标引的经济领域XML文档自动生成系统的设计方案、该系统具有HTML文本信息抽取;自动标引出经济文献的重要信息,如主题词、关键词、相关人物、上市公司、相
P2P文件共享是P2P技术中应用得最早同时也是最热的研究领域.该文给出了一个P2P文件共享系统——HitPeers的设计与实现.HitPeers采用混合式的P2P框架,结合元数据和数据挖掘技
为提高远程控制系统的实时性,该文提出了一种新的远程控制结构.在该结构的设计中,关键是如何成功执行实时任务.为此,该文在周期任务模型的基础上,分析了任务的时间特性,进而
该文描述了一种小波过零点的虹膜识别过程,给出了小波过零点的稳定表示形式及识别分类函数.通过实验结果和实验数据的统计,有力证明了方法的有效性、可行性.在研究过程中,对
目前军用车辆中各种电子设备之间需要进行大量的数据共享,而目前的1553总线又局限于设计带宽,不能完成例如图像,音频,数据分发等需要大带宽的通讯请求.该论文针对军用车辆中
网络性能测量中生成的巨量性能数据的存储、分析和可视化表示是一个难点.该文通过对性能数据特征的分析,按数据获取方式、指标定义类型和数据流动特性把数据分成不同的数据集
广东工业大学协同软件实验室和广东省人事厅合作开发的工资智能决策支持系统SIDSS,是一个智能决策支持系统在实际的软件开发中的具体应用。其目的是将各单位的人事部门从繁琐