基于统计特征和规则联合的中文文本校对算法研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:resume_002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字在当今社会中具有不容忽视的地位与作用。文字以电子刊物,报纸,以及社交平台等方式在人群中进行传递,给人们的信息生活带来了便利,同时这些庞大的信息也令人眼花缭乱。在这些海量文字中,错误的存在是非常普遍的,传统人工校对效率低、强度大、周期长等问题,显然不能满足文本校对的需求,因此,文本自动校对成为自然语言信息处理的关键技术研究热点。中文文本自动校对,主要分为两个步骤:文本检错和文本校对。经典的文本检错一般是以文本分词为基础的,有文本散串检错和文本互信息检错等方法,但中文文本分词会影响对文本的检错正确率;另外,常用的文本校对方法有N-gram模型,Markov模型等,但需要大规模语料的支撑。一般而言,文本校对与文本检错都是分开进行的,这样也增大了校对时间的开销。本文针对以上问题提出对文本形近字错误和文本非词错误的改进方法,并采用了文本检错与校对同时进行的校对方法。首先,针对形近字错误的检测与校对需要利用最小编辑距离法和笔形文字相似度法,构建文本形近字表,然后,再利用文本形近字表构建文本形近字候选矩阵,根据文本特征将相邻向量组合成词,得到文本的候选词;提出了基于上下语境的二元模型,用此模型计算出在文本中支持度最高的词组,得到文本的最佳候选词路径下的输出文本。其次,针对利用语言知识库的文本校对,即文本非词校对。本文的非词校对分为两个部分,第一部分是长词校对,长词的校对主要用模糊匹配的算法,对文本中的长词错误进行定位,再利用词库对文本进行校对;在这个过程中还用到了字典树索引来提高文本的检索速度;第二部分是文本中重字的校对,首先对文本重字和叠词进行了定义,然后将叠词和重字区分,利用叠词库将叠词过滤,最后再对文本中的错误进行定位以及校对。最后本文将这两种文本校对的方法,进行了综合和编程实现。通过真实数据测试得出了校对文本的召回率,准确率等指标,表明提出的方法具有良好的效果。
其他文献
农业问题事关国计民生,农户融资难、持续和扩大经营意愿不强等问题却不断对我国农业发展提出新的挑战。农户自有资金不足,融资方面存在信贷约束,导致农户生产经营资金难以补
森林旅游作为重点国有林区产业转型升级与发展的重要力量,对重点国有林区的产业贡献度逐年提高,已升级为重点国有林区的支柱产业。伴随着5G互联网时代的到来,智慧旅游、个性
三维光子晶体由于其内部不同折射率介质材料的周期性排列,会产生禁止特定波长的光传播的光子禁带。通过改变光子晶体的结构参数对光子禁带位置进行调谐实现对电磁波的调控。
诱导多能干细胞技术是指在已经分化的体细胞中同时过表达几种关键的转录因子将分化的体细胞转化为一种多能干细胞的技术。通过这个技术获得的多能性的细胞称为诱导多能干细胞
白松-奔都地区位于西南三江南段,西临金沙江结合带,横跨中咱-中甸地块,东部跨入甘孜—理塘弧盆系之义敦岛弧带,有着复杂而特殊的地质构造演化历史。区内上三叠统曲嘎寺组地层
铜冶炼过程中产生的废渣,大部分堆放渣场,既占用土地又污染环境。铜渣中含有Cu、Fe、Zn、Pb等多种有价金属,其中金属铁品位高达40%,因此具有很高的回收价值。通过直接熔融还
研究区位于青藏高原腹地,行政区划归属于日喀则地区昂仁县,本文在综合分析了区域地质背景的基础上,结合实测剖面、调查路线等实际工作对措麦地区各晚古生代地层进行岩石地层
科技创新是产业结构变革的助推器。作为高新技术,纳米高效率、高辐射的特性对传统行业的改造和新兴行业的孕育具有重要作用。纳米科技创新被社会各界给予厚望,成为科技创新的
从20世纪80年代到今天,管理咨询行业在中国发展已经超过30个年头。截至2007年具有法人资格的咨询机构有34243家,从业人员约为45.6万人,咨询业务收入为454亿元。管理咨询行业
中国经济增长已从高速阶段向高质量阶段转变,而战略性新兴产业又是能够拉动经济向高质量增长阶段的重要引擎,并且为我国创新驱动发展战略提供了重要的推动力量。近年来,为了