基于句法分析和规则联合的中文校对方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:guqiurong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字时代的高速发展,自然语言处理现已广泛集成到Web和移动应用程序中,实现人与计算机之间的自然交互,其学科范围广泛,比如语音合成与识别、机器翻译、句法分析等等,而文字在这些研究领域中具有至关重要的作用。文字常常以报纸、电子刊物,及其网站等方式在人群中进行传递,给人民生活带来了便利,同时这些庞大的信息也令人眼花缭乱。而在这海量的文字信息中,难免也会有各种各样的错误。传统的人工校对方式在人力,物力,以及周期等方面都开销比较大,显然不能满足文本校对的需求。因此,文本自动校对技术已然成为自然语言处理的关键技术之一。通常而言,文本检错和文本校对是分开进行的,这样比较符合文本自动校对的逻辑步骤。句法分析又是实现文本自动校对的方法之一,同时句法分析与句式结构研究又有着密不可分的关系,而从此角度对文本进行校对的研究占比较少。目前众多的文本自动校对技术,本质上都是在探讨汉语句子部分成分之间的关系,却鲜见对于句式研究成果应用到信息处理中。究其原因,中文信息处理中句子结构的形式化处理在很大程度上模糊了汉语的句式结构。因此,本文针对句式结构、句式成分之间的修饰关系等相关理论知识,进行了大量的研究。提出了二元词和三元词概念,以满足算法中涉及到的规则需求;提出了句式规则集,用以实现校对需要。与此同时,根据研究需要,提出了二、三词元规则集,以满足本文涉及到的基于规则等相关算法。本文针对上述问题和相关的准备工作,提出基于句法分析和规则联合的文本句式结构检错,只针对文本实现检错的校对方法。首先,关于分词和词性标注对于检错效果的影响,提出了使用最新分词技术手段和词性最优模型,针对中文文本之间的修饰关系,构建二、三词元规则集,得到句法分析的解析、合成过程。其次,再利用动词谓语句式表,构建句式规则集,从而直接实现对句式结构的检错。然后,根据构建的二、三词元规则集,再次实现二者相结合的规则集。在构建的各个规则集下,实现句式检错模型的建立,提出基于规则集模型的句式识别检错和规则集模板与句式模型相结合的句式识别检错。最后,本文将这两种文本检错方法,分别使用了C语言编程实现。通过在Windows系统中的控制台(CMD)下编译可执行文件,以方便移植使用。与此同时,也可在云服务器上实现动态的规则集训练。通过真实数据测试得出了检错文本的召回率,准确率等指标。实验结果表明,本文提出结合模型的准确率为84%,召回率为87%,具有良好的效果和可研究性。
其他文献
随着工业的快速发展,人口的急剧增多,传统化石能源已经不能满足人类的需求,能源安全与环境问题日益突出,实现能源高效、清洁的转化成为当前研究的热点。直接醇类燃料电池是将
遥感技术广泛应用在地质、农业、海洋等领域,已经成为了分析宏观地理信息的主要技术。随着时间推移,同一个区域的地表覆盖物很可能发生变化,而这些变化往往是需要重点关注的对象。遥感图像的变化检测就是指,对于同一地区不同时期的遥感影像和相关数据,运用图像处理与数学模型技术来比较、分析并且判断图像之间的变化,该方向是当前遥感研究的热点。随着深度学习的兴起,近几年来基于深度学习的变化检测方法成为了该方向新的研究
卫星通信由于具有覆盖面积广泛、限制小、易于实现多址传输、能迅速建立通信链路等诸多优势,成为各国军事通信系统中的重要组成部分。传统的卫星隐蔽通信一般采取扩频的方式隐藏信号,使用扩频码对信号进行频谱扩展,然而在寻求性能优、数量多的扩频码方向仍存在很大问题,混沌理论为扩频码的研究领域点明新方向,成就现在的混沌扩频通信。非平稳通信是通信领域的另一个新思路,从概率学和统计学的角度看,不管是传统的扩频通信还是
传统可靠性的研究主要是运用基于概率和统计模型的随机可靠性方法进行分析,这种方法需要大量的样本数据来建立具有精确参数的寿命分布。然而,由于系统工作环境以及其它不确定因素,可能导致无法精确估计系统的寿命分布参数。鉴于此,本文将部件寿命分布参数看作不确定变量,将部件寿命假定为随机不确定变量,运用概率论和不确定理论作为数学工具分析系统可靠性。首先,基于概率论和不确定理论,运用机会测度定义了随机不确定不可修
随着现代无线通信技术的高速发展,码分多址技术因其能有效利用频谱资源而获得广泛应用。码分多址通信系统采用扩频码通信技术,其通信系统的性能和扩频码的选择有重要关系,采用具有理想特性的扩频码不仅能够有效提高频谱利用效率,还能够有效降低系统复杂度。近年来提出的基于完全互补码的码分多址系统,采用完全互补码作为扩频码,依靠完全互补码的理想相关特性,有效提高了基于完全互补码的码分多址系统的扩频效率和带宽利用率,
随着社会的进步和科技的发展,应用场景逐渐多样化,人们更加需要同时具有波束自动跟踪能力和一定隐身能力的高性能天线来实现更丰富的功能。Van Atta天线阵列作为方向回溯阵列天线的一种,具备方向回溯特性的同时,还可以实现对雷达散射截面的控制,在保证工作性能的前提下,提高隐身性能。但如果来波方向与阵列之间的角度过大,会导致回溯波无法准确沿入射波方向发射,性能急剧下降。因此,回溯角度是重要性能指标之一,宽
人类眼球所处的状态和运动轨迹称为眼动信息,眼球运动的信息与人类心理、行为特征都有紧密关联,能实时地反映人类的心理变化及意识倾向。目前最为常见的是基于PC机的眼动检测
C-H键官能化反应是一种通过活化C-H键实现官能团直接引入的方法,近年来被广泛应用于C-C/C-X(X=C,N,S,O等)键的构筑。C-H键的直接官能化可实现目标分子的一步合成,避免对底物的预官能化反应,减少了化合物的合成步骤,提高反应的原子经济性。将C-H官能化方法应用于构建活性中间体的先导骨架,合成具有多样活性的化合物或者具有成药潜力的化合物,对于药物化学领域的研究具有重要意义。芳基甘氨酸及氨
在大数据时代背景下,网络上的信息量呈爆炸式增长。丰富的信息资源为人们提供了诸多便利,同时产生的信息过载问题也增加了用户获取真正感兴趣信息的难度。为了解决用户的有限需求与海量数据之间的矛盾,推荐系统应运而生。其中协同过滤推荐算法作为应用最为广泛的推荐算法之一,凭借其优秀的推荐质量,获得了众多学者的青睐。传统的协同过滤推荐算法根据用户历史行为数据挖掘用户偏好,通过寻找与目标用户相似度较高的用户群体,计
大数据及其技术的应用带来了新一轮的政府治理变革创新,成为智慧政府治理的重要背景和条件,对政府的治理理念、治理结构、治理方式、治理模式与治理过程等方面都产生了重要影响。为了更好地掌握时代发展态势,实现政府治理体系和治理能力的现代化,政府应当更具“智慧”,汇聚政务大数据,打造高效能的智慧政务;建立数据驱动的决策支持系统,提升政府决策精确性;实现精细化数据管理,加速智慧服务建设;完善智能化数据监管体系,