一种传统蒙古文拼写检查系统的实现

来源 :中央民族大学学报:哲学社会科学版 | 被引量 : 0次 | 上传用户:ASHLEY920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动校对是蒙古文信息处理核心技术之一,是基础研究和应用技术的有机融合.文本校对包含词典建设、词法分析等基础资源建设和底层技术研发,也包括针对具体需求的系统研发.由于蒙古文自身的特点,现有的有关文本校对或拼写检查方面的技术不能满足蒙古文需求.本文在借鉴中文、英文、阿拉伯文、印度文等多种语言拼写检查技术的基础上,介绍了一种基于混合策略的蒙古文非词检查及纠错建议生成方法.在非词检查阶段融合正字法词典和相关语法规则,研制了蒙古文有限状态自动机,大大提高了词语识别速度和非词查准率.在纠错建议生成阶段,首先以3500万词文本语料为基础,构建蒙古文全词词典,并解决了动词纠错建议的生成问题.之后以上述文本语料为基础,构建了蒙古文Ngram模型,并将最小编辑距离和词根Bigram融合,研制了六种候选词排序算法.经试验,本文提出的基于字符相似度的编辑距离计算方法以及与Bigram值加权融合的排序算法表现最好,正确候选词排在第一位和前三位的准确率分别达到了92.01%和96.51%,并且已实现在商业化校对软件Mongolian Editor Version 6.0中.
其他文献
判断庞杂的网络信息并衡量是否交付信任已成为网民的日常事务.本研究认为"网络信息信任"是个人在接触、识别及接受网络信息过程中表现出来的信任形态,它与信息在网络这一特定环境中的传递、扩散特征,以及网民携带线下生活经验与价值信念对网络环境的适应与应对有关.本文以"罗尔事件"为典型的网络信息信任案例,抓取包含事件关键节点的3万多条热门微博评论,并采取等距抽样的方式抽取3221条作内容分析,以此了解网民在网络环境中进行信息加工时所拥有的心理资源和应对策略.研究发现,一方面人们以延承自线下熟人社会的思维方式对信息来源
本文利用2005年和2015年的中国综合社会调查(CGSS)数据,考察了十年间中国民众政府满意度的变迁,并从微观和宏观两个方面,对不同领域政府满意度的影响因素进行分析与探讨.微观因素选取了个人的社会经济地位及政治参与互动,宏观因素则选取了影响中国社会变迁的重要因素——市场化,文章重点考察了市场化对民众政府满意度的影响及其变化.研究发现:中国民众的政府满意度普遍较高;其中,在国家治理领域的满意度最高,在民生保障领域的满意度次之,而在公正维护领域的满意度则相对较低.2005年到2015年的十年间,中国民众的政
在韦伯的正当性三种类型中,"魅力型"因其明显的人格化特征,被认为是与现代生活不相合拍的落后形态。然而在人类合群关系中,魅力型具有非反思的素朴性和行动的直接性,"传统型"与"法理型"则只是魅力型模式理智化、合理化与形式化、自主化之结果。魅力型表现为追随者对魅力型人物行为的相信与承认。"基于信念的正当性"是人类合群关系之母,魅力型则是人类生活方式形成的动力源泉。魅力型与合理化既是一种对峙关系,也是一种互返互补关系。这样一种二元性特征具有特别重大的历史意义,它构成了韦伯"比较历史社会学"时期"历史—哲学观"的核
制度哲学是基于世界观和方法论的视角,对"制度"进行哲学思考.只有充分理解并深入研究制度,才能推动制度的遵守、执行和创新,才能更好地实现人与社会的共同发展.党的十八大以来,习近平围绕政治制度提出了许多新思想、新观点,有力地推动了中国特色社会主义政治制度建设和理论创新.本文试从制度研究视角对习近平关于政治制度建设的重要论述进行全面梳理,深入研究其科学内涵、领悟其精髓要义和思想理论创新,进而探讨其背后的制度哲学逻辑.这是理解和把握习近平政治哲学思想的重要基础,对坚持和完善中国特色社会主义政治制度以及实现中华民族
随着教育改革的深入,新课标下对小学语文教学做出了新的要求。在小学语文教育中渗透“德智体美劳”,建立全面性人才。所以,教师在教学语文的过程中,除了培养学生的识字写字能力、
国家图书馆藏公文纸本《魏书》纸背文献,是新近发现的元代最大宗汉文新史料.该批文献中所收录的几十件元代罪囚文书,是关于元代罪囚管理的珍贵第一手资料.根据这些文书并结合传世文献,可以认识元代罪囚管理中此前未曾关注的若干问题,如关于罪囚的"起数"、罪囚的监禁方式以及罪囚的收押方式、收押机构等等.其中,罪囚的"起数",不仅包含"总起数"及每"一起"罪囚的信息,还包括"起内"及"不成起"等罪囚信息.元代罪囚的监禁方式,包括"枷收""锁收""散收"等三种,而这三种方式均监禁"重囚"与"轻囚".在同一起的罪囚"起数"中
会议