“不X是”字串分词歧解及消歧策略

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:shen648491077
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要探讨“不X是”字串在中文自动分词中应如何切分的问题,并尝试进行算法设计与编程测试。第一章主要介绍语料的处理与加工方法。确定“不X是”的选取标准,提取所有符合标准的“不X是”字串的语料,然后进行归类统计,依据切分环境将所提取的“不X是”分为三类:“不X/是/”、“不/X/是/”、“不/X是/”。同时说明切分条件及处理原因。第二、三章为单切分“不X/是/”、“不/X/是/”的字串分析,主要对语料中只有“不X/是/”和“不/X/是/”切分形式的“不X是”字串逐个进行描写与解释,分析其句法环境及制约因素,并总结规则为下文算法设计服务。第四章是可能存在多种切分的“不X是”字串分析。主要对可能存在两种以上切分的“不X是”进行描写与解释,分析其不同切分形式时的句法环境及制约因素。本章涉及“不X/是/”、“不/X/是/”、“不/X是/”三种切分形式。第五章是总结、设计与测试。主要对第二、三、四章的描写分析进行总结,并依据第二、三、四章分析的结果和总结的规律进行算法设计,并进行编程测试。在文章的最后主要对前一章的测试结果进行报告,并对其中出现的问题进行分析,提出程序改进方向。同时对本文进行总结与展望。
其他文献
<正>概率论作为一门研究现实世界中广泛存在的随机现象规律性的数学分支,在日常生活、生产和科学技术领域中得到非常广泛的运用.由于概率的思考方式有其自身的特点,学生在刚
目的:桂枝汤源于汉代医家张仲景所著《伤寒论》,使其开篇第一方,主要由桂枝、芍药、生姜、大枣和甘草五味饮片组成,具有发表解肌、调和营卫的功效。中药口服后的药效物质基础源于入血成分中,故本研究基于体内消化、吸收过程以及网络药理学方法探讨桂枝汤的药效物质基础。方法:1利用HPLC-MS/MS建立桂枝汤、大鼠给药桂枝汤后血清样品以及大鼠肠道内容物中桂枝汤主要成分含量的测定方法。2探讨大鼠口服及静注给药桂枝
从1998年6月份上海出台购房抵扣个人所得税政策,到2003年的购房贷款贴息政策,国家推出了一系列的经济优惠政策,拉动了住房消费,推动了住房的市场化,也开始使房价在不知不觉中
目的探究脑梗死患者偏瘫肢体的康复护理方式。方法采集90例2016年6月至2017年6月脑梗死偏瘫肢体患者,根据随机表分组。对照组进行普通照护;早期康复组在对照组基础上及早进行
文章简述了自组织理论的内涵与实践意义,分析了自组织理论与图书馆志愿者管理的关系,研究了自组织理论视域下图书馆志愿者社团化管理模式及图书馆志愿者管理的保障机制。
目前国内多台链条炉母管制运行普遍采用人工手动控制,自控程度不高。结合具体工程项目,分析了多台链条炉母管制运行在控制过程中存在的难点,并针对这种结构的运行特点,提出了
“互联网+”背景下,电子商务运营的不断完善,电子商务战略重心由城市地区向城乡综合方向发展。而电子商务运营模式的进步为我国农村地区精准扶贫战略的实行提供了新的可能,电
目的:分析间日疟康复者淋巴细胞活性,为进一步揭示宿主浆细胞产生间日疟原虫红外期特异抗体能力,筛选红内期疫苗候选抗原提供研究基础。方法:在云南省疟疾流行区西盟县,对当地
目的:探讨原发性IgA肾病合并高尿酸血症的相关性分析以及SLC2A9基因和SLC22A12基因与尿酸排泄的相关性分析方法:选择2017年1月-2018年1月在中国医科大学附属第一医院肾脏内科
高强与超高性能化是混凝土材料的重要发展方向,但较低的水胶比导致其存在早期自干燥程度高、易收缩开裂等工程问题。内养护通过混凝土内部水分补偿作用为解决高强低水胶比混