基于搭配的现代汉语两词结构独立使用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ZWDragon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文先用词频统计的方法,统计所有可能独立使用的两词结构,通过阈值确定能够独立使用的两词结构,再随机抽取其中部分与现代汉语常见短语进行比较,研究两词结构的构成规则、功能,判断两词结构能独立成句的类型。本文的研究工作共分为五章展开论述:第一章主要介绍了“搭配”的概念以及国内外有关有关搭配的实验研究,为本文的研究奠定基础,同时简要阐述了论文研究的目的、意义、研究方法与组织结构。第二章分别介绍了中文分词与词性标注的相关情况,包括定义、方法和面临的困难,并基于本文研究的实际,建立适合下文实验的词性标注集。最后通过分词与标注测评,检验本文使用的分词软件与词性标注软件的正确率,验证其可靠性。第三章通过测试语料实验确定合适的阈值,以获取能独立使用的两词结构,为下一步大规模语料实验做好准备。本章首先将所有在两个中文标点之间的两词结构全部抽取出来,并假设这些两词结构都能够独立使用,统计其独立使用的次数、在全文中出现的总次数和两词在全文中单独出现的次数,建立词表Fre1、 Fre2和Fre3。接着通过测试一划分高低频区并选择高频区两词结构,通过测试二(Frel/Fre2的比值判断某个两词结构在全文中共现是否偶然)和测试三(互信息值判断两词内部是否具有连接性及连接强度)共同设定阈值,排除不能独立使用的两词结构。第四章为大规模语料实验,通过将实验获得的数据和现代汉语常见短语进行对比,判断获得的两词结构的构成规则和功能,从词语搭配的角度看哪些类型的两词结构能够独立成句。由于汉语词组(短语)的和句子的构造原则基本一致,我们研究两词结构的组合规则和功能,将对我们分析两词句有所帮助。首先我们沿用测试语料实验中设定的阈值筛选高频区数据,获得最终的实验结果,随机抽取其中1000个两词结构进行手动分析,先与现代汉语常见十种短语的构成规则表进行对比,观察两词结构的所属结构,再与现代汉语短语功能功能表对比,观察两词结构的所属功能,最后论及能够立成句的两词结构的类型。第五章为结语,对本文所做的实验和结论进行总结,提出了本文客观存在的问题,并对未来可以开展的工作进行展望。
其他文献
教育部发布2015年全国来华留学生数据,统计显示,共有来自202个国家和地区的397635名各类外国留学人员在31个省、自治区、直辖市的811所高等学校、科研院所和其他教学机构中学
石圪台煤矿31201综采工作面过上方房式采空区集中煤柱后,上煤层顶板运动造成下煤层综采面大量支架压死。通过建立过煤柱阶段覆岩结构模型,推导出工作面在出煤柱时的结构必然
本文设计开发了基于CAN总线的小型无人机飞行控制系统,目标是为综合验证总线式飞行控制技术、系统余度管理技术、实时航路规划功能和复杂航路的制导技术等高级飞行控制技术,
目的探讨儿童烟雾病患者头痛的临床特征、脑硬膜-动脉血管融通术(EDAS)疗效及影响治疗效果的因素。方法回顾性分析2004年1月至2013年12月,解放军第三○七医院神经外科收治的5
随着国际贸易和信息化的发展,贸易进入了电子商务阶段,但是,贸易风险也越来越多的显现出来。根据这种情况,本文提出了一个具有风险控制的国际贸易管理系统的课题。本文所研究
语言是文化的载体,是人类最重要的交际工具。人们利用语言积累知识,形成文化、认知世界。词汇是一种语言中所有词和固定短语的总汇,是语言的建筑材料,它承载着一种语言的语音
人类交际有两种方式:语言交际和非语言交际。非语言交际是指一切不使用语言进行得交际活动。作为一种重要的非语言交际方式,体态语在人类交际中发挥着十分重要的作用。对体态语
目的:探讨手法催乳在提高初产妇母乳喂养自我效能中的应用效果。方法:选取2015年3月~2016年1月住院分娩的236例初产妇为对照组,实施常规的母乳喂养知识健康教育和母乳喂养技
汉语视听说课程作为科技和教学结合体,以其独特新颖的教学模式逐步为汉语学习者所接受,而其对应的汉语视听说教材也逐渐受到了关注。视听说教材的发展必然会为对外汉语教学注
归化和异化是两种不同的翻译策略,两种策略之争一直贯穿着中外翻译历史。过去,归化在习语翻译中一直占据主要地位,而异化则处于从属地位。然而,归化翻译不利于传递习语中的文化因