汉语多粒度词语结构分析及其应用研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:l1otus
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
与英语等印欧语系书写系统中词与词之间用空格分隔不同,汉语词与词之间没有明显的分隔符。而词作为最小的能够独立活动的有意义的语言成分,能提供基本的语义信息,缓解一字多义带来的歧义问题。因此,汉语分词是中文信息处理中重要的基础任务之一,其目标是将输入句子中连续的汉字串按照一定规范切分成词序列。汉语分词是句法分析、语义角色标注、信息抽取等很多中文信息处理任务的首要步骤,具有广泛的研究价值和应用前景。现有的汉语分词大多采用单粒度分词形式,即一个句子对应唯一的一个词序列。然而,单粒度分词存在两方面的局限性:一方面,由于对汉语词边界认知的主观差异性,难以制定统一的汉语单粒度分词标注规范。即便在同一规范的标注数据中,也存在标注不一致现象,给后续分词模型的训练带来困扰。另一方面,单粒度分词难以满足不同任务或应用对分词粒度的差异性需求。细粒度词通常能表达更细致的基本信息,缓解数据稀疏问题,常被用于句法分析和语义分析等任务;而粗粒度词能提供更完整的上下文信息,表达语义更精确,常被用于信息抽取、精确搜索等。基于以上考虑,本文以汉语多粒度词语为研究对象,尝试从层次和搭配两个角度表示并分析不同粒度词语的内部结构,并将该结构信息应用到下游中文信息处理任务。主要研究内容与创新性体现在:(1)汉语多粒度词语层次结构分析针对现有的单粒度分词标注规范难统一,且单粒度分词形式难以满足不同任务或应用场景对分词粒度差异性需求等问题,提出了用层次化结构树来描述句子中所有不同粒度词的多粒度词语层次结构体系。首先,规定了汉语多粒度词边界的界定准则并将其用层次化结构树表示,在此基础上制定了详细的标注规范,首次人工标注了超过9,000个句子的多粒度词语层次结构作为测试数据。然后,提出将现有的大规模多源异构单粒度分词数据自动转化成多粒度词语层次结构伪标注训练数据的神经耦合模型,解决了训练数据缺失问题。接着,提出基于短语句法分析框架的汉语多粒度词语层次结构分析方法。最后,利用弱标注训练数据指导模型训练,进一步提升了汉语多粒度词语层次结构分析模型的性能。(2)汉语多粒度词语搭配结构分析汉语多粒度词语层次结构分析主要着力于刻画不同粒度词的组成成分,但未考虑各成分之间的搭配关系。为了进一步分析多粒度词语构成模式,即字如何构成细粒度词以及细粒度词如何进一步构成粗粒度词,提出基于依存树表示的多粒度词语搭配结构分析方法,从而更有效地表示词语,缓解数据稀疏问题。首先,制定了一个包含11种搭配关系标签的标注规范,人工标注了超过3万个词的内部搭配结构。然后,将词语搭配结构分析作为一个新任务,基于双仿射依存分析器自动预测词语搭配结构。为了验证汉语词语搭配结构在缓解数据稀疏问题上的作用,以句法分析任务为例,提出了编码词语搭配结构表示的方法,将其作为额外的特征用于提升句法分析的性能,实验结果验证了其在表示词语上的有效性。(3)融合多粒度词语结构信息的汉语命名实体识别为了验证汉语多粒度词语结构信息对下游中文信息处理任务的作用,本工作以汉语命名实体识别任务为例,在分别分析输入句子对应的多粒度词语层次结构树和搭配结构依存树基础上,将多粒度词语层次结构和搭配结构融入到命名实体识别模型中,提出一种命名实体识别新的层次化神经网络模型,以更有效地表示词语。实验结果表明,多粒度词语层次结构和搭配结构表示能有效互补,提升了汉语命名实体识别的性能。综上,本文针对汉语语言特点,对汉语多粒度词语结构展开分析,提出多粒度词语的层次结构和搭配结构表示方法及相应的分析模型,并将多粒度词语结构信息成功应用于命名实体识别和依存句法分析等任务中,验证了其对下游任务的作用。期待对汉语多粒度词语结构分析的研究在能满足不同任务或应用场景对分词粒度差异性需求的同时,可以更有效地表示词语,从而推动更多中文信息处理任务的进步。
其他文献
近年来,小分子激酶抑制剂成为临床药物开发的热点之一。RIPK1作为一种丝/苏氨酸类蛋白激酶,其激酶活性在炎症和细胞死亡(凋亡和程序性坏死)等方面扮演重要的角色。动物实验已经表明,通过基因编辑或小分子抑制等手段抑制RIPK1的激酶活性,可以在炎症/自身免疫、神经退行性疾病等药效模型中发挥良好的治疗效果。因此,选择性RIPK1小分子抑制剂的开发成为诸多国际药物公司和科研机构的研究热点。Nec-1是第一
学位
在智能化、信息化、物联化的趋势下,无人机、无人船、无人车等终端定位变得越来越重要。城市道路上,车辆的准确定位对减少交通堵塞具有重要意义,也有利于行驶路线的规划,降低运输成本。在此应用背景下,微机械电子系统(Micro Electronic-Mechanical System,MEMS)技术制造的惯性传感器构成的微惯性导航系统(Micro inertial navigation system,MIN
学位
第一部分周围型临床T1期非小细胞肺癌18F-FDG PET-CT原发肿瘤代谢参数与淋巴结转移、脏层胸膜侵犯和脉管浸润的相关性研究目的:既往研究表明,对于周围型临床T1N0M0期非小细胞肺癌(Non-small-cell lung cancer,NSCLC)患者适于行亚肺叶切除术(包括肺段切除或楔形切除)。然而,周围型临床T1期(cT1)原发肿瘤高侵袭力(包括淋巴结转移(lymph node met
学位
目的:分析本单位治疗的大样本儿童肱骨髁上骨折病例手术时间的分布规律,归纳手术时间异常的病例的特点,结合临床治疗技术,提出儿童肱骨髁上骨折分型的建议,论述各分型病理特点,展示治疗技术。方法:收集将2013年5月3日至2020年1月4日治疗的GartlandⅢ型儿童肱骨髁上骨折2195例,纳入研究共2019例,男1236例,女783例,年龄1-14岁,平均年龄5.3±2.6岁,左侧1135例,右侧88
学位
第一部分 软脂酸介导的炎症在肥胖相关性肾病足细胞损伤中的作用目的通过研究软脂酸(palmitic acid,PA)对肾小球足细胞的脂毒性,初步探讨肥胖相关性肾病(obesity-related glomerulopathy,ORG)高脂环境下肾脏微炎症反应损伤足细胞的相关作用机制。方法1 使用 50μM、100μM、150μM、200μM、250μM、300μM 浓度的 PA 体外培养MPC5小鼠
学位
第一部分食管鳞癌术后区域淋巴结复发患者放化疗后的预后分析目的:食管鳞状细胞癌根治性切除术后局部淋巴结复发尚无标准治疗策略,预后风险因素仍有争议。我们评估了食管鳞癌根治性切除术后区域淋巴结复发接受挽救性放疗或放化疗的临床结果和预后因素。方法:回顾性分析了 2014年10月至2017年10月接受挽救性放疗或放化疗的117例食管鳞癌根治术后区域淋巴结复发的患者。采用Kaplan-Meier法计算生存率,
学位
第一部分高分辨率MR上淋巴结短径结合形态学特征诊断直肠癌淋巴结转移的效能及形态学特征的增益价值背景及目的:有淋巴结转移(LNM)的直肠癌患者临床分期属于Ⅲ期,应予以强化治疗。既往研究采用淋巴结尺寸或形态学特征诊断直肠癌LNM,但各研究中尺寸标准和形态学特征不同。2016年欧洲胃肠和腹部放射学会(ESGAR))提出一个尺寸(短径5mm、短径9mm)结合形态学特征(圆形、边界不规则、信号不均匀)诊断直
学位
<正>建设世界重要人才中心和创新高地需要有若干战略支点的支撑,亟需以“吸引集聚人才平台”为支点,精准对接国家需求。各地应结合实际统筹谋划未来5-15年的需求对人才平台建设进行布局,深入开展人才集聚和科技创新工作,从而实现人才集聚推动经济社会发展的战略目标。——编者
期刊
脑内β-淀粉样蛋白(β-amyloid protein.Aβ)沉积是阿尔茨海默病(Alzheimer’s disease,AD)的主要病理特征之一。β位点 APP 裂解酶 1(β-site APP cleavage enzyme 1,BACE1)是Aβ生成的限速酶。研究表明,脑内主要的Aβ清除分子低密度脂蛋白受体相关蛋白 1(Low-density lipoprotein receptor-rel
学位
近年来,基础素质教育和幼儿核心素养的培养不断加强。在此背景下,本文针对如何培养幼儿良好的学习习惯进行分析,结合幼儿在现实生活中的学习习惯,找出阻碍学习习惯良好养成的因素。针对因素提出解决对策,为幼小衔接做出具体指示。
期刊