汉语词语上下位关系分类及挖掘研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:zhangShunsheng2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的发展,尤其是预训练语言模型如ELMo/BERT的提出,很多自然语言处理(NLP)相关任务的性能都有了大幅度的提高。目前深度学习研究的主要挑战在于如何运用知识,从而具备一定的推理能力。词语关系,如上下位、部分整体、同义等,是人类知识中很重要的一部分。构建大规模的词语关系知识库能够为以知识驱动的NLP技术提供数据支撑。本文重点关注上下位这种典型的词语关系,从数据集、分类方法、挖掘方法三个方面开展了较深入的研究。本文的主要研究内容如下:(1)汉语词语上下位关系数据集构建本文编制了一份汉语词语上下位关系标注规范,针对标注难点给出不同优先级别的标注原则。同时,本文开发了一个词语关系可视化标注系统,并采用严格的双人标注加专家审核的标注流程。本文通过挖掘各种知识库,获得大量候选词对进行人工标注,从而构造了一份汉语上下位关系平衡数据集。(2)汉语词语上下位关系分类模型比较基于构建的平衡数据集,本文深入研究了上下位关系分类问题。给定一个词对和一些同时包含该词对的例句,分类模型尝试利用词嵌入向量和上下文信息,准确分辨两个词语之间的关系。本文利用BiLSTM对例句中词对间的最短依存路径进行编码,从而有效地刻画词对的上下文特征。同时在模型中利用自注意力机制减少非典型性例句造成的误差。此外,本文发现相同关系的词对在词语本身有一些相似的特征,将这些词表面特征融入模型也有一定的提升效果。最后,为了方便对数据集进行查询和纠错,并对分类模型的结果进行可视化分析,本文基于VIS前端插件开发了上下位关系分类演示系统。(3)基于知识库和无标注文本的汉语上下位关系挖掘本文从知识库和无标注文本两个来源挖掘上下位关系。一方面,本文对Chinese Open WordNet、《同义词词林》和Open HowNet三个知识库进行数据清洗,进而设计了相关挖掘规则。另一方面,本文针对四种最典型的上下位句型,分别定义了词法模板和句法模板,在维基百科和百度百科的无结构化文本中挖掘上下位关系。实验结果表明在采用先进的依存句法分析器后,依存句法模板的性能相比于词法模板有较大优势。最后,本文设计了一个可视化的上下位词对挖掘演示系统,允许用户定制模板,并查看和对比挖掘效果。
其他文献
第一部分研究目的:通过对中国蒙古族人群的一项前瞻性研究,探讨高血压和血管紧张素Ⅱ(Ang Ⅱ)水平升高联合对冠心病(CHD)发病危险性的影响。资料与方法:本次调查一共随机选取了内蒙古自治区通辽市两个相邻乡镇(科左后旗、奈曼旗)的32个村庄,纳入20岁及以上的常住居民2589例,其中59名研究对象因缺失本次研究的关键数据而被排除在外,最终共计2530人纳入分析。采取面对面调查的方式,收集研究对象的社
学位
目的:混合谱系白血病(Mixed Lineage Leukemia,MLL)基因重排急性白血病(Acute Leukemia,AL)具有病情进展迅速、易复发、平均生存期短、预后差等临床特点。目前对于造血干细胞移植(Hematopoietic stem cell transplantation,HSCT)治疗MLL基因重排AL的疗效具有争议。本研究通过比较单纯化疗与移植治疗MLL基因重排AL患儿的疗
学位
目的:研究多形性腺瘤基因样蛋白2(PLAGL2)对肝癌生长和转移的作用及其分子机制。方法:(1)分别提取人肝癌细胞 SMMC7721、MHCC97H、MHCC97L、HepG2、HUH7、Li-7、LM3、SK-HEP-1、PLC/PRF-5和人正常肝细胞L02(对照)的总蛋白,运用Western blot的方法检测PLAGL2在肝癌细胞中的表达。(2)以携带人PLAGL2编码序列(CDS)(14
学位
当前国际经贸环境更趋复杂,贸易新业态、新模式迅速发展,给海关创新和完善检验监管机制提出了更高的要求。对此,以“三智”理念为引领,以提升大宗商品检验监管效能为切入点,针对当前进口大宗商品重量鉴定监管中存在的难点堵点问题,探索构建以智慧化应用为核心的无感式鉴定监管新模式的实现路径,并结合一线口岸海关的案例实践介绍无感式智慧鉴定监管的体系构架和应用成效,并针对如何进一步推进智慧鉴定监管建设提出合理性建议
期刊
本实验研究了三类异黄酮与药物转运体的相互影响,分别是大豆异黄酮类(大豆苷元、大豆苷、双氢大豆苷元、牛尿酚、大豆苷元-4-β-葡萄糖醛酸和大豆苷元-7-葡萄糖醛酸),染料木素异黄酮类(染料木素、染料木苷和染料木素-7-葡萄糖醛酸),和黄豆黄素异黄酮类(黄豆黄素和黄豆黄苷)。系统考察了这些异黄酮化合物的转运机制,并进一步探讨了部分异黄酮对转运体功能的调节作用,以及潜在的体内药物-异黄酮相互作用。此外,
学位
背景:目前我国老龄化进入快速发展阶段,我国老年人群慢性病共病患病率为43.6%。慢性心衰和2型糖尿病都是常见的慢性疾病,他们的合并存在在老年人群中发病率高,无论从疾病的诱因、临床症状、相关实验室指标、治疗甚至预后都有其特点。所以对于老年慢性心衰合并2型糖尿病这个群体的患者的研究有其必要性。目的:回顾性分析以往老年慢性心衰群体,通过与未患有糖尿病的慢性心衰患者比较,研究合并2型糖尿病心衰患者的临床特
学位
在海量社交数据的涌入之下,向推荐框架引入以社交矩阵为代表的用户交互信息所构成的社交推荐模型能够更广泛地对用户偏好进行挖掘。同时,利用社交矩阵作为推荐模型的辅助输入信息有助于缓解由评分矩阵的数据稀疏性所引起的模型过拟合问题与系统冷启动问题。然而,此类社交推荐模型通常直接利用由原始网络所映射成的二值邻接社交矩阵,这种方法存在两个局限性:第一,由于网络中所有相邻的用户节点之间共享相同的权值,模型未能在推
学位
氮化硅作为重要的高温结构陶瓷,具有强度高、耐高温、抗热震性好等优异性能,被广泛应用于冶金、航空、化工等领域,通常利用Si粉和N2通过反应烧结法制备得到。六方氮化硼具有耐高温、抗氧化、化学性质稳定等优点,被广泛应用于水平连铸分离环、薄带连铸侧封板、复合喷嘴包等关键功能元件。但是由于h-BN烧结性差,通常只能通过热压烧结或者热等静压烧结制备得到,工艺复杂,成本高,严重限制了h-BN质材料在高温工业的应
学位
随着可持续发展理念的提出,节能减排逐渐成为大家关注的热点话题。为实现“碳达峰、碳中和”的目标,钢铁、有色、建材和石化等高温工业低碳发展势在必行。耐火材料作为高温工业窑炉的炉衬材料,是高温工业节能减排、低碳发展的重要支撑;与此同时,耐火材料制造也需绿色、低碳方可持续发展。耐火浇注料是耐火材料的重要组成部分,具有不需要烧成、生产过程简单、易施工和整体气密性好等特点,但现有高温窑炉工作层用耐火浇注料所用
学位
竹黄菌(Shiraia bambusicola P.Heen)是主要寄生于短穗竹属(Brachystachyum)等竹子上的病原真菌,其子实体-竹黄是我国传统的中药材。竹黄中的竹红菌甲素(hypocerllin A,HA)作为一种具有抗菌、抗病毒、抗肿瘤等活性的新型非卟啉类的天然光敏剂,在光化学疗法(photodynamic therapy,PDT)上具有较高的应用潜力。由于野生竹黄资源有限,通过
学位