【摘 要】
:
神经网络方法在词嵌入表示学习领域的成功,极大激发了生成长文本语义嵌入的方法研究。相较于词汇语义的确定性,句子语义更加复杂多变,它是在句法规则约束下融合各词语语义形成的,而非语义的简单叠加。目前,大多数句子嵌入表示方法都是直接基于语义相似性进行建模,通过预测句子间的上下文联系来学习嵌入表示,即使部分方法能够保留词序信息,但句法信息融合度不高的问题依然存在。由于句子语义与其句法结构紧密关联,句法信息的
论文部分内容阅读
神经网络方法在词嵌入表示学习领域的成功,极大激发了生成长文本语义嵌入的方法研究。相较于词汇语义的确定性,句子语义更加复杂多变,它是在句法规则约束下融合各词语语义形成的,而非语义的简单叠加。目前,大多数句子嵌入表示方法都是直接基于语义相似性进行建模,通过预测句子间的上下文联系来学习嵌入表示,即使部分方法能够保留词序信息,但句法信息融合度不高的问题依然存在。由于句子语义与其句法结构紧密关联,句法信息的缺失就将导致句子嵌入表示的语义精度偏差。针对当前句子嵌入表示研究中存在的句法信息融合度不高的问题,本文提出利用句法分析技术将句子建模为包含顶点信息的属性网络,利用矩阵分解的方式学习句法信息的向量表示,并与词向量进行融合计算获得句子的嵌入表示。此外,本文模型也可以作为一个通用的句子嵌入学习框架,支持将不同的词嵌入方案和句法分析技术作为框架的构建块以适应多样化的语言场景,由此衍生出一系列变体方法。同时,本文选取了句嵌入领域的多个经典模型作为对比基准,分别在中英文数据集上进行文本语义相似度实验。实验表明,本文模型在各数据集上的综合表现比较稳定,能够接近或超越基线模型的最佳效果。与KERMIT和Para BART的对比能够直观说明,在融合句法信息这一同等条件下,本文模型可以更有效地捕获句法信息以提升句子嵌入表示的精度。基于变体方法的实验证明了本文模型作为通用框架能够根据实际的任务场景灵活地集成不同词嵌入方案和句法分析技术以获得更好的模型效果,具备一定的可扩展性。
其他文献
我国电力改革经过1987年提出“集资办电”、2002实行“厂网分开、竞价上网”后,2015年3月开启新一轮电力改革。此次改革的焦点在“放开两边,监管中间”。放开发电市场,在发电环节引入竞争的改革由此开启。为有序推进发电市场业务改革,需要对新一轮电力体制改革下政府对发电市场业务规制进行深入研究。故对发电商市场势力的研究具有一定的理论和现实意义。本文以新电改政策的实施为背景,发电商市场势力为研究对象。
随着信息时代的高速蓬勃发展,每天网上的信息也呈爆炸式增长。人们已经从当时拨号上网的资源稀缺年代进入了如今海量信息的5G时代,用户反而无法快速高效找到自己感兴趣的并且获得良好阅读体验的资讯。如何在海量信息当中找到对用户有价值的信息成为了热门问题,许多专家与企业家都认为其由巨大的发展前景与商业价值,现在市面上大多数的新闻产品中,一般都是通过基于协同过滤或基于内容进行个性化新闻推荐,但是都还存在着部分瑕
钢-混凝土组合梁支点负弯矩区顶板承受弯拉荷载,钢材与混凝土变形不协调,导致混凝土开裂。本文以某长江大桥引桥4×50m钢-混组合梁优化设计为工程案例,从结构措施、材料措施和防水措施三个方面分析了钢-混组合梁桥面板的抗裂性能,相关措施和结论可为桥梁钢-混组合梁设计提供参考。
与科任教师相比,班主任与学生的交流和互动更频繁、密切,对学生的影响更为明显。班主任的心理关怀能激发学生的学习能动性,因此,班主任要讲究管理艺术,给予学生更多的心理关怀,及时疏解学生的负面情绪,培养学生的自信心。班主任可采取心理关怀软管理艺术,站在学生的角度,结合学生的内心诉求、认知期待和最近发展区调整班级管理模式,真正深入学生的内心世界,成为学生的良师益友。本文则结合心理关怀的基本内涵,深入分析高
目的 对比开放手术与微创手术在建立膝前交叉韧带(ACL)本体感觉减退模型时的差异,为基础研究提供一个优化的动物模型。方法 30只正常食蟹猴被随机分为5组,微创手术组:关节镜下进行单侧ACL损伤,n=6;开放手术组:直接切开膝关节进行单侧ACL损伤,n=6;微创假手术组:仅进行膝关节镜检清理不损伤单侧ACL,n=6;开放假手术组:直接切开膝关节仅作单侧ACL探查而不损伤单侧ACL,n=6;正常组:不
柬埔寨地处亚洲中南半岛区域,该国超过80%占地面积的耕地都是用于种植水稻,2020年柬埔寨向全世界70多个国家出口大米,总出口贸易额达到5.06亿美元,而柬埔寨同G20国家大米出口额达到4.87亿美元,柬埔寨向G20国家出口大米占总出口的比重超过90%。在与G20国家进行大米国际贸易合作时,柬埔寨受到了诸多贸易便利化条件的制约。由于G20成员国发展水平存在较大的差异,部分发展中国家的港口、铁路、公
知识图谱可以部分模拟人脑的认知过程,存储着海量的专业知识,能为中医临床决策提供所需信息。然而,中医语言(古汉语)的晦涩难懂以及中医理论知识的模糊性、不确定性的制约,使得中医临床知识图谱中存在着复杂,模糊的关系,不利于知识图谱嵌入学习和下游应用。本文基于全国中文开放知识图谱(Open KG)中的医学知识图谱构建了含有疾病、症状、检查、药品等59882个实体,17种关系数,604700条三元组的中医临
随着全球专业化分工程度的加深和信息技术的发展,生产性服务业对全球产业格局的影响越来越强,而传统制造业对经济的贡献度持续下降,取而代之发展的是产品精良、成本低廉,且服务化越来越明显的先进制造业。在新一轮科技革命和产业变革的背景下,建设现代产业体系和提高制造业核心竞争力都离不开先进制造业和生产性服务业的良性互动,这对于我国经济结构转型也是至关重要的因素。滇中是云南省经济最为发达的地区,也是辐射南亚、东
超声图像由于其快速无辐射等优势现已成为乳腺癌术前诊断的首选影像学检查方式,但是乳腺超声图像的诊断依然严重依赖于医生的经验。近年来计算机辅助诊断技术发展迅速,无论是利用人工设计特征的机器学习算法还是利用庞大数据集训练模型的深度学习算法都有了里程碑式的突破。这些技术的进步不仅减少了医生的工作负担,更是提高了乳腺肿瘤诊断的准确性,极大地减少了误诊情况的出现。本课题针对乳腺超声图像获取困难以及数据分布有差
我国的经济和科技发展日新月异,人们获取财经类信息的方式也逐渐由线下的各类报纸与杂志逐渐转为手机、电脑等媒介里的线上电子刊物,财经类的相关信息呈指数级大小出现在网络中。就中文财经文本而言,因其具有专业性质强、词义模糊、表达方式多样等特点,故在特征提取与文本分类方面具有较大的挑战。如何更加准确的对这些财经信息进一步分类,使用户更加快速地提取自己所需的内容则是本文的研究目标。同时,随着深度学习思想不断走