【摘 要】
:
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数据集,该文进行多组实验并进行实验结果分析.特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取.实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取
【机 构】
:
苏州大学计算机科学与技术学院,江苏苏州215006
论文部分内容阅读
属性抽取是构建知识图谱的关键一环,其目的是从非结构化文本中抽取出与实体相关的属性值.该文将属性抽取转化成序列标注问题,使用远程监督方法对电商相关的多种来源文本进行自动标注,缓解商品属性抽取缺少标注数据的问题.为了对系统性能进行精准评价,构建了人工标注测试集,最终获得面向电商的多领域商品属性抽取标注数据集.基于新构建的数据集,该文进行多组实验并进行实验结果分析.特别地,基于多种预训练语言模型,进行了领域内和跨领域属性抽取.实验结果表明,预训练语言模型可以较好地提高抽取性能,其中ELECTRA在领域内属性抽取表现最佳,而在跨领域实验中BERT表现最佳.同时,该文发现增加少量目标领域标注数据可以有效提高跨领域属性抽取效果,增强了模型的领域适应性.
其他文献
机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用.该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用 自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等.标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系
基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现.然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本.这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型.因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题.针对该问题,该文提出了一种语言模型攻击性的自动评估方法.它分为诱导和评估两个阶段.在诱导阶段,基于即插即用可控文本生成技术,利用训练好的文本分类模型提供的梯度方向更新语言模型的激活层参数,增加生成的文本具有攻击性的
抽象语义表示到文本(AMR-to-Text)生成的任务是给定AMR图,生成相同语义表示的文本.可以把此任务当作一个从源端AMR图到目标端句子的机器翻译任务.目前存在的一些方法都在探索如何更好地对图结构进行建模.然而,它们都存在一个未限定的问题,因为在生成阶段许多句法的决策并不受语义图的约束,从而忽略了句子内部潜藏的句法信息.为了明确考虑这一不足,该文提出一种直接而有效的方法,显式地在AMR-to-Text生成的任务中融入句法信息,并在Transformer和目前该任务最优性能的模型上进行了实验.实验结果表
任务型对话系统中的自然语言生成模块(ToDNLG)旨在将系统的对话动作转换为 自然语言回复,其受到研究者的广泛关注.随着深度神经网络的发展和预训练语言模型的爆发,ToDNLG的研究已经获得了重大突破.然而,目前仍然缺乏对现有方法和最新趋势的全面调研.为了填补这个空白,该文全面调研了 ToDNLG的最新进展和前沿领域,包括:(1)系统性回顾:回顾和总结了 ToDNLG近10年的发展脉络和方法,包括非神经网络时代和基于深度学习的ToDNLG工作;(2)前沿与挑战:总结了复杂ToDNLG等一些新兴领域及其相应的
抽象语义表示(Abstract Meaning Representation,AMR)是一种句子语义表示方法,能够将句子的语义表示为一个单根有向无环图.随着中文AMR语料库规模的扩大,解析系统的研究也相继展开,将句子自动解析为中文AMR.然而,现有的AMR解析评测方法并不能处理中文AMR的重要组成部分——概念对齐和关系对齐信息,尤其是关系对齐中对应到有向弧上的虚词信息.因此,为了弥补中文AMR解析评测在这两个方面上的空缺,该文在Smatch指标的基础上加入了描写概念对齐和关系对齐的三元组,得到用以评测中文
汉语学习者依存句法树库为非母语者语料提供依存句法分析,对第二语言教学与研究,以及面向第二语言的句法分析、语法改错等相关研究有重要意义.然而,现有的汉语学习者依存句法树库数量较少,且在标注方面仍存在一些问题.为此,该文提出一个依存句法标注规范,搭建在线标注平台,并开展汉语学习者依存句法标注.该文重点介绍了数据选取、标注流程等问题,并对标注结果进行质量分析,以探索二语偏误对标注质量与句法分析的影响.
云计算能够有效解决传统IT架构与部署模式下城市轨道交通系统存在的问题,达到软硬件资源共享与按需调配的目的.文章主要内容通过探讨云平台在城市轨道交通中的使用环境,分析了城市轨道交通融合云平台的建设方案,为推进我国城轨行业实现信息化建设发展提供部分参考价值.
申请公布号:CN 113558346 Arn一种透气鞋底,解决现有技术存在的透气效果不佳,复杂的管孔布设易堵塞破损,制造成本高,舒适感和耐用性差的问题.包括上侧设置有透气鞋上底的透气鞋中底,其特征在于:透气鞋中底下侧设置有耐磨鞋下底;透气鞋中底的前脚掌端内部设置有过渡气囊腔,过渡气囊腔上侧设置有脚掌前部进气孔;过渡气囊腔两侧分别设置有扁平单向阀,扁平单向阀端部与前掌部侧帮排气孔相连;透气鞋中底的后脚跟端内部设置有柱状单向阀,柱状单向阀两端分别与脚掌后跟部进气孔和后跟部侧帮排气孔相连.其设计合理,结构紧凑,
关系抽取旨在从未经标注的自由文本中抽取实体间的关系.然而,现有的方法大都孤立地预测每一个关系而未考虑关系标签相互之间的丰富语义关联.该文提出了一种融合预训练语言模型和标签依赖知识的关系抽取模型.该模型通过预训练模型BERT编码得到句子和两个目标实体的语义信息,使用图卷积网络建模关系标签之间的依赖图,并结合上述信息指导最终的关系分类.实验结果显示,该文方法性能相较于基线方法得到了显著提高.
近些年来,胶囊神经网络(Capsnets)由于拥有强大的文本特征学习能力而被应用到文本分类任务中.目前的研究工作大都将提取到的文本多元语法特征视为同等重要,而忽略了单词所对应的各个多元语法特征的重要程度由具体上下文决定的这一事实,这将直接影响到模型对整个文本的语义理解.针对上述问题,该文提出了多尺度特征部分连接胶囊网络(MulPart-Capsnets).该方法将多尺度特征注意力融入到Capsnets中,多尺度特征注意力能够自动选择不同尺度的多元语法特征,通过对其进行加权求和,就能为每个单词精确捕捉到丰富