基于匹配策略和社区注意力机制的法律文书命名实体识别

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:deeyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据司法案件文书中实体名长度较长以及实体间的关联性较强这一特点,该文提出了一种利用最大正向匹配策略和社区注意力机制(FMM-CAM)的法律文书命名实体识别方法.该方法利用最大正向匹配策略,优先获得法律文书中每个字对应的较长的匹配词,将匹配词按字在词中的位置划分到B、M、E、S四个匹配词社区,并利用社区自注意力机制获取不同匹配词之间的关联性权重信息.具体过程利用BERT和Word2Vec的字表示,将字和匹配词社区压缩后的匹配词进行向量拼接,输入到一个BiLSTM中获得句子的语义表示,再利用CRF将句子进行解码,得到最优标签序列.实验结果表明,该文提出的方法可以对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效确定.
其他文献
目前交通噪音已然成为严重影响农村声环境舒适性的噪声源之一,为了解乡镇沿街建筑室外声环境现状,文章应用PKPM室外声环境sound软件对湖南省新邵县严塘镇207国道路段进行了室外声环境模拟,分析影响乡镇沿街建筑的主要因素,并提出合宜的优化策略.
基于深度学习的跨语言情感分析模型需要借助预训练的双语词嵌入(Bilingual Word Embedding,BWE)词典获得源语言和目标语言的文本向量表示.为了解决BWE词典较难获得的问题,该文提出一种基于词向量情感特征表示的跨语言文本情感分析方法,引入源语言的情感监督信息以获得源语言情感感知的词向量表示,使得词向量的表示兼顾语义信息和情感特征信息,用于跨语言文本的情感预测.实验以英语为源语言,分别以汉语、法语、德语、日语、韩语和泰语6种语言为目标语言进行跨语言情感分析.实验结果表明,该文所提模型与机器
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错.实验测试集由100篇新闻类语料构成,共包含49处错误.实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%.
政策文本的量化研究近年来受到了政策研究学者的广泛关注,其研究结论以客观数据为依据,在很大程度上可以克服以往对政策定性分析的主观性和随机性.已有定量政策文本分析方法主要存在两方面的不足:一方面,对于政策文本的采集主要依靠手工收集,其数据规模较小;另一方面,在政策识别方面主要依靠人类经验,在小规模数据集上进行偏置归纳.针对以上问题,该文提出基于预训练语言模型的政策识别方法,从而克服以上问题,在较大规模的政策文本数据集上取得了较好的效果.
通常情感分类模型都假定数据集中各类别样本数之间处于平衡状态,实际上数据集中不同类别样本间并不平衡.当样本间存在样本类别不平衡问题时,会导致训练结果偏向多数类样本,少数类样本分类精度不高.另外,在训练过程中,新加入样本存在贡献衰减问题,这将导致新样本对情感分类的效果影响降低,从而影响最终分类效果.针对以上问题,该文提出一种基于混合采样与代价损失再平衡相融合的多通道双向GRU情感分类方法(Re-balance Multichannel Sampling BiGRU,RMS_BiGRU).该模型首先在数据集上对
金融公告信息披露了企业运营的关键数据,具有应用价值.无结构金融公告中涉及复杂的财务关系,即多元关系.该文设计了基于依存分析树和频繁子图挖掘的垂直域多元关系抽取方法TextMining,可大大降低对数据集的依赖.进一步,受图卷积神经网络启发,该文设计了垂直域优化的FTA-GCN算法.在构建的适用金融公告数据集上,算法较强地关注以金融公告中常见的名词实体为核心的多元关系抽取,实验结果表明,算法具有良好的抽取效果.
广西田林瑶族刺绣技艺于2007年列入非物质文化遗产名录,以广西田林瑶族为例研究瑶族服饰纹样的构成和历史内涵,通过对色彩、纹样、寓意等特性进行解构,再结合现代设计的手法,实现传统纹样与现代设计重组,实现广西田林瑶族服饰图案的传承,向更多的人展示瑶族文化魅力,进而真正地参与到非物质文化遗产的保护中来,实现瑶族传统文化、艺术设计、以及日常生活的有效相结合.
传统的话题演化跟踪任务主要使用基于主题模型的方法,但该方法对于文本语义的提取及表征能力较弱.该文在词嵌入方法的基础上结合LDA和注意力增强的孪生BiLSTM网络,提出文本邻近度模型PDRBL来确定话题演化过程中的时态判定.此外,基于PDRBL模型给出了六个话题演化时态及其判定方法,进而提出了话题演化跟踪方法TETP.实验表明,该文所提模型在精确率、召回率、F 1值三个方面具有优化或可比较的性能,并可以有效捕获话题演化路径.
占比分析rn在2021年9月女鞋TOP100的色彩占比中,总体来看色彩饱和度较低,除去基础的黑白两色外,还有着灰度较高的豆沙色、水田芥绿、浅卡其、石灰色等.而在品牌浏览与下载TOP20中,Michael Kors、POLLINI、Suecomma Bonnie等品牌的浏览与下载率较高.最后从款式占比中可以看出运动休闲下的单鞋款式占比达到80%,运动系列还是9月女鞋特别关注的焦点.
属性级情感分类是情感分析领域中一个细粒度的情感分类任务,旨在判断文本中针对某个属性的情感极性.现有的属性级情感分类方法大多是使用同一种语言的标注文本进行模型的训练与测试,而现实中很多语言的标注文本规模并不足以训练一个高性能的模型,因此跨语言属性级情感分类是一个亟待解决的问题.跨语言属性级情感分类是指利用源语言文本的语义和情感信息对目标语言文本中包含的属性级情感进行挖掘和分类,相对于单语言的属性级情感分类任务而言,它具有更高的挑战性.该文提出了一个基于多通道BERT的跨语言属性级情感分类方法(Multi-B