ALICE:面向科技文本分析的预训练语言表征模型

来源 :计算机工程 | 被引量 : 0次 | 上传用户:lele5126596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理任务的深层模型依赖大型、高质量、人工标注的数据集。为了减轻模型对这种大型数据集的依赖,本文提出一种基于BERT针对中文科技自然语言处理小数据集任务的预训练语言表征模型ALICE(A pre-trained technological Language representatIon for Chinese technological tExt analysis)。我们通过改进遮罩语言模型并结合命名实体级遮罩来提高基础模型在下游任务中的表现,同时也使其学习到的语言表征更贴合中文的语言特性。实验表明,在中文科技文本分类和命名实体识别任务中,与BERT相比,ALICE分别提高了1.2%的准确率与0.8%的F1值。
其他文献
目的:二次剖宫产手术采用腰-硬联合麻醉的临床观察。方法:选择拟行二次剖宫产手术的病人100例,随机将病人分为两组,腰-硬联合麻醉为(A组),硬膜外麻醉(B组)。并记录麻醉前(T0)
自《马氏文通》第一次明确了汉语复句的概念,并尝试进行分类之后,汉语复句分类便一直是汉语复句研究中重要问题。其研究成果不仅数量丰硕,而且都具有相当有力的理论支持。现
<正>物换星移,五载转瞬。伴随着河北全面建设小康社会的铿锵足音,河北省残疾人就业工作踏上了新的征程。五年来,通过开展按比例安排残疾人就业工作,7万多名城镇残疾人得到不
《蜀语》是我国现存第一部“断域为书”的方言词汇著作,它成书于明末清初,其作者李实为明末四川遂宁人。《蜀语》的出现,结束了四川方言零星记载的历史,是研究四川古代方言的
<正>2015年11月10日,习近平总书记在中央财经领导小组会议首次提出供给侧改革。其后,从10日至18日短短的9天内,中央四次提及供给侧改革。在今年召开的全国"两会"上,代表、委
会议
热传导反问题在航空航天、冶金铸造、化工、无损探伤等领域有着广泛的应用。虽然热传导反问题的研究较多、发展较快,依然存在着较多不足。例如,对瞬态非线性热传导反问题,以
本文以现代汉语拟声词和英语拟声词为研究对象,分别从拟声词的定义、语音、语法特征等方面进行了分析和梳理,对比汉英拟声词的异同,并分析其产生的原因。在此基础上详细介绍
《韩非子》是战国末期法家思想的重要著作,其作者和成书年代都很确定,它的词汇反映了周秦之交的语言词汇面貌,是先秦与秦汉的一个过渡。春秋战国时期是古代汉语发展的重要阶
湟水河经过多年的治理,虽已取得了一些成效,但水污染问题仍然没有得到彻底解决。公众参与湟水河保护对执行湟水河治理政策有重要推动作用,但目前受地理环境及经济发展等因素
自由是政治价值体系中至关重要的一个范畴。在现代性视域下,自由以对立多元的方式呈现,消极的和积极的自由、个人的和集体的自由、政治的和经济-社会的自由。这不仅是观念和