【摘 要】
:
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动
【机 构】
:
北京市信息技术研究所,中国西南电子技术研究所
【基金项目】
:
国家自然科学基金资助项目(U19A2078),四川省科技计划重点研发项目(2020YFG0009)
论文部分内容阅读
分词是中文自然语言处理的重要基础,新词的不断涌现是分词的最大难题。针对新词识别定义不清、语料缺乏的实际问题,提出了一种以大规模神经网络预训练模型为基础,并结合主动学习和人工规则的新词识别算法。利用预训练模型高效识别候选新词,使用基于不确定性和代表性样本选择的主动学习策略辅助标注新词,利用热度规则、突发性规则和合成性规则识别和过滤新词发现结果。针对新词识别评价标准不一致的问题,给出了一般性准确率和受限制准确率两条规范测试指标。与现有最优算法进行实验对比,所提算法两项指标分别提高了16%和4%。
其他文献
查账的调查询问工作是指查账人员在查账中发现问题或疑点后找当事人或有关人员调查询问进行核实的行为。
建立了面接触块体结构的力学模型,给出了结构中块体接触面上力的计算公式,研究了结构中挤压力的传递迹线及最大主应力的分布特点,并对该种结构的稳定性进行了深入研究,结果表
公司资产和利润被转移到其控制性股东手中的“隧道行为”普遍存在,在我国资本市场上,由于特殊的制度背景,这种控制性股东剥夺中小股东利益的现象表现得更为突出。治理我国上市公
社会保障资金是国家和社会依法建立,用于社会救济、社会保障和社会福利的专项基金,是百姓的养命钱、救命钱,关系到广大人民群众的利益和社会的和谐发展。由于社保资金种类多
摘 要:我国在信息采集以及数据处理等技术中都有较大投入,在嵌入式软件系统设计中也获得令人瞩目的成绩。在信息技术大背景下,城镇化居民对信息资源以及服务需求都得到较大提高。在各个地区经济发展中,信息产业都是不可或缺的主导力量。不仅能够提高农业生产的自动化程度,增加农业的生产规模,促进农业生产的优化升级,利用信息技术也促进了制造业产品的开发和推广等工作。文章根据信息技术发展城镇化的相关意义和存在问题进行
经济责任审计是审计机关(审计机构)通过对领导干部或国有企业及国有控股企业领导人所任职的地区、部门、单位财政财务收支以及相关经济活动的审计,来监督、评价和鉴证党政领导干
目的:探讨心理护理干预对血液内科白血病患者遵医行为的影响研究。方法:将2018年9月-2019年9月在中山市人民医院血液内科治疗的92例白血病患者随机分为两组,对照组使用常规护
明月山位于宜春市袁州区和吉安市安福县交界处,是旅游观光、度假疗养胜地,2015被国家旅游局评为AAAAA级景区。本文研究主题为明月山区域文化整合,利用问卷法调查游客对明月山
近年来,随着我国科学技术的不断进步,电力事业的不断发展,10 k V配电线路防雷工作作为我国整个电网施工过程中的重要组成部分,它不仅肩负着维护供电安全的重要使命,同时也是
近日,吉安市审计局向各县(市、区)审计局发出了《关于吉安县审计局荣获全国审计机关先进集体的通报》,"希望吉安县审计局珍惜荣誉,谦虚谨慎,戒骄戒躁,开拓创新,再立新功。"吉安县