基于新词发现的跨领域中文分词方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:toky868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不同于英语等语种,中文词语之间没有明显的分隔符,这对于中文的理解造成了一定的困难。为了便于计算机对中文的理解,需要将中文文本按词语进行分割,这就是中文分词任务。近年来,基于神经网络的中文分词方法取得了远超传统分词方法的效果,因而成为了当下的主流分词方法。神经网络模型的训练需要大规模的人工标注语料,而人工标注需要耗费大量的人力物力,并且为每个领域都进行人工标注显然也是不符合实际的。现今可获得的有标注语料基本都属于新闻领域,使用新闻语料训练的模型来对其他领域进行分词,效果会急剧下降。这是不同领域文本之间的表达鸿沟和未登录词造成的,这就是中文分词的领域适应性问题。针对以上问题,本文提出了一种结合新词发现算法的跨领域中文分词系统,通过自动标注来实现对目标领域无标注语料的利用。本文的主要工作如下:(1)本文基于传统的新词发现算法和中文分词算法搭建了一个结合新词发现的跨领域中文分词系统。该系统首先利用新词发现算法从目标领域语料上提取出新词词表,然后基于该词表对无标注的目标语料进行自动标注,最后使用基于自动标注语料训练的模型对目标领域进行分词;(2)针对现有新词发现算法提取出的词表垃圾词串多和领域性差的缺点,本文充分考虑到语料中词语的统计信息和语义信息,提出了一种基于向量增强互信息的无监督新词发现算法。通过对各个目标领域语料进行新词发现,可以看出本方法可以显著的增强新词词表的准确率和领域性;(3)针对自动标注语料中存在少量噪声样本的缺点,本文提出了一种基于对抗式训练的中文分词算法。通过对各个领域语料进行分词对比,可以看出本方法可以显著的提升模型的准确性、鲁棒性和泛化性。
其他文献
近年来,随着自动化水平提高以及机器人技术的普及,手工焊接因其生产效率低下、工作环境恶劣等弊端凸显,逐渐被以机器人为主体的自动化焊接系统取代。但受限于工业机器人的硬件设备和智能化水平,当前焊接作业的机器人主要采取“手动示教--记忆再现”的工作模式。可是,这种工作模式不可避免受到装夹误差、受热变形等外部因素的干扰,导致实际焊接时的焊缝轨迹偏离手动示教时的焊缝轨迹,从而使焊接的精度和质量受限。为此,在国
随着互联网技术的快速发展和大数据时代的到来,企业得利于网络和科技的发展,获得和收集了大量用户的数据和信息。然而企业面对海量用户数据,无法有效筛选出有价值的用户信息,呈现数据使用率低、数据资产转化率低的情况。自2019年政府工作报告提出加大ETC推广力度以来,各大银行以及新兴互联网金融公司纷纷加入抢占ETC用户的竞争中。由于ETC产品的同质化,需结合营销策略以及产品服务组合的方式形成差异化竞争力。此
PCB缺陷检测是电子制造业生产线上保证产品质量的关键环节。随着产品质量的不断提升,人们日常使用的手机、家电,到智能汽车、航天飞机等都对PCB产品的可靠性和鲁棒性提出了越来越高的要求。但是,目前工业上使用的PCB缺陷检测仍然存在特征不鲁棒、样本不均衡、小目标检测、噪声样本的问题。由于PCB缺陷检测通常采用基于手工特征的分类方法,而手工设计的特征只能根据人的经验进行设计,往往模式简单,且其所提取的特征
新冠肺炎疫情对城市居民出行产生了巨大影响,已有不少学者研究了疫情严重时期疫情对城市交通的影响。现在我国已经迈入了后疫情阶段,现有研究存在以下值得改进的地方:1)大部分研究成果关注的是疫情严重阶段疫情对交通出行的影响,较少关注后疫情阶段疫情对交通出行的影响;2)私家车拥有者,相较于非私家车拥有者,在出行时有更多的交通方式选择,受疫情影响的程度更大,但现有研究未直接关注私家车拥有者的出行行为。基于以上
杂豆全食品因其营养成分丰富而广受关注,杂豆细胞内含淀粉由于受到细胞壁包裹,在胃和小肠中能够较好地抵抗消化酶降解,即可作为1型抗性淀粉进入结肠被肠道菌群所发酵利用。杂豆子叶细胞经发酵后通过促进短链脂肪酸(short-chain fatty acids,SCFAs)的产生和有益菌的增殖,可以对菌群环境及肠道健康进行有益地调控,从而降低人体患肥胖、糖尿病、炎症性肠病等慢性疾病的风险。水热处理是常见的食品
大力发展节能技术,进一步提升能效水平有利于实现我国能源战略目标。热泵是“煤改电”工程中替代锅炉的主要设备,具有制冷制热一体化功能,故要求其核心元件——换热管必须同时具备优异的沸腾性能和优异的冷凝性能。但由于强化沸腾/冷凝原理上的差异,新型沸腾/冷凝强化管的制造是一个极具挑战性的课题。为此,本文提出一种具有亲疏水表面强化沸腾/冷凝管,基于强化管表面的三维翅片结构特点设计制备亲疏水表面,探究具有高覆盖
减震系统弹簧材料主要用于汽车制造业,其用量占总产量的90%以上。目前国内外减震系统用悬架弹簧材料的最高强度级别为2000 MPa级。汽车向轻量化发展和节能减排需求日益迫切,对汽车弹簧的强韧性提出了更高要求,为此有必要开发更高级别的高强度悬架弹簧材料。目前国内针对悬架弹簧材料的研究主要集中在60Si2CrV、55Si Cr等材料,而对高强度汽车用弹簧钢65Si2CrV的研究鲜有报道。因此本文的研究结
Al2O3气凝胶是一种具有高比表面积、低密度、高孔隙率、轻质多孔的三维纳米材料,在保温隔热、催化剂、吸附和航天航空中具有广阔的应用前景。Al2O3气凝胶在900-1000℃性能较稳定,但随着温度的继续升高,Al2O3气凝胶会发生向α-Al2O3的相转变,此时Al2O3气凝胶多孔结构被破坏,其优异性能丧失。因此,找出有效可行的方法来提高Al2O3气凝胶的高温(≥1000℃)性能,阻止高温烧结和相变,
本论文合理建立了被静脉血管贯穿的不规则肿瘤热分区数值模型,利用有限元法将磁感应热疗数值模拟过程中的流场、温度场、磁场进行多物理场耦合;实施了离体生物组织实验进一步验证了模拟仿真结果的有效性;同时铁基非晶软磁合金在以往磁感应热疗的研究中鲜为人知,本论文的成果可以为新材料在肿瘤的磁感应热疗上的应用做铺垫。本论文建立了被静脉血管贯穿的肿瘤组织的数值模型,通过分析圆柱体铁基非晶合金在交变磁场中的功率密度并
多溴联苯醚(PBDEs)作为一种广泛应用的溴代阻燃剂,常在环境中被大量检出,由于其具有高毒性并能在环境中持久存在,对人体健康和生态安全构成严重威胁。表面活性剂洗脱技术可以快速去除土壤和底泥中的高浓度PBDEs,然而洗脱废液的处理成为制约该技术进一步应用的主要因素。光降解是环境中PBDEs去除的重要途径,可用于处理含PBDEs的洗脱废液。本研究在分析PBDEs污染现状及处理技术的基础上,将光降解技术