AI不会断句?中文分词新模型帮它进步

来源 :中国科学探险 | 被引量 : 0次 | 上传用户:star2006111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  人工智能经常“看不懂”中文句子,让人哭笑不得。在2020年7月举行的自然语言处理领域(NLP)顶级学术会议ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文入选。这两篇论文均聚焦自然语言处理中文分词领域。
  据研究人员介绍,分词及词性标注是中文自然语言处理的基本任务,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。
  基于此,两篇论文各自提出了键-值记忆神经网络的中文分词模型和基于双通道注意力机制的分词及词性标注模型,将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。
  中文分词主要面临歧义和未登录词两大难点
  据介绍,中文分词的目的是在中文的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”将被切分为“我/喜欢/音乐”。
  创新工场大湾区人工智能研究院执行院长宋彦分析,中文语言因其特殊性,在分词时面临着两个普遍的主要难点。
  一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”“民生”等歧义词。
  二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。这类问题在跨领域分词任务中尤其明显。宋彦介绍,这些未登录词,会非常影响分词和词性标注模型和系统的性能。
  利用记忆神经网络提升中文分词性能
  对此,其中一篇论文提出了基于键-值记忆神经网络的中文分词模型。
  宋彦介绍,该模型利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。
  把可能成词的组合全部找到以后,加入到该分词模型中。然后通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。例如,在“部分居民生活水平”这句话中,“部分”“居民”“生活”“水平”这些词会被突出,而“分居”“民生”会被降权处理,从而预测出正确的结果。
  据介绍,为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。“我们在5个经常使用的标准中文分词数据集(MSR、PKU、AS、CityU、CTB6)上面,都达到了最好的效果,在这五个数据集上的分数都刷到了历史新高。” 宋彦说。
  双通道注意力机制剔除“噪音”误导
  第二篇论文则提出了一种基于双通道注意力机制的分词及词性标注模型。
  据介绍,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如動词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。
  “‘他马上功夫很好’这句话,在使用外部的句法知识的时候,可能会存在‘马上’这个词被分错的情况。正确的结果应该是‘马’和‘上’分开,但是这儿如果被分成一个词,就会被识别为一个副词。” 宋彦举例说。
  研究人员介绍,针对这一问题,该论文提出的模型将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。
  为了测试该模型的性能,论文在一般领域和跨领域分别进行了实验。宋彦介绍,一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表现(F值)均超过前人的工作。
其他文献
眼睛是人类最重要的传感器官之一。通过视觉,人才能感知外界物体的大小、明暗、颜色、动静,获得对机体生存具有重要意义的各种信息。人类大脑中大约80%的知识和记忆都是通过眼睛获取的,视觉是人和动物最重要的感觉。  视觉如此重要,失明不但会给患者带来严重的生活障碍,还给家庭和社会带来沉重的负担。  好消息是,由香港科技大学(HKUST)科学家领导的国际团队开发出了世界上首款3D人工眼,这款“电化学仿生眼”
期刊
据外媒报道,沙特阿拉伯的研究人员开发出了薄的有机太阳能电池,这种电池和同类电池相比拥有一些优势。据了解,这种新型太阳能电池效率更高,其使用了更多的普通元件并可以被喷墨印刷到表面上进而能够实现足够的轻便灵活,而这能为可穿戴电子设备所用。  这种新型太阳能电池设计是完全可打印的,每层都用不同的专业墨水打印出来。电极则由一种叫做PEDOT:PSS的透明导电聚合物制成,中间有一层有机光伏材料。外面是一层聚
期刊
2020年8月24日,國际学术期刊《自然·物理》在线刊发了电子科技大学夏娟研究员、王曾晖教授与合作者的研究成果《二硒化钨-二硒化钼双层异质结的层间强耦合及高压调控研究》。他们借助能产生百万大气压强的金刚石对顶砧(DAC)装置,针对仅有蝉翼千分之一厚度的二维异质结材料开展了极高压研究。  在研究中,科学家们巧妙地利用了二维异质结的结构特点,对仅有原子级厚度的纳米材料实现了高效压缩,并观察到了一系列新
期刊
看过科幻电影《终结者2》的朋友对里面的液态金属机器人T-1000一定印象深刻。在电影中,T-1000的身体是由可还原记忆的液态金属构成,可以在液态和固态中自如转换,被破坏后能够自我还原,受伤或中弹后伤口还能够自动闭合,令人叹为观止!  艺术来源于生活,科幻就是人们对未来科技发展的一种幻想。看到如此神奇的机器人,很多科研工作者也坐不住了,有的想到研究液态金属,有的考虑将这种独特的“能力”运用于3D打
期刊
在已知的清洁能源中,太阳能无疑是目前地球上可以开发的、储量最多的可再生能源。提起太阳能利用,大家首先会想到的是光伏发电,毕竟,太阳能汽车、太阳能充电宝等我们在平常生活中就可以看到。其实,太阳能还有另一种利用方式,太阳能光热发电。  了解光热,记住光热  光伏发电、光热发电,都是利用太阳能发电,差别在于,利用的原理不同。  光生伏特效应是太阳能光伏发电的基本原理,而太阳能电池是完成太阳能到电能转换的
期刊
2020年12月8日,世界首条以输送新能源为主的能源大通道青豫直流工程顺利完成极Ⅱ高端直流系统调试,系统设备性能和各项指标一切正常。值得一提的是,该站6台±800千伏高端换流变压器全部在位于青海省西宁市的国内首座特高压换流变现场组装基地成功产成。  将特高压大型高端换流变压器的全过程组装和试验全部搬到工程建设当地、搬上海拔2500米的高原,国家电网在特高压工程建设征程中迈出了开拓创新的一步。这是世
期刊
只要穿上一件印有特殊图案的T恤,就能骗过AI人体检测系统,从而达到"隐身"效果?近日,这一场景真实上演。美国东北大学和麻省理工学院等研究机构,共同设计了基于对抗样本技术的T恤。据研究人员介绍,这是全球首个在非刚性物体(如T恤)上,进行的物理对抗性实验。AI人体检测摄像头无法准确地检测出穿着该T恤的行人,无论衣服发生怎样的褶皱或变形,都能达到"隐身"效果。
期刊
据外媒New Atlas报道,超广角鱼眼镜头通常都是厚实的球状装置,不容易被整合到智能手机等设备中。不过,这种情况可能会发生变化,因为工程师们现在已经创造出了一种完全扁平的镜头。  通过麻省理工学院和马萨诸塞大学洛厄尔分校的合作设计,这个原型设备是所谓的超透镜(metalens)。这意味着它是由一种工程材料——超材料——制成的,它具有天然材料所不具备的特性。  镜头由一块毫米厚的氟化钙玻璃组成,其
期刊
在当今世界新一轮科技革命和产业革命中,人工智能进一步彰显“头雁效应”,引领科技革命、产业革命与教育革命交融汇聚,提升人们的生活感受和生命体验,同时对现代社会治理理念、治理能力与治理体系产生重大影响。当前,以智能化、数字化、网络化为鲜明特征的治理现代化步伐不断加快。  人工智能的智慧技术将进一步推动治理理念更新。隨着技术深入发展和应用场景不断丰富,人工智能可以更加准确地模拟人类的感知、记忆、推理等活
期刊
摘要:延边地区位于兴蒙造山带东段,显生宙以来受到古亚洲洋和环太平洋构造域的叠加影响,发育大面积的岩浆-沉积活动和变质变形事件,是研究古亚洲洋构造域和环太平洋构造域地质演化的理想区域。长期以来,众多学者重点对延边地区古生代和中生代岩浆-构造事件进行了研究,基本达成了以下共识:(1)延边地区古生代-中生代期间的岩浆活动主要包括四个期次,(2)古亚洲洋最终沿索伦-西拉木伦-长春-延吉一线闭合,(3)白垩
期刊