人工智能从“大炼模型”到“炼大模型”

来源 :科学导报 | 被引量 : 0次 | 上传用户:chenpenghust
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  人工智能可以分為几个发展阶段:基于数据的互联网时代、基于算力的云计算时代,以及接下来可能将进入的基于模型的AI时代,这相当于把数据提升为超大规模预训练模型。未来,研究人员可以直接在云模型上进行微调,很多公司甚至不用维护自己的算法研发团队,只需要应用工程师即可。
  写小说、和人聊天、设计网页、编写吉他曲谱……号称迄今为止最“全能”的AI模型GPT-3,当然远远不止会这些。作为2020年人工智能领域最惊艳的模型之一,GPT-3无疑把超大规模预训练模型的热度推向了新高。
  3月下旬,我国首个超大规模人工智能模型“悟道1.0”发布,该模型由智源学术副院长、清华大学教授唐杰领衔,带领来自清华大学、北京大学、中国人民大学、中国科学院等单位的100余位AI科学家组成联合攻关团队,取得了多项国际领先的AI技术突破,形成了超大规模智能模型训练技术体系,训练出包括中文、多模态、认知和蛋白质预测在内的系列超大模型。

1、已启动4个大模型开发


  据悉,“悟道1.0”先期启动了4个大模型研发项目:以中文为核心的超大规模预训练语言模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列预测预训练模型文溯,以及面向认知的超大规模新型预训练模型文汇。
  唐杰介绍,文源拥有26亿参数,文澜则为10亿,文溯是2.8亿,文汇则达到了百亿以上。虽然相对于GPT-3的1750亿参数而言还有差距,但“接下来会有更大的模型”。
  目前,文源模型参数量达26亿,具有识记、理解、检索、数值计算、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务,在中文生成模型中达到了领先的效果。
  “目前这些模型既有一些交集,但也存在明显差异。文源的重点是在中文和跨语言,未来也会加入知识;文澜的重点主要是图文;文汇则更多地瞄向认知。”唐杰表示,认知是人工智能技术发展的趋势和目标,关系到机器是否能像人一样思考这个终极问题。
  被问及为何会选择这4个预训练模型项目时,唐杰说,这是综合考虑了国内外同行的相关工作、国内人工智能发展的现状、团队人员构成、北京区域优势等作出的决定。“当时GPT-3刚发布不久,悟道团队认为首先要对标其卓越的少样本学习能力,同时还要做出差异化,做短、中、长3个阶段的布局。于是,中文版GPT-3即清源CPM(文源的前身)应运而生,这是短期布局。之后,文源要向中英文模型乃至多语言模型发展,这是中期布局。最后走向认知智能,这是长期布局。”唐杰说,与此同时,国内顶尖的企业人才、学术人才和自然科学人才所组成的团队给了项目巨大的想象空间。

2、大模型有大智慧


  自2018年谷歌发布BERT以来,预训练模型逐渐成为自然语言处理(NLP)领域的主流。
  2020年5月,OpenAI发布了拥有1750亿参数量的预训练模型GPT-3。作为一个语言生成模型,GPT-3不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算,并且其性能在很多任务上都超越相关领域的专有模型。
  以GPT-3为代表的超大规模预训练模型,不仅以绝对的数据和算力优势取代了一些小的算法模型,更重要的是,它展示了一条通向通用人工智能的可能路径。在此背景下,建设国内的超大规模预训练模型和生态势在必行。
  在唐杰看来,为了提高机器学习算法的效率,改变传统的行业布局,过去几年,大家拼命做模型,导致模型越做越多。然而,一般的模型训练效果并不如人意,花了大量财力精力却达不到理想的训练效果,“为了优化效果、提高精度,模型越来越复杂,数据越来越大,很多公司的能力不足以应对这种状况,效率越来越低。”
  唐杰举了个例子,小炼钢厂往往条件简陋,能炼钢,但质量不好。大炼钢厂买得起设备、花得起电费,炼出的钢质量就好,大模型就是大炼钢厂,它可以获得大量数据,并把数据清洗干净,提升算力,满足要求。
  与此同时,“小模型可能只需要几个老师和学生就能完成算法的设计,但是大模型的每一层都要找专人来做,这样可以把模型的设计和训练精细化,模型设计也从单打独斗变成了众人拾柴。”唐杰说。

3、小团队将成最大受益者


  据唐杰透露,团队目前正在跟北京冬奥会合作,开发可通过文本自动转成手语的模型,“医疗方面我们的主要方向是癌症早筛,如上传乳腺癌图像,找到乳腺癌相关预测亚类,通过影像识别宫颈癌亚类等。”
  而谈到“悟道1.0”的发展,唐杰坦言,目前还存在需要持续攻关的问题。
  一是模型能否持续学习的问题,即能否不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。就目前来看模型还需要调整,其效果还有待加强;二是面对一些复杂问题,目前模型还无法回答;三是万亿级模型的实用性问题,即如何在保证精度的同时压缩模型,从而能让用户低成本地使用。
  “这是一个全新的产业模式。原来大家数据上云、算力上云,现在模型上云。”唐杰说。
  他认为,人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代,以及接下来可能将进入的基于模型的AI时代,这相当于把数据提升为超大规模预训练模型。
  未来,研究人员可以直接在云模型上进行微调,很多公司甚至不用维护自己的算法研发团队,只需要应用工程师即可。
  唐杰表示,随着超大规模预训练模型系统的开放,小团队是最大的受益者,大家不必从零开始,预训练基线智能水平大幅提升,平台多样化、规模化,大家在云上可以找到自己所需的模型,剩下的就是对行业、对场景的理解。这将给AI应用创新带来全新的局面。
  唐杰透露,“悟道1.0”只是一个阶段性的成果,今年6月将会有一个规模更大、水平更高的智慧模型发布。届时,模型规模会有实质性的进展:模型会在更多任务上突破图灵测试,其应用平台的效果也会更加让人期待。
其他文献
联合国教科文组织2021年Netexplo创新论坛于2021年4月14日至15日在网上举行。由技术领域全球知名大学组成的Netexplo大学网络历时一年,在全球范围内遴选出了10项极具突破性的
摘 要 汉字学习的关键在于学生对汉字意义的掌握,而汉字意义的掌握需要学生汉字学习思维的运作。杜威所阐释的反省思维具有连续性、目的性和态度性的关键特征,这种科学的思维方式对学生汉字学习思维的养成具有指导意义。因此,教师要在充分尊重汉字字形与字义关联关系的基础上依循反省思维的关键特征整体设计和实施小学语文识字教学。具体实践路径为:遵循汉字演变历程,有连续性地设计识字教学;指向体悟文本意义,有目的性地拓
摘 要 高中思政课深度教学旨在帮助学生超越表层符号知识的学习,进入知识内在逻辑形式和意义领域,实现逻辑教学、意义教学和素养教学的统一,具有价值性、实践性和综合性等特征,其价值追求是培育核心素养和实现价值引领。高中思政课主要通过聚焦需求深度备课、设置环环相扣的“问题链”、精心创设教学情境和持续关注教学评价来实现深度教学。  关键词 高中思政课 深度教学 核心素养 深度备课 问题链  高中思政课深度教
金融科技已成为推动我国金融业乃至整个经济发展的重要力量。近日,《中国金融科技燃指数报告(2021)》发布会——暨首届“金融科技指数论坛”,在人民日报社新媒体大厦9层举行
科幻是科学发展到一定阶段的产物,没有科学也就没有科幻。科幻必定是基于科学基础之上的,如果将幻想置于魔法或者神秘的咒语,那也就不是科幻了。也正是因为科幻与科学联系紧
摘 要 课程建设是课程改革的首要任务。本文将从多元视角展开深度思维,提出“课程概念规范课程设置”、“教育思想引领课程设置”“课程目标统领课程设置”“教学条件影响课程设置”“学科逻辑与心理逻辑控制课程设置”、“情景教学转变课程设置”六项基本策略及其“CIGCLS模式体育与健康课程”新概念,为地方和学校开发及设置“区域性课程”、“校本性课程”提供思考与操作路径。  关键词 CIGCLS模式 体育与健康
《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出,实施知识产权强国战略,实行严格的知识产权保护制度,完善知识产权相关法律法规,加快新领域
新冠肺炎疫情之后,人工智能应用突飞猛进,社会各界对人工智能技术也寄予厚望,并期待人工智能成为疫情之后数字经济的核心驱动力。在《“十四五”规划和2035年远景目标纲要》
日前,上海车展势头正猛,华为入局自动驾驶的新闻也是沸沸扬扬,其与北汽极狐联合推出的极狐阿尔法S更是受到公众的广泛关注。而早前,小米已高调宣布10年投入100亿美元正式进军
一直以来,国产仪器行业面临着经费不足、上下游脱节、缺乏国际竞争力、人才短缺等问题,这些成为其快速发展的阻碍因素。为助力国产仪器良性发展、增强企业自主创新能力。去年