我国人工智能公共数据平台建设亟待破题

来源 :大社会 | 被引量 : 0次 | 上传用户:xudjqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  第四次工业革命正在来临,而人工智能已经从科幻逐步走入现实。随着核心算法的突破、计算能力的迅速提高、海量互联网数据的支撑,人工智能在21世纪的第二个十年里迎来质的飞跃,成为全球瞩目的科技焦点。对于中国而言,人工智能的发展是一个历史性的战略机遇,对缓解未来人口老龄化压力、应对可持续发展挑战、促进经济结构转型升级至关重要。
  人工智能发展历程与现状
  人工智能已经成为国际竞争的新焦点,世界上主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,加紧出台规划和政策,力图在新一轮国际科技竞争中掌握主导权。我国在2017年7月发布《新一代人工智能发展规划》,明确我国新一代人工智能发展的战略目标:2020年达到国际先进,2025年实现部分领先,2030年完成总体领先。
  回顾全球人工智能的发展历史,历经三个阶段,跨度62年(1956年至今):
  1956-1976,基于符号逻辑的推理证明阶段;
  1977-2006,基于人工规则的专家系统阶段;
  2007-至今,大数据驱动的深度神经网络阶段。
  从2007年开始,人工智能进入大数据驱动的深度神经网络阶段,这阶段人工智能发展的三大要素:数据 +算法+ 算力。
  中国工程院院士、新一代人工智能技术创新战略联盟理事长高文院士总结了我国人工智能发展的几大优势:一是强有力的战略引领和政策支持,二是海量的数据资源,三是丰富的应用场景,四是具有潜力的青年人才快速成长聚集。
  我国发展人工智能既有很好的基础和优势,也面临巨大挑战,需要探索一条适合国情的发展道路。可以结合当前人工智能应用驱动的显著特征,依托我国在大数据、应用场景、政策环境等方面的巨大优势,推动我国人工智能的深度应用。
  人工智能数据发展现状与存在问题
  在我国人工智能的发展应用过程中,三大要素中的数据要素居于首位,这归结于我国互联网基础设施建设、移动互联网快速发展、网络应用爆发增长、物联网技术成熟。
  与此同时,在当前,数据还存在以下问题:
  第一,数据成本支出高,花费周期长。数据从采取、标注到最终能够训练使用,需要经过较长周期,费时费力。大的人工智能公司,一年仅在数据标注上的支出就有数千万。
  第二,数据获取难,共享难。除了人脸数据之外,与视觉相关的其他数据非常分散,不易批量获取。而各类专业数据都掌握在互联网头部公司,或者政府手中,受商业利益和用户隐私等影响,这些数据一般企业或者科研团队都很难使用到。
  第三,标准化和自动化有待提升。数据集质量和数据标注质量对训练的准确度影响很大。数据集里普遍存在着噪音、干扰,在数据训练前要进行数据清洗,往往需要专业人员去除影响训练的杂质,另一方面,数据标注的质量也对训练有很大的影响,需要训练熟练的标注工人对大量数据进行标注,而市面上的标注公司大多质量参差不齐,标注标准不一样,对训练的准确度产生很大的干扰。自动化的平台或者工具可以有效提升数据质量,提高数据标注效率。
  第四,隐私及保密性。数据在使用、传递过程中,往往存在泄密,隐私暴露的可能。需要专业的数据公司通过严格的制度控制,减少数据泄密和隐私暴露的风险。
  国内外公共数据平台的基本情况
  当前,在国内外比较知名的公共数据平台中,有以下几种类型和典型代表:
  一、政府及组织公共数据平台
  https://www.data.gov是美国的一个综合性公开数据网站,发展至今提供超过25万个数据集,涵盖气候、教育、能源、金融等多个领域的数据,类似的还有加拿大、印度等国家的政府公共数据网站,世界银行的开放数据等。
  二、大型公司公共数据平台
  亚马逊公共数据平台目前已包含114个大型数据集,这些数据集包括完整的安然电子邮件数据集、Google Booksn-gram、NASA NEX数据集、百万歌曲数据集等。Google BigQuery公开数据集是存储在BigQuery中且可供公众使用的任何数据集,其本质是一种数据托管服务,第三方通过google云与公众分享数据集。YouTube数据集https://research.google.com/youtube8m/,google研究小组发布的基于YouTube视频的数据集,由大量视频以及标签组成,最近还增添了分割标注。
  三、数据竞赛型公共数据平台
  Kaggle数据竞赛网站https://www.kaggle.com/datasets,是一个数据建模和数据分析竞赛平台,企业和研究者可在其上发布数据,AI研究人员、统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。目前该网站已有较多数据集和开发者论坛提供的很多数据分析方法。
  阿里天池https://tianchi.aliyun.com/home/,性质和kaggle相近,提供了很多国内企业应用场景相关的数据集,具有较大实用价值,但是由于很多是第三方企业组织提供的数据集和算法竞赛目标,某些数据集质量无法得到保证。
  以政府数据为基础
  行业应合力建设公共数据平台
  政府部門在履行行政职能、管理社会公共事务的过程中采集和储存了大量数据,在保障国家秘密、商业秘密和个人隐私的前提下,如果将政府数据最大限度地开放出来,让社会进行充分融合和利用,合力构筑数据基础设施,营造全社会尊重数据、保护数据、善用数据的氛围,有利于释放数据能量,激发技术创新活力。
  除了政府公共数据作为基础的数据来源之外,还有其他途径进行数据的补充。
  一是产业数据协同。依靠各种协会联盟的行业影响力,与产业链下游创业公司/行业公司或产业链上游的数据/平台型公司建立合作,以此获取所需数据资源;   二是自筹数据。通过投入大量人力进行数据采集,或者投入大量资金,向普通用户提供特定领域免费应用的策略快速积累数据,如Madits、Clarifai等图像识别公司均推出了免费的照片应用程序,以便为图像识别核心业务积累更多图像数据;
  三是开源开放平台数据交换。将数据平台的数据进行分享交换,提供第三方的数据集链接或交换分享服务,增加平台数据集规模;
  四是通过大赛机制完善数据集或利用虚拟环境产生数据等。数据平台举办竞赛可要求协办方提供数据资源,促进数据共享。此外,利用计算机虚拟环境也可产生数据资源。如斯坦福大学在训练远程遥控深海作业机器人OceanOne时,使用了很多由模拟场景(虚拟环境)产生的大量训练数据。
  在获取到以上数据后,将这些数据建立成单独的数据集还要作如下处理:
  首先要进行数据的脱敏处理。比如文本记录数据中敏感地名、人名以及车牌号等隐私记录的处理,视频中人脸、车牌号以及一些敏感画面的处理等,根据法律法规及数据用途的不同需要做不同的脱敏处理,保证数据的公开使用没有用户隐私或其他法律纠纷。
  其次是数据前处理,初步收集的数据在存储格式、压缩率以及完整性上都可能存在各种问题,在建立数据集前需要进行预处理。对于存储格式,比如图片或者视频,应该优先选择通用的数据格式,同时保证同一数据集中同类型数据格式一致。另外由于数据平台所需存储数据量巨大,因此,选择合适的数据压缩方式非常重要,在多媒体数据中选择合适的格式不仅能够保证相对较好的数据存储质量,同时也能充分压缩其数据存储大小。
  最后是缺失和异常数据的处理,原始数据不可避免存在某些数据缺失不完整或者采集异常情况,对于这些非正常数据,如果同一批次相同类型数据量较多,缺失数据占比很小,则可以选择删除这些数据或缺失的数据属性。如果这些数据占比较大,该类型数据总体较少,可采取人工补全、均值插补、极大似然估计或者聚类回归等方法进行完善。
  公共数据平台的建设可以充分利用政府数据作为基础,同时成立专业的第三方数据机构,做好产业协同服务和支撑,为愿意使用公共数据、愿意交换和共享数据的人工智能领域研究机构与公司提供发展能量,加速研发进程,降低数据使用成本,提升我国人工智能研究水平和应用水平。
  公共数据平台可以在数据采集、自动化标注平台及工具等方面加大投入,在保证训练数据质量的同时,提升数据的获取速度,降低数据使用成本,保护数据隐私。
  公共數据集建设对人工智能的重大意义
  建立公共数据平台,对我国人工智能发展具有重大意义。
  首先,通过数据平台建立自己的公共数据集,可以适应国际竞争需要,摆脱国外对AI公开数据集的垄断,建立中国自己的公开数据集,大幅度降低人工智能企业的入门门槛,带动人工智能企业的孵化和创新以及传统企业的智能化应用。
  其次,开源数据集项目+开源算法项目+开源应用项目,形成人工智能开源社区,不断产生新的算法,不断优化算法,不断产生应用场景,形成算法的知识图谱,从而推动人工智能成果转化,促进人工智能产业的发展。
  再次,在公共数据平台基础上,企业可以提供特定的专用数据集+机器学习平台+应用算法商店+支持培训等一揽子服务,降低人工智能产业应用的技术门槛,促进人工智能产业与传统产业的融合发展。
  最后,在公共数据平台的基础上,能够及时制定国家标准、行业标准和团体标准,规范产业发展,促进行业合作,提高行业整体水平。
  (作者单位:深圳龙岗智能视听研究院)
其他文献
10月9日,由中国矿业联合会主办的2019(第二十一届)中国国际矿业大会在天津梅江会展中心开幕。本届大会以“高质量发展,为了全球矿业共同未来”为主题,旨在践行习近平主席推动构建人类命运共同体理念,凝聚全球矿业携手发展、共创美好未来的共识。  自然资源部副部长凌月明在致辞中强调,面对当前错综复杂的世界经济形势,只有立足共同利益、着眼长远发展,维护全球贸易多边机制,抓住新一轮科技革命和产业变革,才能推
期刊
拯救、保护、利用,让古村落平添“新资源”。  一幢幢夯土实木的民居古朴静美,一曲曲四平戏曲悠扬悦耳……这是记者走进龙潭村感受到的。  “我们不仅注重保护好古村外观,同时在内涵的深挖上下功夫,让村子真正‘活’起来。”夏兴勇说。  龙潭村一直保留着国家级非物质文化遗产——四平戏,为了“活化”这一珍贵文化遗产,龙潭村建起了四平戏博物馆,戏班子重新开班;为传承红曲制作与黄酒酿造这一省级非物质文化遗产,村里
期刊
秋天,是个丰收的季节,在中华人民共和国成立70周年前夕,浙江省社会组织总会(以下简称“总会”)与副会长单位浙江千训爱心慈善基金会一道,赴黔东南地区开展了系列脱贫攻坚行动。一周的时间里,我们辗转贵州省麻江、凯里、绥阳等地,在脱贫攻坚的第一线,与当地政府部门工作人员和困难学生面对面,我们深刻地感受到,当下如火如荼进行着的脱贫攻坚行动是一项波澜壮阔的、具有划时代意义的伟大实践。我们也惊喜地看到,在这片贫
期刊
11月14日,以“拥抱5G,智联未来”为主题的2019中山市互联网应用创新大会在中山市西区喜来登酒店举行。本次活动由广东省社会组织总会(以下简称“总会”)会员单位中山市互联网应用创新协会主办,中国电信中山分公司、中联创金嘉数字媒体产业园联合主办。  总会专职常务副会长兼秘书长、《大社会》杂志社长汤涓,总会专职常务副秘书长、《大社会》杂志主编郭洁莹,河源市社会组织管理局局长、河源市社会组织总会副秘书
期刊
11月20日,在决胜全面建成小康社会的关键阶段,第二十次广东民政会议在广州召开,深入贯彻落实习近平总书记关于民政工作的重要论述和重要指示精神,认真贯彻党的十九届四中全会精神,按照第十四次全国民政会议的部署要求,总结我省近年来民政工作情况,部署下一步工作,全面推动广东民政事业高质量发展。会前,省委书记李希、省长马兴瑞会见了我省荣获全国民政系统先进集体、先进工作者、“孺子牛奖”的单位个人和全省民政系统
期刊
中国红十字基金会  “孙立忠心血管健康公益基金”  在沪启动  日前,由中国红十字基金会与孙立忠先生共同发起的中国红十字基金会“孙立忠心血管健康公益基金”在上海启动。该基金旨在对马凡综合征、白塞病等心血管相关罕见病患者开展贫困家庭患者救助、学术交流、心血管人才培养等工作,为这类罕见病群体提供多样化的支持和人道帮扶。  2019年7月,中国红十字基金会正式启动“罕见病关爱行动”,希望号召更多的人关注
期刊
新华社照片,北京,2019年10月31日  中国共产党第十九届中央委员会第四次全体会议,于2019年10月28日至31日在北京举行。中央委员会总书记习近平作重要讲话。  新華社记者 鞠鹏 摄  新华社照片,上海,2019年11月3日  11月2日至3日,中共中央总书记、国家主席、中央军委主席习近平在上海考察。这是2日下午,习近平在长宁区虹桥街道古北市民中心老年助餐点考察,了解社区养老等便民服务情况
期刊
10月10日,广东省全省性社会组织法人治理与规范发展培训班在广东外语外贸大学开班。此次培训班旨在贯彻落实中办、国办《关于改革社会组织管理制度 促进社会组织健康有序发展的意见》和省委办公厅、省政府办公厅《关于改革社会组织管理制度 促进社会组织健康有序发展的实施意见》,结合民政部《2019年中央財政支持社会组织参与社会服务项目实施方案》中关于人员培训示范项目(D类)的要求,进一步推进社会组织法人治理,
期刊
10月16日,由广东省民政厅主办、广东省福利彩票发行中心协办的全省民政系统“倾情礼赞新中国,为民爱民颂党恩”职业道德主题文艺汇演在广州天河艺术中心剧院举行。  省民政厅党组书记、厅长卓志强出席并致辞。省民政厅领导班子,各处室局、直属单位干部职工代表,各地级以上市民政局干部职工代表,民政系统先进工作者、劳模代表,民政服务对象代表出席并观看了汇演。  卓志强表示,新时代民生事业和民政工作在祖国母亲的怀
期刊
2019年,广东省民政厅务实求新,出台《关于社会组织年度工作报告的实施办法(试行)》,将以往全省性社会组织“年度工作检查”(以下简称“年检”)制度改为“年度工作报告”(以下简称“年报”)制度,各全省性社会组织仅需打开电脑即可完成年度工作报告的填报、公开和存档,无需提交纸质材料,既方便了群众办事,又扩大了社会监督范围。此举进一步推进了社会组织管理体制改革,强化了社会组织诚信自律与信用管理,巩固了社会
期刊