人工智能发展报告
目 录
新兴产业发展报告
总报告
第一章 全球人工智能开启深度赋能新时代
一、全球人工智能支出快速增长
“人工智能”的概念较为宽泛,概括而言,就是对人的意识和思维过程进行模拟,利用机器学习和数据分析方法赋予机器类人的能力。1956年达特茅斯会议首度提出“人工智能”的概念。经过60多年的发展,人工智能共经历了三次发展浪潮:第一次为20世纪50年代末至80年代初,图灵测试推动了人工智能理论的诞生;第二次为20世纪80年代初至20世纪末,专家系统助推人工智能实验室攻关;第三次为21世纪初至今,以深度学习算法、计算能力提升、大数据等为代表的技术创新,加速人工智能规模化商用(见图1.1)。
图1.1 人工智能发展浪潮
在大数据、算法和计算能力三大要素的共同驱动下,人工智能将实验室技术带进生产实践,规模化商业应用带动全球人工智能系统支出迅速增长。国际数据公司IDC报告显示,2018年全球人工智能系统支出达248.6亿美元,2019年将达358亿美元,较2018年增长44%,2022年将达792亿美元,预测期内(2018~2022年)复合年增长率为38%。
二、基础研究和研发不断深入
2018年,人工智能基础理论研究得到世界各国高度关注,人工智能论文、专利数量不断提升,人工智能已成为世界各国研发热点,正迎来全面的技术创新突破。
1.人工智能论文数量不断攀升
过去20年间,全球多个国家与地区广泛参与人工智能基础研究。人工智能成为当前学术界关注的第一热点领域,论文数量不断提升,赶超历年来一直领先的计算机科学论文数量。斯坦福大学最新发布的《2018 AI指数年度报告》数据显示,1996年以来,人工智能论文增加了7倍,计算机科学论文在同一时间段内增加了5倍(见图1.2)。就国家和地区分布来看,依据清华大学统计数据,中国、美国人工智能论文产出居全球第一、第二位,且论文数远超居第三位的英国,位于人工智能论文产出的第一阵营。英国、日本、德国、印度、法国、加拿大、意大利、西班牙、韩国、中国台湾、澳大利亚构成了人工智能论文产出的第二梯队。伊朗、巴西、波兰、荷兰、土耳其、新加坡、瑞士等国组成第三梯队。其中,中国人工智能论文产出取得了长足的进步,中国人工智能论文累计数量从1997年的1000余篇快速增长至2017年的369588篇,在该领域论文全球占比也从1997年的4.26%增长至2017年的27.68%(见图1.3)。就技术领域来看,机器学习、神经网络、计算机视觉等相关技术引发的关注度最高,依据斯坦福大学数据,2014~2017年,关于神经网络的论文数量增长率为37%。
图1.2 全球人工智能论文增长率(1996~2017年)
图1.3 全球人工智能论文产出最多的20个国家和地区(1997~2017年)
2.世界各国加大人工智能专利布局
近年来,人工智能领域专利申请量总体呈现逐年上升趋势,在2010年后增长速度明显加快,近两年的增长速度更是令人瞩目。依据中国专利保护协会统计数据,1995~2017年,人工智能专利申请量排名前十的国家和地区依次是中国、美国、日本、韩国、欧洲、德国、意大利、中国台湾、加拿大和印度。其中,中国以76876件的人工智能专利数超过美国,位于首位(见图1.4)。2017年,全球人工智能专利申请量近30000件。从学科分布上来看,自然语言处理以54211件专利排名第一,其次分别是计算机视觉和图像识别、机器学习和基础算法、语音识别、自动驾驶、智能搜索和智能推荐(见图1.5)。
图1.4 专利申请量排名前十的国家和地区(1995~2017年)
图1.5 重点技术分支专利申请量
三、三大基础要素继续突破
当前,随着新一代信息技术的加速迭代,人工智能发展所处的信息环境和数据基础发生了深刻的变化,愈加海量化的数据、持续提升的运算力和不断优化的算法,不断夯实人工智能发展基础。
1.数据量呈现爆炸式增长
近年来,得益于互联网、移动设备和传感器的发展与应用,全球产生并存储的数据量不断攀升,为人工智能发展提供了良好的数据基础。目前,全球数据总量每年以倍增速度增长,据相关研究机构公开数据,2018年全球数据总量达30万亿GB,根据中国电子学会预测,预计到2020年将达44万亿GB,其中中国产生的数据量将占全球数据总量的近20%。海量数据为人工智能算法提供训练素材,推动人工智能算法提升、技术升级。
2.运算能力实现大幅提升
数据量的增加,对数据处理技术提出了更高、更快的要求。2018年,作为上游产业的人工智能芯片迎来一轮发展热潮。企业不再仅满足于单纯提供方案,开始向芯片、算法、整体解决方案的路线谋求领先优势。在AI芯片领域,国际芯片巨头占据了大部分市场份额,美国英特尔、英伟达、高通、IBM等国际巨头仍占据领先地位,尤其在GPU和FPGA方面处于垄断地位。我国企业在芯片领域相对实力较为薄弱,但2018年我国的华为、寒武纪科技、深鉴科技等企业也取得不小的进展,阿里、百度等互联网企业相继入局人工智能芯片,商汤科技、云知声、地平线等专注于整体解决方案的企业也加入这个赛道竞争,国内企业在一些细分领域也有所建树。
3.深度学习算法不断优化
2006年,加拿大多伦多大学教授杰弗里·辛顿提出了深度学习的概念,推动了神经网络算法的发展,提高了机器自学习能力。随着算法模型重要性的进一步凸显,全球科技巨头纷纷加大了在算法方面的布局力度,通过组建实验室、开源算法框架、完善生态体系等方式推动算法模型的优化和创新。目前,深度学习等技术已广泛应用在自然语言处理、语音识别、计算机视觉等领域,并在部分领域取得了突破性进展。
四、行业应用落地加快推进
随着人工智能的快速发展,深度学习将机器学习推向成熟,丰富的场景应用带来了海量数据积累,计算能力的提升促进了频繁的人机互动,新一代人工智能公司不断崛起,人工智能已经越来越贴近现实。2018年,人工智能应用落地持续展开,在应用不断深化的同时,其引发的系列事故也引起业界对人工智能安全性的担忧。
1.人工智能各场景应用成熟度不一
2018年,人工智能在制造业、教育、金融、医疗、安防等多个领域加速落地,推动众多行业智能化变革,但受限于数据开放程度、技术发展状况、行业需求等因素,人工智能应用落地情况发展不一。在当前的融合应用中,安防是率先实现人工智能落地应用的领域之一,应用成熟度较高。制造、交通紧随其后,智能制造、无人驾驶加速发展,融合空间较为广阔,融合度居中。金融、家居、教育等积极推进人工智能应用落地,但目前应用形式、产品种类仍较为单一,有待进一步突破。
2.部分领域应用事故引发高度关注
2018年,自动驾驶、手术机器人等领域相继爆出事故,为人工智能行业应用增添了一丝阴影。3月,Uber自动驾驶测试车在美国亚利桑那州坦佩市撞死了一名横穿马路的妇女,成为2018年全球首例自动驾驶致死事故。2018年下半年,苹果、特斯拉等公司旗下的自动驾驶汽车又陆续发生了碰撞事故,为无人驾驶汽车行业带来沉重打击。在机器人应用方面,2018年11月,此前三年震惊全球医疗界的英国首例机器人手术致死案有了最新进展。据报道,该款手术机器人在手术中出现“暴走”,不但把患者心脏缝错了位置,还戳穿了患者大动脉,机械臂几次打到医生的手,最终患者在术后一周去世。在制造业领域,德国大众2015年就发生过工业机器人在运营维护中将技术人员压在钢板下致死事件。美国职业安全与健康管理局调查显示,1984年以来,已经发生了38起与机器人相关的事故,导致27名工人死亡。人工智能行业应用事故的频发,一方面是源于如自动驾驶等技术处于商业化应用前夕,各项测试集中开展,样本量集中提高了事故概率;另一方面,则是源于对技术的盲目信任导致事故频出。
3.企业加大AI+垂直应用领域布局
全球科技巨头通过巨大的技术、数据、人才、产品线和资金等资源优势加速人工智能应用。如亚马逊的Echo成为全球最为成功的消费级语音交互产品,Open AI研发的人工智能Open AI Five在Dota2 5V5团战中战胜人类。一些初创企业也通过自身灵活的技术创新能力为行业垂直场景应用带来惊喜。从全球企业结构来看,依据前瞻研究院相关统计数据,全球人工智能企业主要集中于AI+各个垂直应用领域、大数据及数据服务、视觉、智能机器人等领域。在各类垂直应用中,人工智能渗透较多的包括医疗健康、商业、金融、教育和网络安全等领域。占比排名前三位的分别是商业、医疗健康、金融领域,占比分别为11%、9%和5%。
五、产业发展环境持续优化
近年来,世界各国对人工智能高度重视,先后出台了多项政策、措施,抢占战略制高点,人工智能发展的政策环境逐渐优化。
1.美国人工智能政策着力点在于人工智能对国家安全与社会稳定的影响和变革,保持其全球领先地位
作为全球经济、科技强国,美国自2013年起开始发布多项人工智能计划,最早提及人工智能在智慧城市、城市大脑、自动驾驶、教育等领域的应用和愿景。2016年,人工智能进入“动作”高发期,美国白宫发布了两份人工智能重要报告,提出七大战略方向,将人工智能上升至国家战略层面,从政策、技术、资金等方面给予一定支持和保障,为美国人工智能发展制订了宏伟计划和发展蓝图。同年,谷歌、微软、脸书等提出人工智能相关路线规划。2017年秋季,IBM、微软、谷歌、亚马逊、脸书成立人工智能联盟。至此,人工智能在科技巨头之间达成共识。人工智能也成为继云计算之后,未来十年乃至更长时间巨头们赋能、深耕的领域之一。2018年5月,白宫举办了一场人工智能科技峰会,在会上概述了美国人工智能发展的四大目标,包括保持美国在人工智能方面的领导地位、支持美国工人、推动政府资助的研发、消除创新的障碍等,并在会上宣布成立人工智能特别委员会。
2.欧洲人工智能发展战略涉及生态建设、数据保护、网络安全、伦理等社会科学多领域
其中,英国的覆盖面最小,聚焦在硬件CPU、身份识别领域的人工智能技术研发和人才培养。2018年4月,英国政府发布了《产业战略:人工智能领域行动》政策文件,就想法创新、人民生活、数字基础设施、商业创业环境和地区繁荣五个生产力基础领域制定了具体的行动措施。德国人工智能规划与“工业4.0”战略并行,注重在制造业等领域利用人工智能技术。2018年11月,德国政府提出其酝酿已久的“人工智能德国制造战略”,明确将其人工智能战略聚焦于“弱人工智能”领域,并提出了机器证明和自动推理、基于知识的系统、模式识别与分析、机器人技术、智能多模态人机交互五大突破方向。法国着重利用政府资金拉动行业发展,2018年3月,法国总统马克龙提出了法国未来人工智能发展战略,计划到2022年本届任期结束前,投入15亿欧元,在生态系统建设、数据开放、监管和金融框架、道德规范等领域加速推进人工智能在法国的发展。
3.日韩结合自身需求推进人工智能
日本在机器人、脑信息通信、语音翻译、声音识别、创新型网络建设、大数据分析等领域投入了大量的科研力量。在人工智能应用方面,日本主要从两个方面推进:一是机器人的制造与应用,实现日本国内生产自动化、无人配送和大规模物联网,缓解劳动力短缺问题;二是将人工智能应用于医疗健康、护理以及自动驾驶领域,解决日益严重的人口老龄化问题。韩国加紧制定人工智能战略,2018年8月,韩国第四次工业革命委员会举行的第六次会议上审议通过了韩国人工智能研发战略,从人才、技术、基础设施三个方面推进人工智能发展。
4.中国加速推进人工智能技术攻关与融合发展
2017年,海外人工智能热度传回中国。人工智能首次被写入政府工作报告,2017年6月,国务院印发《新一代人工智能发展规划》,成为中国在人工智能领域的第一个系统部署文件,对中国人工智能发展的总体思路、战略目标和任务、保障措施进行了系统的规划和部署。同年12月,工业和信息化部发布《促进新一代人工智能产业发展三年行动计划(2018~2020年)》,科学技术部、国家发改委、中央网信办、工业和信息化部、中国工程院等多个部门共同成立新一代人工智能发展规划推进办公室。进入2018年,中国加速推进人工智能技术攻关与实体经济深度融合发展,科技部启动了科技创新2030——“新一代人工智能”重大项目申报。工业和信息化部先后启动了人工智能与实体经济深度融合创新项目评选、新一代人工智能产业创新重点任务揭榜等一系列举措,加速推进人工智能落地应用。
5.人工智能安全、伦理、道德等方面引发广泛关注
进入2018年,世界多个国家与地区开始正视人工智能存在的安全隐患,冷静思考如何合理推动人工智能安全发展和应用。2018年2月20日,牛津大学、剑桥大学、人工智能组织Open AI等14个机构的26位专家联合撰写了《人工智能的恶意使用:预测、预防和缓解》报告,报告中研究了恶意使用AI技术可能带来的安全威胁,并提出了更好地预测、预防和缓和这些威胁的建议。2018年11月,美国国际战略中心(CSIS)发布《人工智能与国家安全,AI生态系统的重要性》报告,提出了人工智能生态系统的组成要素以及促进人工智能成功融入国家安全应用的关键步骤。2018年12月18日,欧盟委员会任命的欧盟人工智能高级专家小组发布《可信人工智能伦理道德指南(草案)》,提出了人工智能可能带来的数据泄露、偏见以及应用风险,提出了构建可信人工智能的具体要求。政策措施的不断完善,为全球人工智能健康、有序发展奠定了良好基础,也为人工智能行业应用提供了安全保障。
六、未来人工智能将实现纵深发展新跨越
随着技术突破持续推进,人工智能未来将继续向纵深发展,成为全球经济增长的助推器,带动全球经济增长。深度学习和人工智能芯片仍将成为技术突破的关键,人工智能行业应用广度、深度将不断扩展,加速人工智能落地。此外,随着人工智能发展的持续推进,人工智能安全相关问题愈加得到业界关注,建立可信人工智能或将成为行业未来发展的重要考量。
1.人工智能成为全球经济增长的助推器
从全球经济发展来看,每一轮的技术突破都将有力拉动经济增长。随着人工智能技术突破持续推进,智能自动化将能够跨越行业和岗位,并具备自主学习能力,驱动人力无法完成的复杂工作自动化。人工智能将有效弥补人类能力缺陷,提升劳动力和资本效率,同时刺激创新。未来人工智能将不仅是传统生产力的增强剂,更将成为一种全新的生产要素,带动全球经济增长。根据Sage预测数据,到2030年,人工智能将为全球GDP带来14%的提升,即15.7万亿美元的增长。埃森哲数据显示,到2035年,人工智能将作为一种新的生产要素,激励全球经济增长。其中,人工智能对中国经济增长的影响显著,将带动中国年增长率提升1.6个百分点(见图1.6)。
图1.6 人工智能对经济的拉动效应
随着人工智能技术突破,受企业级应用市场推动,未来人工智能产业规模将持续扩大,并带动相关产业增长。依据Statista及普华永道统计数据综合测算,预计2025年,全球人工智能市场规模将达369亿美元,年均复合增速达57%,带动相关产业规模达56300亿美元(见图1.7)。
图1.7 全球人工智能产业规模预测
2.深度学习和AI芯片仍将是技术突破的关键
随着全球对人工智能领域的热情高涨,人工智能核心基础技术的突破仍将是各科研机构与高科技公司的布局重点和必争高地。深度学习作为人工智能领域核心关键技术,得到各国的高度关注,优质的算法研究可以有效提高信息识别、处理、学习过程中的准确性,为人工智能技术落地产品提供先决条件。新型算法的研究和对传统算法的改善将成为未来发展的主要方向。探索深度学习理论,能够激发更多应用场景,并应用到其他类型的深度神经网络和深度神经网络设计中。依据普华永道相关预测,未来将可能出现一种被称为“胶囊网络”的新型深度神经网络架构,能够用与大脑相似的方式处理视觉信息,可以识别特征之间的逻辑和层次结构关系。与传统卷积神经网络相比,这种“胶囊网络”不需要大量的训练样本数据,并能保证较高准确性,将在未来多个问题领域和深度神经网络架构中得到应用。
此外,针对人工智能最终商业化应用,AI芯片仍是底层至关重要的技术之一,未来将继续朝着提高运算能力、减少运算时间、降低运算功耗等方向发展。目前,GPU作为深度学习训练的首要人工智能芯片之一,英伟达推出的通用并行计算架构CUDA为GPU提供了解决复杂计算的能力,但未来随着算法层面的提升,更加适用于新型算法的AI芯片将成为硬件技术层的竞争关键。此外,底层技术自主研发代替购买将能够有效降低产品成本,提升企业竞争力,随着未来企业打造一体化解决方案,底层关键软硬件的自主研发将成为趋势。
3.人工智能行业应用广度和深度将不断扩展
基于技术及产业趋于成熟,人工智能行业应用也将取得更加明显的进展和突破。由于具备稳定的技术条件和基础,人工智能落地传统行业仍然是未来的主要趋势,人工智能将在一定程度上改变传统行业的运营格局,为工业和生活提供更加便利、高效、低成本的服务。
技术成熟度不同,行业应用发展情况也将有所差别。总体来看,语音识别作为人工智能领域中发展最为迅速的技术之一,已经相对成熟,针对一些技术要求偏低的行业应用,如智能客服、语音助手、医疗语音记录等,未来主要用于产品准确性要求;针对技术要求偏高的应用,如语义理解分析以及反馈等,未来随着算法框架的完善,将需要更多时间落地。在图像处理与计算机视觉技术方面,人脸识别技术已在安防领域得到应用,但在精确度要求较高的金融领域,应用仍处在发展阶段,未来随着技术的充分成熟,高要求行业应用也将逐渐落地。此外,医疗图像诊断、自动驾驶等图像类应用除了技术层面要求外,还要面对决策问题,大大影响了行业落地情况,对于此类技术,未来行业政策的制定将决定行业应用的发展进程。
4.建立可信人工智能将成为行业发展的重要考量
当前,人类对人工智能应用安全的担忧很大程度上来源于技术的不确定性,机器学习算法可以在不同应用场合中感知、思考和行动,然而,其中很多算法被认为是“黑匣子”,人们对于它们如何计算出结果几乎一无所知,相应地,对于算法出现偏差、人工智能应用出现故障的缘由也较难解释。可解释、可信且透明的人工智能对于建立技术信任、安全应用至关重要。可以看到,当前已经有不少国家和地区开展了可信人工智能的研究,未来,在人工智能大规模应用之前,建立可解释的人工智能将很可能成为企业推动人工智能应用的基本要求,政府机构也可能将其作为未来的一项法规要求予以明确。
第二章 中国人工智能迈入融合发展新阶段
一、 产业实力迅速扩张,国际竞争力不断凸显
从产业规模来看,自2016年开始,中国人工智能市场规模逐年攀升,呈现高速增长态势。据国家工业信息安全发展研究中心测算,截至2018年,我国人工智能的核心产业规模超过344亿元,带动相关产业规模超过4334亿元(见图2.1)。
图2.1 中国人工智能产业规模
从企业数量来看,我国人工智能企业数量自2016年起进入爆发期。根据亿欧智库统计,97%的中国人工智能企业成立于2000年后,另有27家企业成立于2000年以前,多为软件信息服务类、工业制造类企业。2012年,互联网服务、安防和机器人等领域创业企业逐渐增多。2014年,中国正式迎来人工智能创业热潮。2015~2016年,围绕机器人、大健康、金融、安防以及行业解决方案等,人工智能创业热度冲顶(见图2.2)。
图2.2 中国人工智能企业情况
从产业生态来看,我国人工智能领域发展迅猛,基本形成了从基础支撑、核心技术到上层应用的完整产业链条。百度、阿里、腾讯、科大讯飞、海尔等企业围绕自身主业构建产业生态,云知声、商汤科技、寒武纪等中小企业围绕语音、图像和芯片等细分领域深耕并快速发展。国家工业信息安全发展研究中心调研发现,在人工智能基础层、技术层和应用层开展布局的企业占调研企业总数的比例分别为42.3%、39.8%和75.4%。同时围绕人工智能产业发展的相关标准以及可能带来的法律法规、伦理道德、安全、人才培养及引进等问题也正在加紧研究和积极适应。
在人工智能领域国际赛事中,我国人工智能团队表现出超强的实力,国际竞争力凸显。科大讯飞在多项赛事中夺得桂冠并刷新世界纪录,旷视科技在机器视觉上超越国际上人工智能实力较强的谷歌、IBM、微软、脸书等企业团队,夺得国际机器视觉大赛三项第一(见表2.1)。
表2.1 中国团队在国际赛事获奖情况
团队 | 赛事 | 时间 | 成绩 |
科大讯飞 | 国际语音合成大赛 | 2017年7月 | 科大讯飞AI研究院、语音及语言信息处理国家工程实验室包揽本次赛事核心指标的冠亚军 |
全球肺结节测试 | 2017年8月 | 科大讯飞以94.1%的准确率刷新全球肺结节测试的世界纪录 | |
国际机器阅读理解大赛 | 2017年10月 | 科大讯飞超越Google、IBM、微软、脸书,在SQUIG的国际机器阅读理解大赛上获得冠军 | |
国际自动驾驶评测集Cityscapes | 2017年11月 | 科大讯飞获得平均81.4%的精度,取得了该项评测的第一名,并刷新世界纪录 | |
旷视科技 | 国际机器视觉大赛 | 2017年10月 | 在COCO和Places竞赛中参加了4项比赛,并拿下了三项第一、一项第二 |
大华股份 | ICDARRobustReading | 2017年10月 | 刷新自然场景随手拍任务的全球最好成绩,以87.19%的准确率取得了自然场景随手拍文本检测排行榜第一名 |
清华张钹院士领导的人工智能创新团队TSAIL | IEEE CIG计算智能与游戏大会的第一人称射击类游戏《毁灭战士》(Doom)AI竞赛VizDoom | 2018年8月 | 获得竞赛Track 1的预赛和决赛冠军 |
旷视科技 | ECCV 2018的COCO+Mapillary挑战赛 | 2018年9月 | 力压微软、谷歌等中外群雄,揽获4冠 |
百度视觉团队 | Google AI Open Images-Object Detection Track 目标检测任务 | 2018年9月 | 斩获第一 |
搜狗 | IWSLT(International Workshop on Spoken Language Translation)国际顶级口语机器翻译评测大赛 | 2018年10月 | 夺冠 |
百度NLP团队 | NIPS举办的AI假肢挑战赛 | 2018年11月 | 全球第一 |
资料来源:国家工业信息安全发展研究中心整理。 |
二、 中央地方频频发力,联合推动行业落地发展
我国人工智能产业、技术快速发展,离不开国家政策支持。我国从中央政府到各级地方政府,自上而下政策紧锣密鼓,大力推动人工智能产业发展,对人工智能发展做出全方位的指导和规范。
国家领导人在诸多会议上指出,目前是我国抓住新一轮工业革命机遇的重要时期,互联网、人工智能、数字经济是本轮工业革命发展的重中之重,我国应充分发挥国家优势推动产业发展,促进人工智能与实体经济深度融合,加速技术落地,做好充足准备积极应对新技术带来的挑战。2018年10月31日,中央政治局就人工智能发展现状和趋势举行了第9次集体学习,会上习总书记做出重要讲话。习总书记认为,人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的“头雁”效应;加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。习总书记在学习时就提出了“AI+”战略的雏形,指出要促进人工智能同一、二、三产业深度融合,以人工智能技术推动各产业变革,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能。
从国家部委层面来看,自国务院规划文件正式印发之后,科技部启动重大项目,成立研究中心,建设国家级开放平台,并于2018年10月正式发布重大项目申报指南并明确给出经费补助安排;工信部印发《促进新一代人工智能产业发展三年行动计划(2018~2020)》,并通过项目遴选推动人工智能与实体经济深度融合;教育部则先后启动高校人工智能创新行动计划并成立专家组推动国内人工智能人才培养。
从地方政府层面来看,已有包括北京、上海、广东、江苏、安徽、浙江等近30个省份发布人工智能规划,并且各地在规划发布之后通过举办人工智能大会、成立地方产业联盟、与知名高校及企业组建联合实验室等多种形式引进人才与项目,并积极推动人工智能技术在安防、教育、医疗、公检法、智慧城市等众多领域落地。浙江省出台《浙江省新一代人工智能发展规划》,全力争取到2022年,浙江在人工智能多方面取得重要进展,其中包括人工智能基础前沿理论、核心技术、支撑平台、创新应用和产业发展等方面,争取到2030年,全面形成较为完备的核心技术、产业发展、推广应用的创新创业生态体系;上海市政府提出要积极把握人工智能的演进发展规律,集聚全球相关要素资源,实施“智能上海(AI@SH)”行动;北京围绕中关村打造人工智能创新高地,创新企业不断涌现,2018年2月,北京前沿国际人工智能研究院正式成立,吸引国际人才落户北京,将技术成果应用到各产业,企业孵化推动市场化;苏州市工业园区加快人工智能布局;武汉东湖高新区大力发展光谷人工智能产业,推进人才建设和提高企业竞争力(见表2.2)。
表2.2 地方政策及规划
主体 | 文件/政策 | 时间 | 内容 |
苏州市 | 《苏州工业园区人工智能产业发展行动计划(2017~2020)》 | 2017年3月 | 加快发展以大数据和云计算为支撑的人工智能相关产业,推进人工智能在智能制造、软硬件终端和服务业等领域的应用,打造国内外知名的人工智能发展高地 |
浙江省 | 人工智能人才专项政策 | 2017年7月 | 计划用五年时间集聚50名国际顶尖的人工智能人才、500名科技创业人才、1000名高端研发人才、10000名工程技术人才、10万名技术人才 |
《浙江省新一代人工智能发展规划》 | 2017年12月 | 力争到2022年,浙江在人工智能基础前沿理论、核心技术、支撑平台、创新应用和产业发展等方面取得重要进展,力争到2030年,形成较为完备的核心技术、产业发展、推广应用的创新创业生态体系 | |
安徽省 | 关于《安徽省人工智能产业发展规划(2017~2025年)》的征求意见稿 | 2017年8月 | 为全面指导安徽省人工智能产业发展,制定了该发展规划,并向社会公开征求意见 |
江西省 | 《关于加快推进人工智能和智能制造发展的若干措施》 | 2017年10月 | 明确“十三五”期间重点打造10个人工智能和智能制造产业基地,支持打造南昌世界级VR中心、鹰潭全国物联网产业基地,由省级财政对每个产业基地安排1000万元用于公共平台建设 |
上海市 | 《关于本市推动新一代人工智能发展的实施意见》 | 2017年11月 | 2020年实现人工智能重点产业规模超过1000亿元,将打造人工智能创新带、人工智能特色小镇、人工智能产业园等 |
北京市 | 《北京市关于加快推进自动驾驶车辆道路测试有关工作的指导意见(试行)》 | 2017年12月 | 国内首个自动驾驶法规,对自动驾驶汽车做出明确定义,规范无人驾驶汽车上路行驶规则 |
《北京市自动驾驶车辆道路测试管理实施细则(试行)》 | |||
辽宁省 | 《辽宁省新一代人工智能发展规划》 | 2018年1月 | 到2020年,人工智能技术和应用在部分领域达到国内领先水平,人工智能核心产业规模超过60亿元,带动相关产业规模超过400亿元 |
天津市 | 《天津市人工智能科技创新专项行动计划》 | 2018年1月 | 到2020年,研制一批重大基础软硬件产品,攻破100项关键共性技术及“杀手锏”产品,3~5个关键领域进入国家布局。领军企业和行业品牌进一步做大做强,打造人工智能“国际化”品牌企业5家,引进和培育一批与人工智能相关的领军企业。把天津初步打造成中国人工智能创新中心、人工智能产业集群新高地、国家人工智能创新应用城市 |
黑龙江省 | 《黑龙江省人工智能产业三年专项行动计划(2018~2022)》 | 2018年2月 | 培育10个以上人工智能创新团队,建设3~5个人工智能创新平台。力争到2020年,全省人工智能产业规模达50亿元 |
四川省 | 《四川省新一代人工智能发展实施方案(2018~2022)》 | 2018年3月 | 力争到2020年,培育30家国内有影响力的人工智能企业,形成人工智能核心产业规模超1000亿元,带动相关产业规模5000亿元以上,促进四川省人工智能产业进入全国先进行列 |
福建省 | 《关于推动新一代人工智能加快发展的实施意见》 | 2018年3月 | 到2020年,培育50家以上国内有影响力的人工智能“双高”企业,带动相关产业规模超过1000亿元 |
广东省 | 《广东省新一代人工智能发展规划(2018~2030年)(征求意见稿)》 | 2018年3月 | 到2020年,广东人工智能产业规模、技术创新能力和应用示范均处于国内领先水平,部分领域关键核心技术取得重大突破,一批具有地域特色的开放创新平台成为行业标杆,人工智能成为助推广东产业创新发展的重要引擎,形成广东经济新的增长点 |
重庆市 | 《重庆市自动驾驶道路测试管理实施细则(试行)》 | 2018年3月 | 优化汽车产业创新发展环境,推动自动驾驶技术发展,规范装配有自动驾驶系统的机动车辆上公共道路行驶开展自动驾驶相关科研、定型试验,有效控制自动驾驶道路测试潜在风险,保障道路交通安全 |
长沙市 | 《长沙市智能网联汽车道路测试管理实施细则(试行)》《关于加快新一代人工智能产业发展推动国家智能制造中心建设的若干政策》 | 2018年4月 | 将着力引进新一代人工智能产业关键、紧缺技术人才团队,推进新一代人工智能产业招大引强,引导新一代人工智能创新创业和产业集聚,在长沙高新区、雨花经开区、岳麓山国家大学科技城打造3个人工智能产业集聚园区 |
长春市 | 《长春市智能网联汽车道路测试管理办法(试行)》 | 2018年4月 | 全力推进长春市打造世界级汽车生产、研发基地,加快推动智能网联汽车技术创新发展及应用,科学指导智能网联汽车开展道路测试工作 |
广西壮族自治区 | 《广西壮族自治区人民政府关于贯彻落实新一代人工智能发展规划的实施意见》 | 2018年4月 | 到2020年,产业规模超过30亿元,带动相关产业规模达200亿元。到2025年,产业规模超过80亿元,带动相关产业规模达1000亿元。到2030年,产业规模超过250亿元,带动相关产业规模达2000亿元 |
天津市 | 《天津市关于加快推进智能科技产业发展若干政策》 | 2018年5月 | 抢抓智能科技产业发展的重大战略机遇,加强政策引导和扶持,聚焦智能终端产品、传统产业智能化改造、智能化应用等智能科技重点领域,加大对互联网、云计算、大数据等“软产业”的支持力度,壮大智能科技产业,抢占发展制高点,推动天津实现高质量发展 |
江苏省 | 《江苏省新一代人工智能产业发展实施意见》 | 2018年5月 | 到2020年,人工智能产业技术创新显著,新产品新服务不断涌现,产业规模和总体竞争力处于国内第一方阵,成为全国人工智能产业创新发展的引领区和应用示范的先行区 |
安徽省 | 《安徽省新一代人工智能产业发展规划(2018~2030年)》 | 2018年5月 | 到2020年,产业规模超过150亿元,带动相关产业规模达1000亿元。到2025年,产业规模达500亿元,带动相关产业规模达4500亿元。到2030年,产业规模达1500亿元,带动相关产业规模达1万亿元 |
沈阳市 | 《沈阳市新一代人工智能发展规划(2018~2030年)》 | 2018年5月 | 到2020年,产业产值达30亿元,相关产业产值达200亿元。到2025年,产业产值达90亿元,相关产业产值达1000亿元。到2030年,产业产值达200亿元,相关产业产值达到2000亿元 |
广州市 | 《广州市关于智能网联汽车道路测试有关工作的指导意见(征求意见稿)》 | 2018年6月 | 广州市智能网联汽车开放道路测试工作,遵循“鼓励创新、保障安全、先行先试、分级分类”的基本原则,充分发挥政府的引导作用,积极推进相关标准规范制定工作,在保障公共安全的前提下,科学有序地组织开展智能网联汽车测试工作。智能网联汽车实行分级别、分类别测试,支持智能网联汽车相关配套技术研发与创新,加快智能网联汽车商业化应用进程,建设智慧、绿色、安全的城市交通系统 |
广东省 | 《广东省新一代人工智能发展规划》 | 2018年7月 | 第一步,到2020年,广东人工智能产业规模、技术创新能力和应用示范均处于国内领先水平,人工智能成为助推广东产业创新发展的重要引擎,形成广东经济新的增长点。第二步,到2025年,广东人工智能基础理论取得重大突破,部分技术与应用研究达到世界先进水平,开放创新平台成为引领人工智能发展的标杆。第三步,到2030年,人工智能基础层、技术层和应用层实现全链条重大突破 |
天津市 | 《天津市智能网联汽车道路测试管理办法(试行)》 | 2018年7月 | 加快推进天津市智能网联汽车产业的快速发展和应用,引导智能网联汽车从研发测试向示范应用和商业化推广转变,为天津市智能科技产业快速发展提供基础 |
资料来源:国家工业信息安全发展研究中心整理。 |
从各省份出台的政策内容看,除了支持关键技术研发以及平台建设之外,重点推动的就是人工智能同传统产业的融合。北京重点支持人工智能在农业、物流、制造、金融、商务等领域应用示范,提升传统产业的智能化水平,同时将人工智能技术引入民生领域,更好地满足医疗、养老、教育等需求。上海市重点推动智能感知、数据分析、人机互动等技术在高端装备、集成电路、生物医药、汽车领域的应用,同时推动人工智能为金融商贸、交通物流、教育医疗、健康养老等领域赋能,提高相关领域的服务附加值。广东省则重点推动人工智能用于制造、政府、物流、教育、家居等领域。安徽重点从汽车、物流、家居、旅游、农业等多个领域入手,开展人工智能应用发展试点示范。
三、 融合应用不断深化,成为经济发展新动能
随着人工智能技术水平不断提升和产业发展环境持续优化,我国人工智能已在安防、物流、教育、医疗、制造等实体经济多个领域渗透发展,智能家居、自动驾驶等新业态新模式不断涌现。
1.我国人工智能已在实体经济多个领域渗透发展,部分领域已取得一定成效
得益于我国图像识别、语音识别和自然语言处理技术的迅速发展,人工智能已在信息化程度高、数据资源丰富的领域率先落地。国家工业信息安全发展研究中心调研发现,我国在制造、安防、交通、医疗、物流、教育、健康养老、农业、客服、金融、商务、法院等场景均有企业积极布局应用人工智能,其中安防、物流、交通等场景已经初见成效。在安防领域,腾讯优图在无限制条件下人脸验证测试成绩为99.80%,刷新世界纪录,并将此技术运用于福建省公安厅搭建的“牵挂你”防走失平台,在报失人口匹配和锁定方面取得了良好的效果。在物流领域,无论是阿里、京东还是苏宁,均实现了入库、存储、包装、分拣的全流程、全系统的智能化、无人化,可减少50%~70%的人工成本,小件商品拣选效率超过人工5倍,挑选准确率超过99.9%。在交通领域,2018年9月,百度表示将接管北京海淀区的所有红绿灯,监控实时路况并动态调整红绿灯时长,据测算,此举将减少30%~40%的拥堵等待时间。
2.智能家居、智能工厂、无人商店和自动驾驶等新业态新模式应运而生
近年来,智能家居迅猛发展,我国智能家居市场规模位居全球第四,海尔、小米、京东、科大讯飞相继推出了涵盖家电、窗帘、灯光、新风、供暖、安防、家政服务等整套智能化家居解决方案。人工智能是智能制造的核心驱动力,据行业研究公司Trend Force数据,2018年全球智能制造及智能工厂相关市场规模达2500亿美元。我国海尔、富士康和红领等企业已经开始进行智能工厂的实践。海尔位于郑州的智能工厂实现生产无人化,17个管理维护人员年产洗衣机2200万台;富士康的部分生产车间实现了黑灯化无人生产;红领完成了用户直接向工厂下单的智能化服装生产流程。根据艾媒咨询数据,预计至2022年市场交易额将超1.8万亿元。宝马、沃尔沃、特斯拉在中国推出了L3级[1]的无人辅助驾驶汽车,百度、北汽、长安、蔚来等国内公司已经在美国取得了无人驾驶路试牌照,展开了数据积累和算法论证的无人车项目。
3.人工智能与实体经济两端共同发力,积极拥抱融合发展
一方面,科技企业积极寻求应用场景落地发展,另一方面,传统行业企业积极应对转型升级需求和庞大人口的巨大个性化服务需求,拉动人工智能与实体经济进一步融合发展。美的集团、伊利集团、长安汽车、长江电力、北京同仁医院、北京卫星制造厂、上海飞机制造有限公司、晶科能源等传统行业企业积极探索与人工智能技术结合的发展路径,部分企业已经成为行业应用排头兵,利用人工智能提质增效,并将优秀案例、解决方案加以推广,带动行业转型升级。例如,深圳市华星光电将计算机视觉、深度学习等关键技术导入面板生产线,实现具备自学习能力、无间断、高精准的智能生产新模式,预计可替代70%的检测站点人力,节省人力成本20万元/年。
四、发展环境积极利好,产业发展氛围浓厚
2018年,我国人工智能的发展环境进一步优化,科研成果不断丰富,人才引进及培养措施愈加完善,投融资金额持续走高,已逐步形成良性的发展环境,为我国人工智能健康发展奠定了基础。
1.人工智能投融资规模持续增大,行业投资前景广阔
近年来,我国人工智能产业高速增长,投融资规模迅速扩大。图2.3表明了2014~2018年我国人工智能产业投融资规模及增长率,可以看出,据国家工业信息安全发展研究中心数据,2014年我国人工智能产业投融资规模约为90.8亿元人民币,2016年起投融资总金额快速增长,达238.8亿元人民币,同比增长76.3%,到2018年已增长至796.9亿元人民币,同比增长87.38%。图2.4表明了2014~2018年我国人工智能产业投融资事件数及增长率,可以看出,2014年仅79起投融资事件,2016年起投融资事件数据加速增长,仅2016年就有201起投融资事件。2018年,在一级市场号称出现“钱荒”“寒冬”的时候,世界范围内人工智能领域的投融资事件增速有所放缓,但投融资单笔金额持续走高。
图2.3 2014~2018年人工智能投融资总金额及增长率
图2.4 2014~2018年人工智能投融资事件数及增长率
2.专利论文数量全球领先,顶级实验室纷纷落地
专利申请和论文发表数量是衡量人工智能领域发展水平的重要指标。从论文数量上看,据中国专利保护协会数据,近20年来,中国(含港澳)在人工智能领域的论文产出取得了长足的发展,从1997年的1000余篇快速增长至2017的37000多篇,该领域论文的全球占比也从1997年的4.26%增长至2017年的27.68%(见图2.5)。专利申请方面,我国在人工智能专利发展方面已经获得了长足的进步,在过去几年中超越美国,体现出较大潜力。中国专利保护协会相关数据显示,在DWPI数据库中,世界各个国家/地区人工智能领域专利申请量前十位的依次为中国、美国、日本、韩国、欧洲、德国、澳大利亚、中国台湾、加拿大和印度。中国在人工智能领域的专利申请数量已经超过了美国,达76876件,列于首位。美国以67276件的申请量略低于中国,日本位列第三。
图2.5 中国人工智能相关论文发表情况
3.高校加速学科体系建设,龙头企业积极培育人才队伍
政府层面积极加强人工智能人才培养体系建设。就国内而言除了政策鼓励创新创业之外,以高校教育为抓手的人才培养体系也在不断完善(见图2.6),教育部2018年4月印发《高等学校人工智能创新行动计划》,8月成立人工智能科技创新专家组。2018年以来,南开大学、南京大学、天津大学、吉林大学等众多院校单独开设了人工智能学院。同时,互联网时代的科技巨头对于人才资源一直处于饥渴状态,国内BAT等互联网龙头企业均纷纷在全球范围内多地建立新的人工智能研究中心,积极“走出去”吸引海外人才,扩张研发团队规模(见表2.3)。
图2.6 国内教育部高校AI创新人才培养计划
表2.3 互联网企业积极扩张研发团队规模
公司 | 时间 | 事件 |
阿里 | 2017/10/11 | 成立全球研究院——达摩院,计划三年内投资1000亿元人民币 |
2018/3/1 | 与新加坡南洋理工大学正式成立联合研究机构,专注于包括医疗健康、智能家居和智慧城市等领域 | |
2018/3/28 | 与深圳大学启动粤港澳大湾区数据智能人才培养战略合作,主要面向云计算、大数据、人工智能等方向 | |
2018/4/3 | 与清华大学共同成立自然交互体验联合实验室,探索“下一代人机自然交互” | |
2018/4/21 | 联合清华、浙大、中科院自动化所等发布“藏经阁”(知识引擎)研究计划,攻坚AI推理 | |
2018/9/4 | 携手新加坡南洋理工大学、新加坡经济发展局启动博士生培养计划,阿里将开放AI应用场景及数据,达摩院科学家也将作为博士生导师授课 | |
2018/10/25 | 达摩院智能计算实验室联合清华大学,围绕认知计算方向成立专业委员会 | |
百度 | 2017/6/7 | 度秘事业部成立美国硅谷研发团队,加速AI落地,负责人曾是Google Assistant研发团队的核心成员 |
2018/1/8 | 设立Apollo全球实验室,积聚全球自动驾驶人才,推动全球自动驾驶技术快速发展 | |
腾讯 | 2017/4/30 | 在西雅图建立人工智能研究中心,由俞栋领导 |
2018/8/20 | 与上海交通大学签署战略合作协议,依托腾讯领先的技术产品优势和上海交大雄厚的学科实力,在科研合作、人才培养和数字校园等领域开展深入合作 | |
华为 | 2018/10/12 | 面向开发者、合作伙伴、高校和科研机构发布沃土AI开发者使能计划,其中包括面向高校和科研机构投入10亿元使能AI人才培养 |
资料来源:东方证券,国家工业信息安全发展研究中心整理。 |
产业篇
第三章 全球人工智能呈现特色化发展新格局
一、全球主要国家人工智能战略布局各有侧重
人工智能正处于发展的第三次“黄金时期”,人工智能相关研究正如火如荼地进行。而此次人工智能的深入发展必将引领未来科技潮流,深刻改变世界面貌,对人类文明和世界格局产生深远影响。为了在激烈的国际竞争中抢占人工智能发展的制高点,中国、美国、英国、德国、法国、日本和韩国等全球主要国家纷纷出台政策,扶持本国人工智能产业发展。
1.中国应用层发展迅猛,基础层相对薄弱
党的十八大以来,人工智能相关产业发展逐渐上升为国家战略。在顶层设计上,国家在移动互联网、大数据、超级计算、传感网、脑科学、无人驾驶、智能机器人等软硬件领域综合布局,全面发展,战略分工明确,以求弯道超车。但目前中国人工智能产业仍侧重于技术应用,在基础研发、关键核心技术等方面与美国等国家相比相对薄弱。此外,中国在人工智能产业发展中的伦理道德风险研究和行业准则制定等方面还有待提升。
2.美国产业发展体系齐全,基础研发水平领先
美国从政府到企业都极为重视人工智能所带来的机遇,在人工智能发展方面具有明显优势,互联网巨头集团式发展,推动软硬件系统协同演进,人工智能全面布局。一方面,美国政府战略层面高度重视,通过加大政策支持、推动国会立法和加大研发投入等多项措施,不断巩固世界范围内的人工智能领先地位。特朗普上任以来,美国政府更是从国家战略层面加紧布局,发布多项人工智能发展规划,重点布局互联网、芯片与操作系统等计算机软硬件以及金融、军事、能源等领域,大力扶持技术研发机构和各类实验室,为人工智能发展提供政策、法律、资金和人才等多方面保障,力图保持人工智能时代“领头羊”地位。同时,美国政府时刻关注人工智能可能伴随的相关风险并加以保障。另一方面,美国资本与政策共同发力,巨头企业形成集团式发展。美国人工智能产业的蓬勃发展不仅得益于政府的支持,还与发达完善的风投和资本体系紧密相关。从人工智能领域的融资规模来看,美国在全球占主导地位,所占比重超过60%。美国硅谷是目前人工智能发展的前沿阵地,聚集了上下游全产业链企业,业务包括人工智能芯片研发、芯片规模制造和人工智能应用产品开发。在硅谷,以谷歌、微软、亚马逊、脸书和IBM五大巨头为代表的企业自发地形成人工智能伙伴关系,通力合作推动了人工智能的研究和普及。这种新型的巨头集团式发展模式成为人工智能时代的特点之一,能保证技术方案的效益最大化。此外,美国积极推动软硬件系统协同演进,全面开发了人机协作的智能系统。在软件方面,提升人工智能系统的数据挖掘能力和感知能力,同时推动系统革新,包括可扩展、通用的人工智能系统研发;在硬件方面,优化用于人工智能算法和软件系统的硬件运算能力,并改进硬件体系架构,同时推动开发了更为高效可靠的智能机器人。
3.英国科研能力雄厚,成果转化率高
一直以来,英国是人工智能研究的重要学术重镇。英国拥有以牛津大学、剑桥大学、帝国理工学院、伦敦大学和爱丁堡大学为代表的高等学府以及以阿兰·图灵研究所为代表的众多智能研究机构,在人工智能领域拥有深厚的积累,其创新型成果不断在全球范围内得到推广应用。在人才培养上,英国注重依托国内众多院校和科研机构发挥本土优势,而中国和法国等则采取了本土培养+国际引进相结合的方式,注重吸引国际人才流入。此外,英国人工智能成果的商业化和产业化率高,孕育出大量优秀的人工智能初创企业。来自伦敦大学的初创公司Deep Mind开发出享誉全球的AlphaGo;2013年,亚马逊以2600万美元的价格收购英国语音识别创业公司True Knowledge;2014年,Google收购了Dark Blue Labs和Vision Factory两家在深度学习方面有着竞争优势的公司。此外,英国还有许多科技孵化机构,助力早期的人工智能初创企业,或者提供退出途径,完善的人工智能生态链条,有力地促进人工智能产学研各环节的良性互动。牛津的Isis Innovations和剑桥的Cambridge Enterprise就是两家较为著名的技术转让公司,它们的主要业务就是帮助大学里的创新技术项目商业化,从而使学校或者个人获得经济回报。
4.德国以智能制造为牵引,发力人工智能产业
德国人工智能的发展呈现“政府引领、市场跟进”、政府与市场良性互动的特点。德国政府在工业机器人发展的初期阶段发挥了重要作用。例如在20世纪70年代中后期,德国政府为推行“改善劳动条件计划”,强制规定部分有危险、有毒和有害的工作岗位必须用机器人来代替人工,为机器人的应用开拓了初始市场。从此,市场需求引导工业机器人向智能化、轻量化、灵活化和高能效化的方向深入发展。在行业分布上,德国的人工智能产业发展以智能机器人为重点,推行以“智能机器人”为核心的“工业4.0”计划,并大力发展自动驾驶汽车。联邦经济部的“工业4.0自动化计划”的15个项目中涉及机器人项目的有6个。另外,2015年9月德国内阁通过了联邦交通部提交的“自动与互联汽车”国家战略,通过公共补贴项目,支持更高水平的自动驾驶大规模研发,引领汽车产业革命,以维持德国在汽车行业的领先地位。在地域分布上,柏林作为德国首都和科技类创业基地,容纳了德国将近54%的人工智能企业,把慕尼黑,汉堡以及法兰克福等城市甩在身后,成为德国人工智能产业的发展中心。
5.法国工程能力较强,政府占主导地位
与中美两国软硬件同时发力不同,人口数量相对更少并且移动设备普及度一般的法国在数据上处于天然弱势,这就使法国在深度学习这类依赖数据的算法端很难赢得优势。但法国有着雄厚的产业基础,这使法国在硬件能力上取得不错的成绩。素有“欧洲硅谷”之称的法国格勒诺布尔,聚集了大量半导体和微电子企业,孵化出了一系列信息技术、嵌入式电子等产业链相关企业。此外,法国自20世纪70年代成立欧洲最大科技园——索菲亚科技园,园区内的企业也向法国提供了足够的工程化基础。凭借着坚实的工程基础,法国在3D打印、机器人和无人机等方面拥有不小的优势。通过法国的“十五亿欧元计划”,可以看出法国人工智能产业的发展主要依靠政府投资。2018年3月29日,法国总统马克龙宣布一项雄心勃勃的计划,准备到2022年本届任期结束前,投入15亿欧元,加速推进人工智能在法国的发展。其计划要点包括:在法国创建一个国际级的研发中心,完善数据领域政策,培养法国在人工智能领域的人才,并对技术革新的伦理和规制问题进行反思等。
6.日本聚焦机器人领域,应对老龄化趋势
日本的产业强项在汽车、机器人和医疗等领域,其人工智能研发也重点聚焦于这些领域,并以老龄化社会健康及护理等对人工智能机器人的市场需求,以及超智能社会5.0建设等为主要拉动力,突出以硬件带软件、以创新社会需求带产业等特点,针对性强,效果明显。在产业推进方式上,与中国类似,日本人工智能产业通过政府引导与市场化运作相结合的方式,重视产学研联动发展,以政府下属研究机构牵头开展研发活动,通过向民间企业和大学提供补贴,以及民间企业出资参与等方式,共同推进人工智能产业研究。
7.韩国产业结构单一,依赖龙头企业
2016年是韩国的“人工智能元年”,同年3月,韩国棋手李世石惨败于AlphaGo,极大地刺激韩国政府出台相关政策,同时也帮助韩国本土的人工智能产业培育消费者市场。2018年8月,韩国《中央日报》网站报道称,在韩国第四次工业革命委员会举行的第六次会议上,会议审议通过了人工智能研发战略。韩国人工智能研发战略分为三个要点:人才、技术和基础设施。为此,韩国计划在2022年之前新增设六所人工智能研究生院。政府的目标是培养出1370名人工智能高级人才。同时,韩国政府还制订了培养350名高级研究人员的计划。据信息通信技术振兴院预测,到2020年,韩国人工智能硕士和博士级人力缺口将达4500人。但受限于人口体量,韩国人工智能产业的发展很大程度依赖于三星和LG这类全球性企业,国内本土缺乏相应生态链上的中小企业。
二、我国人工智能形成三大梯队特色发展区域格局
随着科技巨头纷纷布局人工智能,以及大量创业企业的不断涌入,我国人工智能企业数量快速增长。据国家工业信息安全发展研究中心不完全统计,截至2018年底,我国人工智能企业超过2500家,其中北京、广东、上海、浙江、江苏五个省市人工智能企业和科研院所数量均超过百家,分别为996家、304家、289家、256家、122家。从地域上来看,基于地方政府的前瞻性布局和已有产业基础,我国人工智能产业呈现三个梯队并行发展的良好态势。
北京、广东、上海、浙江、江苏等第一梯队地区产业发展势头良好,已初步形成完整的产业生态格局。第一梯队地区信息产业基础良好,人才体系健全,科研实力雄厚,产业政策全面,已形成良好的企业孵化环境和产业生态环境。这些地区主要呈现人工智能企业数量多、创新创业企业大量涌现、行业分布广泛、技术较为领先等特点,已初步形成覆盖全产业链、协同发展良好的人工智能产业集群。调研显示,仅北京已有300多家人工智能核心技术企业和500多家人工智能创新应用企业,以及100多家高校和科研院所。广东人工智能企业超300家,广州、深圳两地作为广东人工智能的主要集聚地备受关注。上海人工智能企业数量达289家,相关产业规模达700亿元,形成了较为成熟的产业技术和商业模式。浙江人工智能相关企业超250家,其中上市公司50余家。江苏人工智能企业数量达122家,覆盖平台、系统、软硬件等产业链多个环节。
山东、湖北、湖南、重庆等第二梯队地区依托当地产业基础,在推动人工智能技术与传统产业融合发展方面具有一定优势。此类地区主要包括山东、湖北、福建、湖南、重庆、四川、安徽、江西、黑龙江、辽宁、天津、河北、山西、贵州、陕西。第二梯队地区虽有一定的人工智能产业发展基础,但由于地方政府重视程度不足,或是地方政府虽已着手推动产业发展,但因缺乏技术基础和区位优势不明显导致与第一梯队相比存在一定差距,产业发展成果并不明显。第二梯队地区呈现科研机构少、龙头企业少、产业集聚度低、技术发展相对缓慢等特点,但当地拥有制造、物流、农业等传统产业基础,人工智能技术与当地优势产业融合发展优势明显,市场前景广阔。辽宁拥有东软、新松机器人、沈阳机床厂、中科院沈阳自动化所等优秀人工智能技术、应用企业和科研院所。安徽拥有科大讯飞、华米科技、中科大等骨干企业和高校,并建成了中国声谷产业园,但产业聚集程度仍有待提高。湖北作为重要的工业和农业大省,具有较为广阔的人工智能应用市场。
河南、吉林、内蒙古、广西、海南等第三梯队地区产业发展基础薄弱,产业发展推进困难。此类地区包括河南、吉林、内蒙古、广西、海南、云南、西藏、甘肃、青海、宁夏、新疆。第三梯队信息产业发展相对落后,优势产业并不突出,且缺乏良好的产业发展环境。在人工智能产业发展所需的数据、技术、人才、资金等领域基础薄弱,人工智能与传统产业融合程度相对较低,人工智能技术基础和应用市场有待进一步加快推进。
三、人工智能产业链虽已形成但技术落地仍在探索
目前,全球人工智能产业已形成较为完整的生态系统,我国人工智能产业链条正逐步形成。通过梳理从研发到应用所涉及的产业链各个环节,以人工智能当前的核心产业为基础,结合目前常见的技术和应用场景,依据产业链上下游关系,可以将人工智能产业链分为三层,分别是基础层、技术层、应用层,每层可划分为既相对独立又相互依存的若干种技术、产品或服务(见图3.1),基础层、技术层、应用层三者形成一个完整的产业链,并相互促进。
图3.1 人工智能产业链
人工智能产业链基础层主要包括智能传感器、智能芯片、数据处理和数据存储服务、云计算等计算平台。其中,智能传感器和智能芯片属于基础硬件,数据处理、数据存储、云计算属于基础软件。智能芯片是人工智能的核心硬件基础,为模型的训练和推理提供算力。智能传感器属于人工智能的神经末梢,是用于感知外界环境的核心元件。数据是人工智能发展的基石,要实现人工智能技术的商业化,需要使用大量结构化的数据对模型进行训练。云计算主要为人工智能开发和提供云端计算资源和服务,以分布式网络为基础,提高计算效率。
人工智能技术层主要依托运算平台和数据资源进行海量识别训练和机器学习建模,开发面向不同领域的应用技术。人工智能的基础技术包括机器学习算法和开源开放平台等。应用技术包括计算机视觉、语音识别、生物特征识别、自然语言处理等,得益于基础技术取得的突破,目前应用技术发展迅速。计算机视觉是指用计算机来模拟人的视觉系统,实现人的视觉功能,以适应、理解外界环境和控制自身运动。语音识别技术能够使智能设备具有和人类一样听到和识别声音的能力,可以将人类表述的语言自动转换为计算机能理解和操作的结构化语义,从而完成实时的人机交互功能。生物识别技术通过计算机、光学、声学、生物传感器和生物统计学原理,利用人体固有的指纹、虹膜等生理特性,以及声音、步态等行为特征来进行个人身份的鉴定。自然语言处理技术主要研究在人与人及人与计算机交流中的语言问题,大体包括自然语言理解和自然语言生成两个部分。
人工智能应用层是技术使用者,包含人工智能技术在虚拟现实和增强型现实设备、智能机器人、无人驾驶设备、可穿戴设备等终端上的应用和在具体行业中的应用,覆盖了多个领域,包括制造、金融、教育、安防、家居、医疗、物流、交通、零售、客服等多个场景。在安防领域,人工智能技术已经得到了深入应用,在家庭场所,以及政府、学校、银行、机场、海关等公共场所实现人员识别、监控和追踪,可以有效帮助警方破案,防范犯罪分子。在制造领域,人工智能能够帮助完成工艺流程的优化、推动智能产品开发、实现产品质量检测、提供精准化营销和售后服务等。在医疗领域,人工智能在语音电子病历、新药研制、辅助诊疗、癌症检测等方面的应用都取得了突破性进展。
此外,人工智能产业的健康发展需要有孵化其发展的环境作为支撑,包括安全、法律、伦理、标准、人才等。人工智能作为一项新兴技术,在发展的过程中可能带来相应的安全问题和社会问题,这就要求我们重视风险评估和防控,积极开展安全、法律、伦理等方面的前瞻性研究。随着人工智能相关产品和服务的不断丰富,标准化程度不足的问题逐渐显现,目前世界范围内的标准化工作仍在起步当中,亟待建立完善的标准体系。人工智能作为知识密集型产业,顶尖人才将是产业发展的重要因素,因此人才的培养和集聚也已成为许多国家的战略重点。
就产业链来看,基础层、技术层、应用层均竞争激烈,国内外科技巨头、初创企业纷纷发力,在产业链不同环节积极布局,抢占人工智能发展先机。
1.基础层国外巨头实力雄厚,我国企业逐步发力
人工智能基础层主要包括芯片、传感器、数据服务、计算平台等多项基础设施,为人工智能产业奠定硬件铺设、算法、数据获取等基础。目前中国在芯片和传感器等基础硬件上相对薄弱,芯片领域仍然是AMD、Intel、英伟达等国际巨头领跑,但我国企业已经开始发力,阿里、百度、华为等巨头已先后开始布局芯片领域,初创企业融资热度不减;数据服务方面,全球数据迎来爆发式增长,由于我国具有人口众多、数据量大、数据标注成本低等特点,在数据领域具有一定的先天优势,数据服务企业层出不穷;在云计算领域,我国阿里、腾讯、华为等企业也已有布局。人工智能产业链基础层各领域的含义、市场规模、竞争格局、国内外代表企业情况见表3.1。
表3.1 人工智能产业链基础层布局情况
基础设施 | 内涵 | 市场规模 | 竞争格局 | 国外代表企业 | 国内代表企业 |
芯片 | 人工智能的核心硬件基础,为模型的训练和推理提供算力 | 2018年全球市场规模60亿美元(Gartner) | GPU:国外技术领先、竞争激烈,市场份额集中在Intel、AMD、英伟达等;专用芯片:国内市场占有率不断提升,有望发力实现弯道超车 | Intel、AMD、英伟达、Google、Xilinx | 寒武纪科技、地平线机器人、中星微电子 |
传感器 | 人工智能的神经末梢,用于感知外界环境 | 预计2020年全球达54亿美元(《新一代人工智能发展白皮书(2017)》) | 智能传感器市场主要由国外厂商占据,集中度相对较高 | 索尼、三星 | 高德红外、华润半导体、韦尔股份、禾赛科技 |
数据 | 人工智能发展的基石。实现人工智能技术商业化,须使用大量结构化的数据对模型进行训练 | 2018年中国大数据市场产值突破6000亿元(中商产业研究院) | 目前主要的三类数据供应渠道:学校和科技平台的免费数据库;平台服务提供商提供服务;企业自行采集 | IBM、微软、ImageNet、亚马逊 | 海天瑞声、龙猫数据、百度 |
云计算 | 主要为人工智能开发提供云端计算资源和服务,以分布式网络为基础,提高计算效率 | 2020年市场规模将达1366亿元(智研咨询) | 独角兽聚集,集中度逐渐提高 | 亚马逊、微软 | 阿里、腾讯、华为 |
资料来源:国家工业信息安全发展研究中心整理。 |
2.技术层计算机视觉和语音识别发展最快,但落地领域仍然有限
随着人工智能核心算法——深度学习算法的突破,在谷歌、脸书、微软等国际巨头搭建的开源开放平台的助推下,人工智能迎来一波发展浪潮,我国百度、阿里、腾讯、科大讯飞等企业也纷纷布局开放平台;应用型技术方面,多数人工智能技术公司以某一个或多个应用技术细分领域为切入点,深耕技术实力。目前,得益于深度学习算法的突破、数据量的爆发和算力的提升,计算机视觉与语音识别技术迅速发展,从全球来看,我国在这些领域相对具有领先优势。人工智能应用技术的含义、市场规模、主要应用场景、竞争格局、国内外代表企业等见表2。
表3.2 人工智能产业链技术层应用技术基本情况
技术 | 内涵 | 市场规模 | 应用场景 | 竞争格局 | 国外代表企业 | 国内代表企业 |
计算机视觉 | 用计算机来模拟人的视觉系统,实现人的视觉功能,以适应、理解外界环境和控制自身运动 | 中国市场120亿元人民币(智研咨询,恒大研究院) | 智能家居;语音视觉交互;AR、VR;电商搜图购物;标签分类检索;美颜特效;智能安防;直播监管;视频平台营销;三维分析 | 安防厂商、互联网巨头和创业公司为主要竞争者 | Orbital Insight、斑马医学 | 海康威视、百度、商汤科技、旷视科技、云从科技、依图科技 |
语音识别 | 使计算机具有和人类一样听到和识别声音的能力,能够将人类表述的语言自动转换为计算机能理解和操作的结构化语义,从而完成实时的人机交互功能 | 中国市场105.7亿元人民币(中商产业研究院) | 智能电视;智能车载;电话呼叫中心;语音助手;智能移动终端;智能家电 | 科技巨头Nuance、科大讯飞等与产品商苹果、百度等垄断市场 | Nuance、苹果、谷歌、微软 | 科大讯飞、思必驰、百度、阿里、云知声 |
生物特征识别 | 通过计算机、光学、声学、生物传感器和生物统计学原理,利用人体固有的指纹、虹膜等生理特性,以及声音、步态等行为特征来进行个人身份的鉴定 | 预计到2020年全球市场将突破250亿美元(国际生物识别集团) | 智能家居;可穿戴设备;智能手机 | 国外市场集中度也不断提升,国内多家企业看好这一领域 | VisionLabs;AuthenTec | SpeakIn、旷视科技、汉王科技 |
自然语言处理 | 研究在人与人及人与计算机交流中的语言问题,大体包括自然语言理解和自然语言生成两个部分 | 2017年市场规模达49.77亿元(中国人工智能发展报告2018) | 搜索引擎;机器翻译;语音助手;智能音箱 | 尚未诞生覆盖所有细分领域、占据市场多数份额的龙头企业,市场上仍存在入局机会 | 谷歌、亚马逊、苹果 | 科大讯飞、出门问问、今日头条、百度、思必驰 |
资料来源:国家工业信息安全发展研究中心整理。 |
计算机视觉自2012年引入深度学习后,其识别准确率得到了大幅提升,进入了爆发式增长阶段,目前逐步进入稳定增长期。这一阶段,国外互联网巨头对初创企业的并购案例频发,崭露头角后快速成长的创业企业通常最终被苹果、英特尔、脸书、谷歌和亚马逊等美国互联网巨头收购,而我国计算机视觉市场份额主要被商汤、依图、旷视、云从瓜分,据IDC发布的数据,2017年四家的市场份额总和高达69.4%。
语音识别在全球市场上,Nuance、谷歌、苹果、微软等企业占据了大半市场份额,而我国的科大讯飞也已在国际舞台上崭露头角,据中商产业研究院数据,科大讯飞2017年在全球智能语音市场上市场份额占4.5%,排名第五。同时,语音交互具有方便、快捷的特点,被认为能在多个应用场景给用户带来体验优化,将成为未来用户获取各种服务的入口。语音识别和自然语言处理的准确率在引入深度学习后得到了快速提升,达到了商用化水平,催生了智能音箱和智能语音助手等产品,国内外企业纷纷在语音领域展开布局(见表3.3)。
表3.3 国内外巨头企业智能语音行业布局
企业 | 布局 |
谷歌 | 推出Google Assitant语音助手、Google Home智能音箱,收购Limes Audio |
IBM | 推出Watson Assistant,面向企业级应用 |
微软 | 推出微软小冰、Cortana智能音箱,与亚马逊、小米、微博、微信等合作 |
脸书 | 增加语音搜索功能、针对语音识别技术进行软件和硬件开发 |
英特尔 | 与科大讯飞宣布合作共同研发人工智能芯片、集成语音识别功能 |
亚马逊 | 推出语音助手Alexa、Echo智能音箱,与其他企业展开合作 |
苹果 | 推出Siri、智能音箱HomePod |
三星 | 推出智能助手Bixby、智能音箱Galaxy Home,收购Viv、哈曼国际,投资Sound Hound |
Nuance | 推出Dragon TV、车载语音平台Dragon Drive |
腾讯 | 推出语音助手腾讯叮当、智能语音解决方案“小微” |
阿里 | 推出智能音箱天猫精灵、语音助手AliGenie |
百度 | 推出渡鸦音箱、带屏智能音箱百度在家、小度音箱 |
资料来源:国家工业信息安全发展研究中心整理。 |
但是,我们必须认识到,面向实际复杂场景的算法表现与人相比仍有差距,目前落地领域依然相对有限。计算机视觉、语音识别等算法在特定数据集的表现结果逐渐接近甚至超出一般人类水平,可以使语音输入转写、安防人脸识别、刷脸支付等应用逐渐成为日常。但由于真实场景的语音识别还存在口音、噪声、远场、语速等问题,图像识别同样会遇到光线强弱、遮挡等多种复杂因素干扰,实验室算法结果与实际场景效果之间无法画等号,例如2018年第五届ChiME国际多通道语音分离和识别大赛,主要测试各方算法在高噪声和混响等现象影响下的实际场景效果,最终连续两届包揽冠军的科大讯飞团队词错率依然有46%左右。算法的自适应能力与人类相比依然存在较大的差距,因而目前只能在特定领域落地。
同时,算法对自然语言及图像内容的理解方面仍有不足。此前语音识别、合成以及图像识别在部分指标上已经达到甚至超过一般人类水平,但是对于图像内容以及人类语言的理解在技术层面成熟度依然较低,其中自然语言理解更是被称为“人工智能皇冠上的明珠”。在2018年初的SQuAD机器阅读理解评测中,包括科大讯飞、阿里、微软等团队在准确率指标上都超过人类水平,但在整体性能指标上与人类相比仍有差距,在SemEval 2018国际语义评测比赛中,科大讯飞机器阅读理解评测任务夺冠,但准确率也只有84.13%。换言之,即便算法系统执行机器阅读理解任务的过程中在某些指标上超越人类,但并不代表“完全”打败人类,阅读理解复杂程度远超想象,当前技术水平还很难做到深层推理和归纳。
3.应用层场景逐渐丰富,竞争激烈格局未定
得益于图像识别、语音识别、自然语言处理等技术的快速发展,人工智能已应用于智能机器人、AR、VR、智能无人设备、智能可穿戴设备等终端,并在制造、医疗、教育、金融、物流、交通、安防、家居、客服、零售等多个场景得到应用,渗透到生产、生活领域的各个环节,成为传统行业转型升级的新动能,并催生出无人驾驶、无人零售、智能家居等新业态、新模式。人工智能在各行业的应用时间不长,科技巨头、初创企业、传统行业企业均瞄准广阔的市场空间积极布局,当前许多场景的市场竞争格局尚未定型,竞争激烈。各类智能终端和各类应用场景下人工智能应用的内涵、市场规模、竞争格局、国内外代表企业见表3.4。
表3.4 人工智能产业链应用层基本情况
智能终端/场景 | 内涵 | 市场规模 | 竞争格局 | 国外代表企业 | 国内代表企业 |
AR/VR | 利用电脑模拟产生虚拟世界,向使用者提供关于视觉、听觉、触觉等感官的模拟,让其如同身临其境 | 2018年我国VR市场规模261亿元(前瞻产业研究院,申万宏源证券) | 国外巨头实力雄厚、软硬件一起发力,国内厂商更擅长软件领域 | Oculus、微软、HTC、高通 | 小米、联想 |
智能机器人 | 具有智能感知、智能认知、人机交互等功能的各类机器装置 | 2018年机器人本体和系统集成市场已超过1200亿元(《2018年中国机器人产业分析报告》) | 工业机器人:国内外均是巨头企业占据较高市场份额服务机器人:科沃斯、iRobot等聚焦不同细分领域特种机器人:开始出现成规模的企业 | 工业机器人:发那科、库卡、ABB、安川电机;服务机器人:iRobot、Intuitive surgical;特种机器人:波士顿动力 | 工业机器人:新松、云南昆船、北京机科;服务机器人:科沃斯 |
智能无人设备 | 在任务平面上无人驾驶、有动力、可重复使用并可携带任务载荷完成指定任务的设备 | 2018年国内无人机市场规模超180亿元(速途研究院);2018年全球无人驾驶汽车产业规模约48亿美元(前瞻产业研究院) | 无人机:大疆创新占据着全球消费级无人机市场七成以上的份额无人车:参与者较多,包括科技公司、车企、出行公司等 | 无人机:Parrort、3DR无人车:宝马、通用、谷歌 | 无人机:大疆无人车:百度、小马智行 |
智能可穿戴设备 | 有软件支持以及数据交互、云端交互等功能的硬件便携式设备 | 2017年可穿戴设备市场产值超260亿元人民币(智研咨询) | 国内外市场集中度均比较高 | Fitbit、苹果、Garmi、三星 | 小米、华为、步步高、搜狗、奇虎360 |
制造 | 人工智能已应用到生产和服务的各个环节,如完成工艺流程的优化、推动智能产品开发、实现产品质量检测、提供精准化营销和售后服务等 | 2018年我国智能制造产业规模超过1.5万亿元(华泰证券研究所) | 市场格局尚未形成,工业企业加快数字化工厂建设及设备更换。互联网巨头提供相关云服务平台 | GE、西门子、谷歌、亚马逊 | 腾讯、康力优蓝、阿里 |
医疗 | 在语音电子病历、新药研制、辅助诊疗、癌症检测等方面进行应用。利于解决医疗资源不足、区域分布不均等医疗痛点 | 2018年中国医疗人工智能市场规模达200亿元(前瞻产业研究院) | 市场竞争激烈,公司较多。大部分公司寻求单领域突破,医学影像辅助诊断和在线智能问诊为主要突破口 | 谷歌、IBM、Enlitic | 阿里、腾讯、科大讯飞、百度 |
教育 | 在作业批改、辅助教学、自动化辅导等方面赋能,提高辅导质量并注重学生个性化辅导 | 2017年我国智慧教育市场规模超过4542亿元(前瞻产业研究院) | 市场竞争激烈,多数公司目前仍处于通过补贴来提升获客能力的阶段,市场格局未定 | Volley、Newsela | 猿题库、作业帮、科大讯飞 |
金融 | 人工智能用于智能客服、智能投顾、量化交易、身份认证等,增强传统服务的智能性,替代了部分简易劳动力 | 2018年人工智能在金融领域市场资本开支规模将达166亿元(中国产业信息网) | 传统金融公司和互联网机构纷纷入局进行竞争,用户金融数据领域竞争激烈 | 摩根大通、花旗银行 | 招商银行、蚂蚁金服、京东金融 |
物流 | 人工智能替代简单重复劳动、辅助人工、优化业务流程和管理流程 | 到2025年,我国智慧物流市场的规模将超过万亿元(德勤) | 四类企业参与竞争:电商、传统物流企业、设备制造商、初创公司 | 亚马逊、UPS、联邦快递 | 菜鸟网络、京东物流、满帮集团、顺丰、海康威视 |
交通 | 通过城市数据采集和人工智能处理,建立人、车、路、环境协调运行的新一代综合交通运行协调体系,实现城市交通系统的整体运行效率提高 | 2017年我国智慧交通市场规模1167亿元(智研咨询) | 市场的集中度较低,还没有处于绝对市场份额领先的企业 | 思科、高通、Cubic | 阿里、腾讯、滴滴、高德 |
安防 | 在家庭场所及政府、学校、银行、机场、海关等公共场所实现人员识别、监控和追踪,可以有效帮助警方破案,防范犯罪分子 | 2017年中国安防产业产值达4500亿元,到2020年行业总产值将达8000亿元(前瞻研究院) | 安防行业目前有两类参与者,传统安防行业巨头和计算机视觉算法公司,各具优势 | 博世、ASSA ABLOY | 海康威视、大华股份、商汤科技、云天励飞 |
家居 | 以家庭住宅为场景,基于人工智能、物联网技术和云计算平台构建智能家居生态圈,从而提供个性化、便捷化的生活服务 | 2017年中国智能家居市场规模为3254.7亿元(艾瑞咨询) | 目前市场的主要竞争者可分为传统家电厂商、智能硬件厂商、互联网电商及创新企业 | 谷歌、亚马逊、Siemens | 海尔、美的、小米、京东、华为 |
客服 | 通过对语义和语音进行识别,利用知识图谱等技术手段,对用户的意图进行理解和预测,提供即时客服服务,降低人力成本 | 2017年我国在线客服市场规模达644亿元,2018年将达716亿元(中国产业信息网) | 市场上目前主要竞争者为第三方智能客服和互联网巨头 | IBM;微软 | 科大讯飞、Udesk、小i机器人、百度、阿里 |
零售 | 从供应链、市场营销、客服等各个方面助力零售升级,提升店铺管理效率和用户消费体验 | 2017年中国无人零售市场规模近200亿元,预计2020年将突破650亿元(艾瑞咨询) | 市场竞争激烈,互联网巨头纷纷入局 | 亚马逊、沃尔玛 | 阿里、京东、腾讯、小米、每日优鲜 |
资料来源:国家工业信息安全发展研究中心整理。 |
技术篇
第四章 核心基础技术驱动人工智能产业加速发展
一、 人工智能芯片是人工智能技术变革的物质基础
人工智能芯片(也称人工智能加速器)指专门用于处理人工智能应用中的大量计算任务的模块(其他非人工智能计算任务仍由中央处理器负责),通常针对人工智能算法做了特殊加速设计。人工智能芯片作为人工智能产业发展不可或缺的根基之一,拥有巨大的战略地位和产业价值,可以说“无芯片不人工智能”,受各国政府和企业高度关注。随着人工智能在更多领域的应用落地,人工智能芯片发展迎来井喷期。
1.人工智能芯片产业格局渐趋明朗
人工智能芯片按承担的任务可分为训练芯片(构建神经网络模型)和推理芯片(应用神经网络模型);按部署位置可分为云端(如数据中心)芯片和终端(如手机、安防摄像头、汽车等)芯片;按技术实现方式可分为图形处理器(GPU)、现场可编程门阵列(FPGA)、针对具体应用开发的专用集成电路(ASIC)[1]、神经形态芯片等。人工智能芯片产业链中,除了各种人工智能芯片设计企业,还包括提供人工智能加速核的知识产权(IP)授权商和晶圆代工企业。可提供嵌入芯片中的人工智能IP的公司有美国的新思科技(Synopsys)、Cadence以及中国的寒武纪等。由于人工智能芯片对能效比要求较高,一般采用最先进的制造工艺,如14/12/10/7纳米,代表企业有目前集中在中国台湾地区的台积电公司(TSMC)、台湾联华电子(UMC)和韩国的三星公司。图4.1为人工智能芯片产业链及代表企业。
图4.1 人工智能芯片产业链及企业分布
2.人工智能芯片百花齐放
人工智能芯片目前采取两种发展路径,一是延续传统冯·诺依曼架构,加速硬件计算能力,实现方式包括通用的GPU、半定制化的FPGA和定制化的ASIC,另一种是颠覆冯·诺依曼架构,直接模拟人脑神经结构,典型代表为神经形态芯片。GPU、FPGA、ASIC和神经形态芯片各具优势,在不同阶段、不同应用场景间发挥不同的作用,根据Gartner在2018年7月发布的人工智能技术成熟度曲线,如图4.2所示,GPU芯片已进入成熟期,将保持平稳发展态势;FPGA刚从过热期迈进低谷期,市场趋于冷静;ASIC将迎来迅猛发展,而神经形态芯片则处于缓慢的爬升期,产业化尚待时日。
图4.2 Gartner公司发布的2018年人工智能技术成熟度曲线
GPU占据人工智能芯片的主流。GPU强大的并行计算能力非常适用于人工智能的深度神经网络,广泛应用在训练和需要大计算量的云端推理领域,是目前最主流的人工智能芯片,但也存在功耗高、价格高、难以针对特定领域快速优化等缺点。英伟达公司在GPU领域占据垄断地位,占GPU市场份额的70%~80%。美国AMD公司也一直在推进GPU芯片的发展,并于2018年11月抢先推出全球首款7纳米GPU芯片原型,带有32GB高带宽内存,专为人工智能和深度学习设计,用于工作站和服务器。
FPGA提供更大灵活性。FPGA具备高性能、高灵活性、低能耗和可硬件编程等优点,允许在短时间内对定制的设计进行评估,以此来缩短开发周期,节省设计的开发费用,并且可以小批量、快迭代、低成本的方式迅速满足众多较轻运算量需求的应用场景,并提供优于GPU的延迟和功耗。但FPGA的峰值计算性能不如GPU,且存在开发难度大、内存带宽约束,以及计算资源大量浪费等问题。英特尔和赛灵思公司占FPGA市场份额的近90%,且垄断地位在不断加强。英特尔公司的FPGA 10系列包括Stratix 10、Arria 10、Cyclone 10和MAX 10四大产品线,都开展了多样化人工智能应用探索。赛灵思公司提出将技术不断成熟的人工智能关键模块固化在FPGA中,推出自适应计算加速平台(ACAP)。首款ACAP产品代号为“珠穆朗玛”(Everest),将采用台积电7纳米工艺,2019年交付给客户。
ASIC重点满足多种终端应用。尽管ASIC需做大量的验证和物理设计,以及花费更多的时间和资金,但在大规模量产时,其性能、能耗、体积、成本、可靠性都要优于FPGA和GPU。一旦人工智能的算法相对稳定,ASIC将是最主流的芯片形态。目前,随着人工智能应用规模的扩大,越来越多的公司开始采用ASIC芯片进行深度学习算法加速,并分别推出云端和终端ASIC。在云端ASIC方面,谷歌的TPU是典型代表,目前已推出三代产品,如图4.3所示,2018年5月推出的TPU 3.0,计算性能相比TPU 2.0提升了8倍,可达1000万亿次浮点计算,首次使用了液冷散热。我国寒武纪公司也于2018年5月发布首款云端智能芯片Cambricon MLU100。
在终端ASIC方面,由于终端对于低功耗、小面积、高计算等指标的要求,终端人工智能芯片趋向知识产权(IP)化,即可与GPU和CPU等处理单元、高速存储器及输入输出接口等集成,组成满足特定应用需求的系统级芯片(SoC)。寒武纪、ARM、Cadence等企业已推出可对外授权的人工智能处理单元IP,华为、苹果、英伟达、英特尔等通过将外购或自研制人工智能处理单元IP并集成到自己的智能芯片架构中,实现具备智能数据处理能力的SoC。
图4.3 谷歌先后推出的三代TPU
神经形态芯片产业化道路漫长。目前神经形态芯片的设计方法主要在神经网络层面,芯片上的处理器内核和内存分别作为神经元和突触,而且内存、处理器和通信部件完全集成在一起,信息的处理在本地进行。神经形态芯片现阶段主要分为非硅和硅技术。非硅技术主要指采用忆阻器等新型材料和器件搭建的神经形态芯片,研究机构包括美国惠普公司、HRL实验室、加州大学、纽约州立大学、密歇根大学,法国电子信息研究所(Leti)等。硅技术包括以瑞士苏黎世联邦理工学院的ROLLS芯片和海德堡大学的BrainScales芯片为代表的模拟集成电路,以及以IBM公司的“真北”芯片为代表的异步数字集成电路和以清华大学天机系列芯片为代表的纯同步数字集成电路。总体来看,神经形态芯片领域仍处于探索阶段。
3.美中人工智能芯片企业数量占优
美国和中国是主导全球人工智能芯片发展最重要的两支力量。美国拥有世界最多的人工智能芯片企业,既有领军企业如谷歌、英特尔、IBM等科技巨头,也有高通、英伟达、AMD、赛灵思这样在细分领域有绝对优势的大公司,还有一些发展良好的中等规模公司和活跃的初创企业,企业结构相对完善;在GPU、FPGA、ASIC、神经形态芯片四大领域均有涉及,且在GPU、FPGA领域占据垄断地位。中国在人工智能芯片领域的布局主要集中于ASIC芯片,部分领域已处于世界领先,但以初创公司为主,在GPU和FPGA领域仍扮演着追随者的角色。2018年1月,美国市场研究和咨询机构Compass Intelligence公司在调查研究了全球100多家企业后,发布了2018年度全球人工智能芯片组企业[1]排行榜,如表4.1所示。在排名前24家企业中,美国占13个席位,且独揽前六,分别是英伟达、英特尔、IBM、谷歌、苹果、AMD。中国位居第二,大陆地区占6席,台湾地区占1席,第一名是列第12位的华为海思,其余6家依次是联发科、进想、瑞芯微、芯原、寒武纪和地平线(见表4.1)。
表4.1 Compass Intelligence给出的人工智能芯片组公司排行
序号 | 名称 | 国家 | 指数 |
1 | 英伟达 | 美国 | 85.3 |
2 | 英特尔 | 美国 | 82.9 |
3 | IBM | 美国 | 80.2 |
4 | 谷歌 | 美国 | 78 |
5 | 苹果 | 美国 | 75.3 |
6 | AMD | 美国 | 74.7 |
7 | ARM/Softbank | 日本 | 73 |
8 | 高通 | 美国 | 73 |
9 | 三星 | 韩国 | 72.1 |
10 | 恩智浦(NXP) | 荷兰 | 70.3 |
11 | 博通 | 新加坡 | 68.2 |
12 | 华为(海思) | 中国 | 64.5 |
13 | Synopsys | 美国 | 61 |
14 | 联发科(MediaTek) | 中国 | 59.5 |
15 | 进想(Imagination) | 中国 | 59 |
16 | Marvell | 美国 | 58.5 |
17 | 赛灵思(Xilinx) | 美国 | 58 |
18 | CEVA | 美国 | 54 |
19 | Cadence | 美国 | 51.5 |
20 | 瑞芯微(Rockchip) | 中国 | 48 |
21 | 芯原(Verisilicon) | 中国 | 47 |
22 | General Vision | 美国 | 46 |
23 | 寒武纪(Cambricon) | 中国 | 44.5 |
24 | 地平线(Horizon) | 中国 | 38.5 |
资料来源:Compass Intelligence。 |
4.产业规模持续高速增长,芯片向更加智能发展,终端ASIC需求巨大
人工智能芯片伴随着人工智能整体产业的发展已全面进入“寒武纪”时代。人工智能的技术突破与创业者们的大量涌入,给人工智能芯片加速产业化创造了重要契机。未来10年将成为人工智能芯片发展的机遇期和产业主权的激烈争夺期。国内外市场研究公司都对人工智能芯片市场规模做出了预测。美国Report Linker公司在2018年初预测,到2023年全球人工智能芯片市场规模将达108亿美元,复合年均增长率达53.6%。美国AMR公司在2018年8月预测,全球人工智能芯片市场规模将从2017年的45.15亿美元上涨到2025年的911.85亿美元,复合年均增长率达45.4%。两家研究机构都提出了高复合年均增长率,看好未来发展前景,AMR的预测更为乐观。
智能化程度越来越高。作为数据和信息处理芯片的高级形式,人工智能芯片将越来越智能。短期,人工智能芯片将以异构计算(多种组合)方式加速各类人工智能应用算法落地,并通过在计算架构、器件材料、电路结构、制造工艺上的不断改进和变革,持续提升算力和能效比,满足人工智能新应用需求;中期,人工智能芯片将着重发展自重构、自学习、自适应芯片,支持算法的演进和类人的自然智能;长期,人工智能芯片将朝淡化人工干预的通用型人工智能芯片方向发展,无须限定领域、设计模型、挑选训练样本、人工标注等工作,实现可编程、高度动态可变架构、强大自学习能力、高计算效率、高能效比、应用开发简洁、低成本和小体积等终极目标。
终端ASIC芯片存在海量需求。在计算机到无人驾驶汽车、无人机再到智能家居的庞大需求牵引下,出于对功耗、实时性以及训练数据和本地数据隐私等考虑,更多人工智能计算将从云端走向终端,驱动终端人工智能芯片不断向高性能、低功耗、小体积和定制化方向发展,从而减少对服务器的压力和对网络带宽的需求,获得更好的实时反馈体验。而且能够保障在本地化数据处理中的信息安全和数据隐私,并且能够减少数据上传的流量资费。ASIC芯片将成为发展最活跃的一条分支,以及众多企业抢滩人工智能领域的登陆点,尤其是在终端推理芯片领域,种类和数量将大幅增加。
5.发展人工智能芯片,需完善生态系统和挖掘更多应用场景,并持续技术创新
研制成本高、资金投入变现困难是现阶段人工智能芯片发展的最大障碍之一,尤其是ASIC。在开发人工智能芯片时须以需求为导向、与应用紧密结合,挖掘百万级用量的应用场景,才能有效均摊前期巨额的研发成本。只有用起来,才能具备自我造血的能力,形成正反馈。人工智能芯片要获大批量应用,强烈依赖其生态系统的完善,如是否支持国际主流开源算法框架,开发平台是否简单、易用和高效等。算法框架是人工智能核心生态圈建立的关键环节,是决定人工智能技术、产业、应用的核心环节,是人工智能核心生态圈建立的基础和关键。开发平台可实现算法的模块化封装,为应用开发提供集成软件工具包,包括为实现算法而开发的各类应用及算法工具包,为上层应用开发提供算法调用接口,提升应用实现的效率。掌握人工智能生态系统就将掌握这个产业的主动权。
更多人工智能芯片技术仍待突破。摩尔定律遇到了技术和经济上的双重瓶颈,处理器性能的增长速度越来越慢,然而社会对于计算能力的需求增速却并未减缓。随着移动应用、大数据、人工智能等新兴技术应用场景的不断丰富,人们对人工智能芯片的算力和功耗均提出更高需求,尤其是在终端推理领域。要想有大的突破,还需从电路级进行架构优化,包括内存上运算、动态可配置、带宽的优化,以及内存计算一体化,神经形态芯片也还需在产业化道路上走得更远。此外,深度学习神经网络的算法数十年来缺乏根本性突破,深度学习算法在实质上并不能完全模仿生物大脑的运作机制,在通用人工智能、类脑智能、认知智能等领域,现有的人工智能技术还远未在基础理论方面取得实质进展。因此,人工智能芯片要获得持续发展以及成为真正的人工智能,仍需在算法、芯片架构、材料以及脑科学等领域不断取得突破。
二、 算法是人工智能产业升级的核心引擎
人工智能算法是人工智能技术发展的基础,能够解决图像识别、语音识别、人机交互等人工智能相关任务。随着人工智能算法的不断发展演进,人工智能技术应用更加广泛,极大促进了人类社会的快速发展。
人工智能算法根据所解决的目标问题可分为三类。一是回归任务算法,回归方法是一种对数值型连续随机变量进行预测和建模的监督学习算法,其特点是标注的数据集具有数值型的目标变量。二是分类任务算法,分类方法是一种对离散型随机变量建模或预测的监督学习算法,其特点是该算法通常适用于预测一个类别而不是连续的数值。三是聚类任务算法,该算法基于数据的内部结构寻找观察样本的自然族群,其特点是该方法是一种无监督学习任务,并且通常使用数据可视化评价结果。三类人工智能任务算法的发展得益于深度学习算法模型的优化与拓展。截至目前,典型的深度学习算法模型主要有深度信念网络(DBN),卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)模型、生成对抗网络(GAN)、自编码器(Autoencoder)等。
(1)深度信念网络(DBN)。DBN主要应用于识别特征、分类数据、生成数据,该网络由多层神经元构成,这些神经元又分为显性神经元和隐性神经元。DBN的组成元件受限玻尔兹曼机(RBM),训练步骤包含预训练和调优。在预训练中,分别单独无监督地训练每一层RBM网络,确保特征向量映射到不同特征空间,都尽可能地保留特征信息;它通过一个非监督贪婪逐层方法预训练获得权重(即不要类标,不断拟合输入,依次逐层)。在这个过程中,数据输入可见层,生成一个向量V,再通过权值W传给隐藏层,得到H,由于隐藏层之间是无连接的,所以可以并行得到隐藏层所有节点值。隐层激活单元和可视层输入之间的相关性差别作为权值更新的主要依据。它的优点是,可以从统计的角度表示数据的分布情况,反映同类数据本身的相似度;生成模型可以还原出条件概率分布,相当于判别模型。缺点是生成模型不关心不同类别之间的最优分类面,分类精度可能没有判别模型高;学习问题的复杂性高;要求输入数据具有平移不变性(见图4.4)。
图4.4 DBN结构示意
(2)卷积神经网络(CNN)。CNN主要应用于输入数据有一定空间关联性的深度学习场景,是一种多层的监督学习神经网络,其基本运算单元包括:卷积运算、池化运算、全连接运算和识别运算。其中,隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。CNN算法模型的优点是权重共享策略减少了需要训练的参数,相同的权重可以让滤波器不受信号位置的影响来检测信号的特性,使训练出来的模型泛化能力更强;池化运算可以压缩数据和参数的量,消除信号的微小偏移和扭曲,对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性,在一定程度上防止过拟合。随着CNN网络层数的加深,深度模型容易出现梯度消散问题和过拟合问题(见图4.5)。
图4.5 CNN结构示意
(3)循环神经网络(RNN)。RNN的主要用途是处理和预测序列数据,在全连接神经网络或卷积神经网络中,网络结果都是从输入层到隐含层再到输出层,层与层之间是全连接或部分连接的,但每层之间的节点是无连接的。RNN的来源就是为了刻画一个序列当前的输出与之前信息的关系。从网络结果上来说,会记忆之前的信息,并利用之前的信息影响后面的输出。RNN的隐藏层之间的节点是有连接的,隐藏层的输入不仅包括输入层的输出,还包含上一时刻隐藏层的输出。RNN的优点是模型是时间维度上的深度模型,可以对序列内容建模,缺点是需要训练的参数较多,容易出现梯度消散或梯度爆炸问题,不具有特征学习能力(见图4.6)。
图4.6 RNN结构展开示意
(4)长短期记忆网络(LSTM)模型。LSTM是一种特殊的RNN类型,可以学习长期依赖信息。LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力。LSTM的优点是可以解决RNN模型梯度弥散的问题,缺点是实际编程过程中,不同的应用LSTM的Memory Block如何构建,门的输入是否需要调整,这些都会带来很大的影响,要根据应用来进行调整(见图4.7)。
图4.7 LSTM结构示意
(5)生成对抗网络(GAN)。GAN是古德费洛在2014年提出来的一种采用对抗思路来生成数据的思想。GAN是一类在无监督学习中使用的神经网络,其有助于解决按文本生成图像、提高图片分辨率、药物匹配、检索特定模式的图片等任务。GAN 的优点有生成效率高、设计框架灵活、可生成具有更高质量的样本等优势,缺点是仍存在难以训练、梯度消失、模式崩溃等问题,虽然GAN已在计算机图像生成等任务中取得了极大的成功,但是目前该技术仍然处在初期阶段(见图4.8)。
图4.8 GAN计算流程与结构示意
(6)自动编码器(Autoencoder)。自动编码器是一种数据的压缩算法,其中数据的压缩和解压缩函数是数据相关的、有损的、从样本中自动学习的。自动编码器是一种三层的神经网络:输入层、隐藏层(编码层)和解码层。它是一种无监督机器学习算法,应用了反向传播,可将目标值设置成与输入值相等。自动编码器的训练目标是将输入复制到输出。在内部,它有一个描述用于表征其输入代码的隐藏层。通过重构其输入,使其隐藏层学习到该输入的良好表征。在编码过程中,自动编码器既能表征线性变换,也能表征非线性变换。自动编码器通过数据示例自动学习。这意味着在特定类型的输入中很容易训练出表现良好的算法,并且不需要任何新的结构,只需适当的训练数据即可。但是,自动编码器在图像压缩方面做得并不好。自动编码器是在给定的一组数据上进行训练的,因此它将得到与所用训练集数据相似的压缩结果,但对通用的图像压缩器来说效果并不好(见图4.9)。
图4.9 自动编码器架构
人工智能算法仍然面临诸多技术难点。虽然人工智能算法近几年得到快速发展,为解决人工智能问题提供了重要的理论支撑,但在研究过程中仍然面临诸多技术瓶颈。一是局部最优问题,深度学习算法的目标函数,几乎全是非凸的。而目前寻找最优解的方法,都是基于梯度下降的,梯度下降方法无法解决非凸问题。二是内存消耗巨大,计算复杂,庞大的参数规模造成训练过程和检测过程中内存消耗巨大和计算复杂。三是人脑机理还有待开发,深度学习模拟的是人脑之中一个很小的方面,而对于整个人脑的机理还有待继续开发。四是整个神经网络系统的设计、神经网络的设计方法,包含了研究人员对人脑的理解方式,要把整个网络框架设计好,需要较强的设计经验,这也是整个领域最具有研究价值的模块。
深度学习引领人工智能算法发展方向。目前深度学习算法作为人工智能最为主流的算法获得广泛关注。深度学习通过对不同模式进行建模,其结构具有较多层数的隐层节点以保证模型的深度,同时深度学习突出了特征学习的重要性,其通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使识别或预测更加准确。因此,深度学习集中体现了人工智能算法的发展趋势,一是用较为复杂的模型降低模型偏差;二是用大数据提升统计的准确性;三是用可扩展的梯度下降算法求解大规模优化问题;四是采用多因素算法优化模型用来解决复杂问题;五是无监督学习将会掀起深度学习新的浪潮,长期内其作用将会越来越重要,生成对抗网络(GAN)模型作为无监督学习的代表将会得到快速发展。
三、 数据是人工智能应用落地的重要基石
1.数据资源爆发式增长为人工智能技术创新发展奠定坚实基础
随着移动互联网、智能硬件和物联网的快速普及,全球数据总量呈现指数级增长态势,根据IDC报告,2020年全球数据总量预计达44ZB(1ZB=1012GB),年均复合增长率达36%。大数据是通过对海量数据的分析提取隐藏的规律、现象、原理,而人工智能则在大数据的基础上更进一步,通过对数据的分析研究、开发利用,模拟、延伸和扩展人的智能。
2.数据驱动促使人工智能算法和技术更加智能
人工智能中的“深度学习”(机器学习的内容之一),实际上是个老话题,如今很流行的原因主要是信息技术的发展让搜集“大数据”成为可能,机器训练有了足够多的样本。诸如阿尔法狗的棋步算法、洛天依的声音合成,以及无人驾驶、人脸识别、行人搜索、异常检测、行为识别、网页搜索等高级应用中用到的“深度学习”“迁移学习”“强化学习”“对抗学习”及使用的网络结构——“深度神经网络”“卷积神经网络”“递归神经网络”“对抗神经网络”等都与大数据息息相关。
3.数据驱动引发人工智能应用快速发展
随着数据资源的增长及大数据处理能力的提升,数据驱动的人工智能方法在计算机视觉、自然语言处理、数据挖掘、商业智能、自动驾驶、人机博弈等领域取得令人瞩目的重大进展,引发基于数据的新型人工智能应用快速发展,并引领全球范围内智能化浪潮。在汽车行业,以自动驾驶为例,谷歌、百度、特斯拉、奥迪等传统巨头纷纷加入其中。利用传感器和激光雷达等感知器采集路况和行人信息,结合先进的人工智能算法,不断优化并最终规划出最优路线以及操控方案。例如,特斯拉从真实用户的驾驶中进行数据采集,已累计获得超过20亿公里的驾驶数据。通过对海量数据的处理分析,以此来增强机器学习系统的准确性,不断提升无人驾驶领域的性能技术和用户体验。在金融领域的智能风控、智能顾问、市场预测、信用评级等方面也有成功的应用。例如,日本初创公司(Alpaca)利用深度学习分析与识别图像,帮助用户快速地从海量信息中找到外汇交易图表,大大降低了时间成本。在零售行业,线下的实体零售店利用人工智能技术实现真正的无人零售,在降低成本的同时也大大提高了效率。在医疗领域,人工智能算法被应用到提供医疗辅助、癌症检测和新药物研制等方面,为医生提供医疗辅助,更高效精准地进行医疗诊断,如IBM的智能机器人沃森。
4.数据资源的质量和标注成本成为制约人工智能发展的瓶颈
随着深度学习的兴起,神经网络的隐藏层数大大增加,为使模型达到一定准确率,要求的训练数据也随之增加,这种增加并非线性的,而是成倍的增长,并且对数据质量的要求极高,其好坏直接影响到算法模拟结果的准确性。数据标注行业应运而生,通过大量人力对非结构的数据加工标注,以提高数据质量。但数据标注属于劳动密集型工作,获取某些特定类别的带标记数据的成本较高,导致“可用”的数据量少且成本昂贵,深度学习面临训练数据不足的危机。微软亚洲研究院报告显示,以机器翻译为例,一个句子平均长度大约为30个单词,如果需要标记1000万个双语句对,所有标记费用估算下来,大约为2200万美元。
5.降低人工智能对数据依赖程度成为未来研发重点
数据标记成本比较高,因算法升级需要,训练数据的容量也需增加,这些因素使获取标记数据付出更高的成本。数据缺失,致使人工智能在许多领域的应用受到很多限制,人工智能的发展必然要求降低对数据的依赖。自动生成数据、小样本学习、迁移学习、无监督学习,能够减少人工智能对标注数据的高度依赖。Facebook公司认为使用生成对抗网络(GAN)最终能够实现无监督学习,这种技术既可以减少人为行为的参与,对训练人工智能来说,GAN生产完全虚构的数据集和真实数据集也一样有用。迁移学习可以从现有的数据中迁移知识,用来帮助将来的学习,即迁移已有的知识来解决仅有少量有标签样本数据甚至没有标签样本数据的问题,再对问题进行求解。尽管一个单一的未标注样本蕴含的信息比一个已标注的样本要少,但是如果能获取大量无标注数据(比如从互联网上下载随机的、无标注的图像、音频剪辑或者文本),并且算法能够有效地利用它们,那么相比大规模的手工构建特征和标注数据,算法将会取得更好的性能,自学习和无监督特征学习方法即可实现对未标注数据的自主学习,相关算法已在ICML、SIGKDD、NIPS、CVPR、ICCV、ECCV、IJCAI、AAAI等国际顶级会议中有相关文章发表。
四、高性能计算是人工智能发展的强大助力
1.高性能计算呈现快速发展态势
高性能计算(High Performance Computing,HPC)又称超级计算,是利用并行处理和高速互联网络将多个计算节点连接起来,从而高效、快速地运行高级应用程序,大大增强了机器的数据处理能力,可以为人工智能提供强大的计算引擎。算力是人工智能的三大核心要素之一,2018年在人工智能发展热潮的带动下,高性能计算整体呈现快速发展态势。
高性能计算与人工智能技术协同创新。随着新的计算部件、存储技术发展,高性能计算和人工智能之间的联系越发紧密,融合应用程度逐步加深。利用人工智能算法优化现有的高性能计算工作程序(HPC-on-AI),以及通过高性能计算扩展人工智能算法规模(AI-on-HPC)等方面的研究成果显著,两者强有力的协同效应,正在不断推进技术的创新和发展。
各国加速高性能计算机研发布局。高性能计算是国家科技发展水平和综合国力的重要标志,在科学研究、经济发展等方面重要性愈发凸显,各国纷纷加强研发布局和应用扩展,着重百亿亿次(E级)超级计算机及相关技术的研究。从整体来看,美国和中国处于全球领先地位,中国自2013~2017年,一直占据着世界超级计算机排名的第一位,而2018年,美国打破了这一局面,重新回到榜首。根据国际TOP500组织在2018年11月发布的最新一期全球超级计算机500强榜单(见表4.2),美国的“Summit”和“Sierra”分获前两名,中国的“神威·太湖之光”、“天河二号”和瑞士的“Piz Daint”分列第三至第五名。其中,Summit于2018年6月在美国发布,是第一台既支持传统科学计算,又支持人工智能加速的超级计算机,混合精度运算速度为每秒320亿亿次,达到E级水平,两项Summit超算加速的人工智能应用获得2018戈登贝尔奖。
表4.2 全球超级计算机500强榜单(前十位)
排名 | 超级计算机 | 国家 | 浮点运算速度(TFlop/s) |
1 | Summit | 美国 | 143500 |
2 | Sierra | 美国 | 94640 |
3 | 神威·太湖之光 | 中国 | 93014.6 |
4 | 天河二号 | 中国 | 61444.5 |
5 | Piz Daint | 瑞士 | 21230 |
6 | Trinity | 美国 | 20158.7 |
7 | ABCI | 日本 | 19880 |
8 | SuperMUG-NG | 德国 | 19476.6 |
9 | Titan | 美国 | 17590 |
10 | Sequoia | 美国 | 17173.2 |
资料来源:国际TOP500组织。 |
企业加大“人工智能+高性能计算”产品研发力度。为了进一步提升产品的计算能力与智能化应用水平,企业纷纷推出有关产品,支持人工智能、高性能计算、云计算等多项技术。如Nvidia在2018年5月推出的HGX-2云服务器平台,是第一款人工智能和高性能计算的统一平台,可以实现包括科学计算和模拟在内的应用,如天气预报以及人工智能模型(如深度学习神经网络)的训练和运行,适用于图像和语音识别以及自动驾驶汽车的导航等多场景;AMD于2018年11月推出的Radeon Instinct MI60/MI50,是专为下一代深度学习、高性能计算、云计算和渲染应用程序而设计的加速器,也是世界上第一个具备7nm GPU的数据芯片。国内方面,联想、华为、浪潮等企业也在人工智能融合高性能计算的技术上不断探索,例如联想发布的“高性能计算+人工智能”超算平台LiCO,在高性能计算软硬件平台上整合支撑了各种深度学习应用,融合了主流的人工智能框架;华为在2018年底宣布与全球领先的集群和云基础设施自动化软件公司Bright Computing开展合作,计划提供基于ARM和人工智能技术加速的智能高性能计算解决方案。
2.高性能计算向开放、灵活、多元、低功耗的架构演进
高性能计算与人工智能融合发展正在逐步深入,但也存在一些挑战,是未来技术研发突破的重点。一是开放的架构和丰富的软件生态。传统高性能计算采用封闭计算,软件生态薄弱是市场普及的最大阻力,开放的架构、丰富的软件生态,是构成人工智能的高性能计算解决方案的重要基础。二是平台的扩展能力。随着对计算机系统性能的要求不断提高,高性能计算平台既需要提供模块化部署,也应具有较强的扩展能力,使高性能计算与存储、网络等在性能和可扩展性上形成更佳的匹配。三是架构的多样化。面对计算密集型、I/O密集型和访存密集型等不同特征的多元化应用场景,需要显著提高高性能计算系统灵活性,通过创新计算、存储、网络等技术架构设计,提供定制化的解决方案,以应对多样化应用需求的挑战。四是系统的功耗问题。降低功耗是高性能计算硬件创新的重要方向,在数据量以EB级速度增长的情况下,高性能、低功耗成为高性能计算发展趋势,要对整个计算流程,从上层应用算法到底层硬件芯片进行优化和创新,如将数据移动转化为任务迁移,更新机房冷却系统、机箱液冷技术和专用低功耗计算芯片设计等。
3.高性能计算跨领域融合应用将持续深化发展
随着技术不断成熟,高性能计算与大数据、云计算、人工智能等新兴技术领域融合发展将逐渐深入,应用范围也将越发广泛。
基于高性能计算的大数据分析市场前景广阔。大数据与高性能计算结合衍生出高性能数据分析(High Performance Data Analysis,HPDA)技术,在不同领域创造出全新的应用解决方案,成为行业发展趋势。IDC数据显示,目前有67%的高性能计算资源用于高性能数据分析,而欺诈检测、舆情分析和推荐系统的需求就是其中较为典型的应用。随着大数据时代的到来,高性能数据分析应用将成为高性能计算的强力增长点,推动高性能计算市场持续扩大。
高性能计算与人工智能融合应用领域持续深入。高性能计算与人工智能的结合为未来提供了更多的技术实现手段,高性能计算技术不断提升,加速芯片性能显著提高,为人工智能算法落地提供坚实的基础。智能推荐系统、语言翻译、图像识别等人工智能应用将越来越多地与高性能计算相结合,机器学习与传统高性能计算技术的融合应用领域将愈发广泛。
云平台促进技术应用普及扩展。受成本和技术限制,企业部署大规模集群的门槛较高,而基于云计算理念构建的服务,能够有效平摊设备购置成本,简化技术细节,降低运维成本。亚马逊AWS、阿里云等大型云提供商已经推出云上高性能计算服务,国内许多超算中心也推出了超算云,用户仅需接入云厂商提供的HPC端口,即可根据需求购买和使用计算资源。未来随着技术和市场认可度的提升,高性能计算技术应用有望向中小型企业普及。
五、开源开放促进人工智能跑出创新加速度
深度学习开源框架是人工智能研究领域中的重要方向,成为推动人工智能技术发展的重要动力。深度学习作为人工智能领域最核心的技术,提供了传统方法无可比拟的优势。各个人工智能领域的IT巨头如谷歌、IBM、微软、亚马逊、脸书、百度、腾讯等争相开源(见表4.3)。
1.谷歌第二代人工智能学习系统TensorFlow
TensorFlow是由谷歌公司开发的目前最受欢迎的开源深度学习框架,支持在多GPU上运行深度学习模型。该框架的主语言是C++和CUDA,但还支持PythonHaskell、Java、Go和 Rust等不同语言类型的API,丰富的API接口不仅提供多重训练模型,还方便实现算法的不断改进。对于开发人员来说可以优选擅长的语言编码开发,比较容易上手。该框架生态完备、功能全面,拥有大量实用网络结构模型,被广泛应用于图像识别、图片分类、语音处理等深度学习领域,其生态下的推理端TensorFlow Lite可以转移训练后的模型至移动端进行预测。同时,TensorFlow具有高度的灵活性和稳定性,计算图和低层次OP描述计算使该框架成为优质的底层框架,经过高层封装之后支持不同种类的学习算法,例如卷积神经网络、循环神经网络等,通过不同组合得到多种网络模型。
2.加利福尼亚大学深度学习框架Caffe
Caffe是2014年加利福尼亚大学伯克利分校的博士生贾扬清开发的一个开源深度学习框架,之后脸书推出的Caffe2沿袭了大量Caffe的设计并解决了一些瓶颈,然而现阶段Caffe2还不能完全替代Caffe。Caffe可以支持高速计算机视觉领域的训练,在图像处理领域优势明显且生态积累深厚,被广泛应用于人脸识别、图像视频内容识别等领域。Caffe作为老牌深度学习框架,积淀了大量的相关文档和教程,对使用者来说极易上手。同时,该框架具有较强的灵活性,拥有丰富的开源扩展功能,可以在多机多GPU上进行分布式训练。
3.脸书深度学习框架Torch
Torch是脸书在2016年宣布开源的深度学习框架,其开源的内容包括可以加速深度学习速度的深度学习模块以及可以提高GPU卷积层的基于FFT的卷积层代码。2017年脸书改编基于非主流语言Lua的深度学习库,升级为使用Python的PyTorch,增强了该框架的易用性。PyTorch具有速度快的特点,可以依托强大的 GPU 加速进行张量计算以及构建和训练神经网络的自动微分机制。此外,PyTorch的灵活度也很高,不同于其他模型需要先定义整个计算图的库,PyTorch 允许动态定义图。
4.微软深度学习工具包CNTK
2016年1月,微软正式开放微软深度学习工具包CNTK,目前已被全球各地的公司和组织用于神经网络的创建和训练。相比于其他主流框架,CNTK具有优秀的交互能力和语音及图像识别速度,在智能语音语义领域优势明显。该框架对C++和Python具有良好的兼容性,可以帮助开发者更快上手。此外,开发者可以利用CNTK强大的可拓展性在多台计算机上进行GPU的拓展。微软本身也将其利用在自己的Windows平台和Cortana机器人上。
5.DMLC深度学习框架MXNet
MXNet作为亚马逊公司官方选择的深度学习框架,是一个非常全面的框架,具有高度的兼容性和灵活性。对比重视灵活性的其他框架,MXNet整合不同编程模型并执行调度,向用户开放全面的神经网络模块。可支持C++、Python、R、Julia、Scala、Javascript、Matlab、Go等多种语言,包含众多模型算法,同时支持命令和符号编程模型。此外,MXNet可以实现从云端到客户端的移植,可以在各种不同结构的CPU、GPU甚至是移动智能手机上运行。
6.百度深度学习框架PaddlePaddle
PaddlePaddle是由百度开发的我国首个自主研发开源的深度学习软件框架,易用性强并支持工业级应用。该框架支持CPU以及GPU多机多卡并行,高效灵活,功能全面,并能通过对现成算法的封装、使用,直接应用成熟稳定的模型来进行训练。同时,PaddlePaddle的工业性能强,有力地支撑海量数据处理的应用场景和上亿级别的模型参数,利于运行大规模模型。该框架还具有独特的中文支持特点,可以直接应用于函数模型,易于本土使用者上手。
众多的热门深度学习平台主要以C++和Python为基础语言开发实现。从网络和模型能力的角度来看,Theano、Torch、TensorFlow三者的支持性非常好,更占优势;从模型部署来看,Caffe是基于C++的,因此可以在多种设备上编译,具有跨平台性,在部署方面是最佳选择,Torch的模型运行需要LuaJIT的支持,对集成造成了很大的障碍,使它的吸引力不如Caffe、CNTK、TensorFlow等直接支持C++的框架;从运行速度来看,在单GPU的场景下,Caffe、CNTK、Torch简单快速,TensorFlow和Theano较慢,在多GPU场景下,CNTK相较于其他的深度学习工具包表现更好,它实现了1-bit SGD和自适应的minibatching;从架构层面看,TensorFlow和Torch的架构非常清晰,采用模块化设计,支持多种前端和执行平台,Theano的架构比较弱,它的整个代码库都是Python的,且C/CUDA代码也被打包为Python字符串,这使它难以导航、调试、重构和维护;从跨平台的角度来看,Caffe、CNTK、Theano都能在所有的系统上运行,而TensorFlow、Torch、PaddlePaddle则不支持Windows。
表4.3 国内外主流深度学习开源框架
平台名称 | Caffe/Caffe2 | Torch | Theano | TensorFlow | MXNet | CNTK | Paddle- Paddle | Keras | Deep- Learning4J | PyTorch |
公司 | 加利福尼亚大学/脸书 | 脸书 | 蒙特利尔大学 | 谷歌 | DMLC | 微软 | 百度 | fchollet | DeepLearning4J | 脸书 |
主语言 | C++ | Lua | Python | C++ | C++ | C/C++ | C++ | Python | Java | Python |
从语言 | Python,Matlab | — | — | Python | Python,R,Julia,Scala,Javascript,Matlab,Go | Python,C# | Python | — | Scala | — |
硬件 | CPU,GPU | CPU,GPU, | CPU,GPU | CPU,GPUmobile | CPU,GPUmobile | CPU,GPU | CPU,GPU | CPU,GPU | CPU,GPU | CPU,GPU,FPGA |
FPGA | ||||||||||
速度 | 快 | 快 | 中等 | 中等 | 快 | 快 | 快 | 快 | 快 | 快 |
灵活性 | 一般 | 好 | 好 | 好 | 好 | 好 | 好 | 好 | 好 | 好 |
操作系统 | 所有系统 | Linux | 所有系统 | 所有系统 | 所有系统 | 所有系统 | Linux | 所有系统 | 所有系统 | 所有系统 |
OSX | OSX | |||||||||
同生态推断软件框架 | Caffe2 go | — | — | TensorFlow-Lite | — | — | Paddle-mobile | — | — | — |
推理框架移动端操作系统 | Android | — | — | Android | — | — | Android | — | — | — |
iOS | — | — | iOS | — | — | iOS | — | — | — | |
Github上Star的分数 | 26727 | 8169 | 8640 | 118002 | 15948 | 15644 | 7972 | 37136 | 10147 | 23546 |
处理端 | 云端 | 云端 | 云端 | 云端 | 云端 | 云端 | 云端 | 云端 | 云端 | 云端移动端 |
移动端 | 移动端 | 移动端 | 移动端 | 移动端 | 移动端 | |||||
资料来源:国家工业信息安全发展研究中心整理。 |
第五章 应用技术水平提升推动人工智能走向实用
一、 计算机视觉技术率先突破并逐步落地
计算机视觉是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学),生物学(神经科学)和心理学(认知科学)等。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术的具体表现形式是图像分类、目标识别、目标检测、目标跟踪、行为分析、语义分割和实例分割等。其中,图像分类和目标检测是计算机视觉研究中的基本问题,也是图像分割、目标识别、目标跟踪等更高层视觉任务的基础。截至目前,图像分类、目标识别和目标检测技术在数据集上表现良好,取得了一定的突破。
1.2018年是计算机视觉技术大爆发的一年
多项技术逐渐取得突破。谷歌、微软、百度、阿里、旷视科技、商汤科技、腾讯等各大企业都致力于计算机视觉的研发以及产业化落地。谷歌提出BigGAN大规模生成对抗网络,该网络通过引入正交正则化极大地提高了GAN的性能,能够生成具有丰富的背景和纹理的逼真图像。澳大利亚科学家Jeremy Howard 提出Fast.ai,一种新的训练方法,用18分钟在ImageNet上将图像分类模型训练到了93%的准确率,创造了训练速度的新纪录。旷视科技提出了用于语义分割的判别特征网络DFN,有效解决了类内不一致和类内无差别两个问题,提高了复杂的图像和场景的理解力,有助于从根本上推动人工智能技术深度应用于自动驾驶、手机影像、医疗影像等领域。
2.提高训练数据质量及优化计算模型是提升计算机视觉技术的突破口
目前效果最好的计算机视觉技术都依赖深度学习,因此,计算机视觉技术在发展过程中受到一些瓶颈约束。一是大量的训练数据导致无法满足长尾需求,深度学习模型训练在大多数情况下还是以监督学习为主,而监督学习的开展需要大量的人工标注训练样本,这个过程往往会耗费较长的时间,也需要投入大量的人力。二是数据质量的不稳定性带来的不可靠、不准确,以及不公平。深度学习的结果取决于输入的数据质量如何。神经网络中不准确、不完整的输入数据,会导致结果出现很大偏差。比如谷歌图片错把非裔美国人当作猩猩;而微软曾经试着将人工智能放在Twitter上进行学习,几个小时之后,它就变得充满恶意,满口脏话,带有严重种族歧视。三是理论尚不完善,缺乏可解释性。尽管深度学习和深度网络在图像分类、目标识别和目标检测等领域取得了“变革性”成果,但是,将深度学习模型应用于目标检测时还缺乏足够的理论支撑,学习到的模型的可解释性较弱。理论的不完善导致研究时缺乏充分的原理性指导,在设计新的模型时往往只能凭借经验和运气。因此必须进一步完善深度学习理论,为改进模型结构、加速模型训练和提高检测效果等提供指导。四是模型复杂度高,优化困难,计算强度高。神经网络一个重要的优点就是表达能力强,但复杂的模型也给优化带来了很大的困难。模型越复杂,能量面越高低不平,优化过程中极小点就越多。此外,对深度学习来说,输入一个视觉信号,所有的神经元都会进行运算,模型越复杂,计算强度越大,深度学习模型往往需要依赖GPU等硬件来支持。五是目前的深度学习仅仅停留在浅薄的层面模仿人脑行为。正因如此,它有时表现出较低的智能水平。确实,反向传播不是在深度研究大脑、剖析思想构成的过程中发现的。机器像动物一样,在反复试验的过程中学习。它在发展过程中的大多数跃进并未涉及神经科学的新理念;这些进展是数学和工程学多年的技术进步。我们所知道的智能,在无限的未知面前根本不值一提。
3.反馈机制、信息融合和迁移学习成为计算机视觉技术发展的重点方向
虽然计算机视觉技术迅猛发展并且商业落地场景广阔,但要想更加有效解决应用行业的痛点,扩大市场发展空间,还需在以下几个方面开展研究。一是探索具有“反馈机制”的层次化网络。人类视觉系统中的视皮质区自顶向下的反馈连接在数量上远远超过前馈连接。研究者普遍认为这些反馈连接起主要作用,而前馈连接更多是作为定向信息的载体。在反馈神经网络中,信息的处理流向存在回环递归,能够实现联想记忆。而深度学习系统有一个缺点,那就是在用新数据进行训练来微调网络的时候,会破坏原有的记忆能力。网络会“遗忘”过去所学的东西。因此,“反馈机制”将是一个重点研究方向。二是利用多模态信息融合。随着计算机视觉越来越成熟,一些计算机视觉解决不了的问题慢慢就会更多地依赖于多个传感器之间的相互保护和融合。多模态信息融合旨在将多个模态信息整合以得到一致、公共的模型输出,是多模态领域的一个基本问题。多模态信息的融合能获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作。在缺乏标注数据、样本存在大量噪声以及数据收集质量不可靠时,可通过不同模态间的知识迁移提高质量较差模态的性能。这是由于不同模态所包含的信息不尽相同,多模态信息的有效利用可以从一种模态中学到的信息来补充和完善另一种模态数据的训练。其中协同训练、零次学习等问题在视觉分类、音声识别等方面得到广泛的应用。因此,如何挖掘得到尽可能多的模态间的不同信息来促进模型的学习是一个很有价值的研究方向。三是探索迁移学习的算法研究。迁移学习,是将源领域学习到的知识应用到目标领域中。其中,源领域和目标领域的数据遵循不同的分布。例如,ImageNet是目前最大的图像识别数据库,目前已经有很多基于ImageNet数据训练的网络模型。基于迁移学习,可以把ImageNet 或其他大型数据集学习到的网络特征运用于一个图片分类或其他基于图片特征的任务。另外,还可以通过迁移学习把一个通用的用户使用手机的模型迁移到个性化的数据上面。因此,探索迁移算法研究以解决标记数据量不足和个性化问题,是一个重要研究方向。
二、 自然语言处理技术在探索中稳步发展
1.深度学习算法推动自然语言处理技术快速发展
自然语言处理技术(Natural Language Processing,NLP),是指用计算机对自然语言的形、音、义等信息进行处理。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次,可以更好地体现语言本身的构成,五个层次分别是语音分析、词法分析、句法分析、语义分析和语用分析(见图5.1)。
图5.1 自然语言理解层次
RNN、GRU、LSTM等算法模型推动自然语言处理技术落地应用。从2008年起,国内外研究团队逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到嵌入式词向量word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。循环神经网络(RNN)是自然语言处理最常用的方法之一,门控循环单元(GRU)、长短期记忆网络模型(LSTM)等模型相继引发了一轮又一轮的热潮。近年来,我国自然语言处理研究进入了高速发展期,一系列系统开始了大规模的商品化进程,自然语言处理在研究内容和应用领域上不断创新。目前自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类研究的重点。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。目前,自然语言处理的主流技术已经逐渐由以统计机器学习为主向以深度学习为主的模型算法转变。以往统计机器学习算法的性能主要依赖两个因素:一是针对不同任务的统计模型和优化方法,二是相应的大规模语料库。近几年得益于神经网络模型算法的快速进展和大规模新闻、社交、购物等文本数据、语音数据或者视频数据的不断积累,自然语言处理技术实现飞跃式的进步。诸如谷歌、微软、腾讯、百度等各大人工智能企业都致力于解决文本挖掘、机器翻译、语义理解、情感分析、智能交互等领域的问题,持续不断地对原有产品的算法、模型进行优化与革新。2018年,谷歌团队开发了一项名为MnasNet的技术,该技术是一种自动化神经网络架构搜索方法,通过增强学习设计移动化机器学习模型;同年,谷歌AI团队发布的BERT模型在机器阅读理解顶级水平测试SQuAD1.1中表现突出,全部两个衡量指标上全面超越人类,并且在11种不同自然语言处理测试中创出最佳成绩。Facebook团队研发了一种机器翻译的新方法,该方法只需要使用单一语言语料库,就能解决缺乏资料语言的问题;同年,Facebook的人工智能研究小组开发了一项新技术,能将人工智能模型运行效率提升16%,大大提高了人工智能模型的训练速度,并简化模型的量化和运行。百度发布了Deep Voice 3,该系统是一项基于单调注意力机制、完全卷积的文字语音转换神经系统,比目前的循环系统在神经语音合成方面快几个数量级。
2.自然语言处理技术发展面临可用数据缺乏及语义约束不完善的问题
目前自然语言处理技术发展主要有两大瓶颈,一是大规模语料数据的建设,主流的自然语言处理技术是以统计机器学习为基础的,这需要大规模的语料库。大规模语料库需要人工构建,费时又费力;任何语料库无论大小类型,都难以囊括某个领域的全部案例,同时,语料库的标注体系往往难以把握,训练出来的模型健壮性差;同时还需要从模型和算法方面去研究如何利用大量的无人工标注或部分标注的数据。二是语义分析的进一步完善,目前业界常用的语义分析方法主要基于知识或语义学以及统计学,第一种方法无法覆盖全部语言现象,推理过程复杂,无法处理不确定性事件,规则间的相容性和适用层次范围存在缺陷和限制;第二种方法则过多地依赖于大规模语料库的支持,性能取决于语料库的优劣,易受数据稀疏和数据噪声的干扰。
3.未来自然语言处理技术需注重深度学习模型优化
自然语言处理技术的发展受到诸多因素的影响,主要有数字化数据的激增、智能设备功能的不断成长以及人们对顾客体验越来越高的要求。自然语言处理技术要想在人工智能领域生存下去并有机会在竞争中胜出,还需在以下几个方面开展重点研究。一是深度学习模型在更多自然语言处理任务上的定制化应用。例如将过去统计机器翻译的成熟成果迁移到神经网络模型上,基于深度学习的情感分析。二是带有隐变量的神经网络模型。很多自然语言处理任务传统主要基于隐马尔科夫模型(Hidden Markov Model,HMM)、条件随机场算法(Conditional Random Field Algorithm,CRF)方法对标注标签的关联关系建模,而单纯的神经网络模型并不具备这个能力,因此一个关键点将是在神经网络模型中引入隐变量,增强神经网络的建模能力。三是注意力机制的广泛应用。大量工作已经证明注意力机制在文本产生中的重要性,未来各种带有注意力机制的神经网络模型将成为主流。
三、 智能语音从技术到产品落地艰难前行
智能语音技术,是用于实现人机语言通信的技术,主要包括语音识别技术(ASR)和语音合成技术(TTS)。语音识别技术其目标是将人类的语音转换为文字作为计算机的输入,语音识别技术的应用包括呼叫中心、语音导航、智能家居、语音搜索、语音助手、智能客服、语音转录和语音输入法等。语音合成技术是将计算机自己产生的或外部输入的文字信息转变为可以听懂的、自然的语音输出的技术。
1.语音识别技术多采用统计模式识别系统
经典的语音识别系统的基本模块构成主要有信号处理及特征提取模块、声学模型、发音词典、语言模型、解码器等。随着人工智能技术快速发展,语音识别技术已达到端到端的语音识别系统,同时语音识别技术开始被广泛关注,国外的谷歌、IBM、微软、亚马逊、苹果、Nuance,国内的科大讯飞、百度、阿里、思必驰、搜狗、云知声等企业都在研发语音识别新技术和新产品,我国语音识别技术的研究水平已经基本上与国外同步,同时在汉语语音识别技术上拥有自己的特点与优势,已达到国际先进水平。剑桥大学、伯克利大学、斯坦福大学等机构的语音识别系统的性能在某些方面已经明显优于传统的隐马尔科夫模型(Hidden Markov Model,HMM)系统。中科院自动化所针对语音识别系统在噪声环境下识别性能下降的问题,提出了用深度对抗和声学模型联合训练的框架,目前已在光学字符识别(OCR)、鲁棒性语音识别和语音增强等领域取得多项优秀成果。2017年8月,微软语音识别系统在公共数据集Switchboard上达到人类专业水平,词错误率由5.9%进一步降低到5.1%,可与专业速记员比肩。2018年,谷歌AI研究团队在Diarization的高性能模式上取得了突破进展,该系统核心算法实现了对于实时应用程序而言足够低的在线分类错误率,错误率由8.8%降低到7.6%。2018年6月讯飞语音识别率从97%提升至98%,讯飞输入法支持扩至23种方言,处于行业领先水平。2019年1月16日,百度推出“AI-新输入全感官输入2.0”输入法,该输入法采用流式截断的多层注意力建模(SMLTA),将在线语音识别精度提升了15%,并在世界范围内首次实现了基于Attention技术的在线语音识别服务大规模在线应用。
2.语音合成技术目前主要采用波形拼接合成和统计参数合成两种方式
波形拼接语音合成需要有足够的高质量发音人录音才能够合成高质量的语音,它在工业界中得到了广泛使用。统计参数语音合成虽然整体合成质量略低,但是在发音人语料规模有限的条件下,优势更为明显。随着深度学习逐渐被运用到语音合成技术中,语音合成技术得到快速发展。国外的英国爱丁堡大学Simon King教授,卡耐基梅隆大学Alan W.Black教授,日本和歌山大学Kawahara教授,谷歌Heiga Zen所在的实验室均为国际顶级实验室;国内中科大、中科院自动化所、中科院声学所、清华大学、西北工业大学等研究机构都在语言学、听觉与发声机理、自然语言分析、深度学习、信号处理等语音合成技术诸多领域开展研究。2016年谷歌提出了WaveNet方案,2017年提出了端到端的Tacotron方案,一直到2018年谷歌提出的Tacotron2方案,将两者进行了融合,形成了目前语音合成领域的标杆性系统。在此过程中,也有DeepVoice、SampleRNN、Char2Wav等很多有价值的研究成果,大大促进了语音合成技术的发展,吸引了越来越多的研究者参与其中。2018年4月,阿里提出了用于语音合成的深度前馈序列记忆网络系统,该系统在达到与基于双向长短时记忆单元的语音合成系统一致的主观听感的同时,模型大小只有后者的1/4,且合成速度是后者的4倍,非常适合于对内存占用和计算效率非常敏感的端上产品环境。2018年6月,百度硅谷人工智能实验室的研究员提出了一种全新的基于WaveNet的并行音频波形端对端生成模型ClariNet,合成速度比起原始的WaveNet提升了数千倍,可达实时合成速度的十倍以上。2018年7月,科大讯飞在Blizzard Challenge国际语音合成大赛中,在相似度、自然度、错误率、段落总体感觉4项测评中获得全能冠军,达到世界领先水平。2018年9月,微软在Ignite大会上推出新的神经文本—语音合成(TTS)技术,该技术利用深度神经网络,使计算机合成的声音几乎与真人的录音无异,使微软在文本到语音合成方面达到了一个新的里程碑。
3.智能语音技术发展仍面临人机互融难题
随着人工智能的快速发展,智能语音技术在快速发展的过程中难免遇到诸多技术瓶颈。语音识别技术面临的难点主要为:一是语音识别系统对环境敏感,当测试数据与训练数据不匹配时,系统性能下降比较明显;二是远场语音识别,当人离麦克风超过2米时,识别率急剧下降,如何运用波束形成与语音增强技术提高远场语音识别技术是目前的挑战;三是当存在多个人说话时,即鸡尾酒会场景,很难识别出特定说话人的语音内容。语音合成技术面临的难点主要为:一是基础技术形成,目前语音合成技术正处于重大变革过程中,端到端的语音合成建模方法,以及进一步解决WaveNet 的声码器等问题成为亟待解决的问题;二是数据缺乏,特别是个性化语音合成技术,需要巨大的数据量,同时数据的获取(制作)成本和周期也增加了技术难度。
4.智能语音技术未来发展注重市场需求
随着人工智能市场需求的不断变化,加上深度学习与智能语音技术的结合,未来智能语音技术重点研发方向也将更加明朗。语音识别技术未来重点研发方向:一是增强系统的鲁棒性;二是解决远场语音识别准确率低的难题;三是有效解决鸡尾酒会问题,有效地对语音进行分离,为语音识别提供基础保障。语音合成技术未来重点研发方向:一是不同语音风格的语音技术合成;二是情感语音技术合成,在端到端建模的基础上做自适应有助于提升情感语音合成效果;三是降低端到端的WaveNet计算量,目前只有谷歌在此方面做了并行化,其他机构研究相对较少。