大数据促进服务业发展研究
目 录
大数据促进服务业发展研究
大数据(big data)概念的起源可以追溯到20世纪40年代。当时,图书情报学界、自然科学界、计算机学界、统计学界对“信息爆炸”现象讨论较多。20世纪70年代,伴随计算机技术的迅猛发展,信息大多以数字形式被存储和处理,大量数据成为当时的热点问题之一,针对大量数据处理分析的研究也快速升温。20世纪90年代开始,大数据作为专有名词出现在学术论文中,基础理论出现了重大突破,相关技术也不断创新,大数据价值逐渐被业界发现。
随着大数据理论和技术的成熟,创新重点从理论创新、技术创新转移到应用创新上,而应用创新的落地又要与具体行业领域的需求特点相结合。尤其是在信息化程度较高的服务行业,如零售、金融、医疗、教育等,大量数据的出现不得不让人们花费巨大成本来解决大数据问题,而对大数据的开发利用又会在这些行业领域中创造出新的市场需求和新的商业模式,从而推动行业自身的转型与发展。
一、大数据技术、市场和投资发展态势
2011年上半年,以国际数据公司(IDC)和麦肯锡全球研究院(MGI)为主导的美国咨询公司发布了两个关于大数据的前瞻性研究报告。其中,由美国易安信公司(EMC)赞助的题为“从混乱中挖掘价值”的IDC“数字宇宙”研究结果表明,2011年的信息创造和复制总量超过了1.8ZB,在短短5年内增长了9倍。而MGI的报告《大数据:创新、竞争和生产力的下一个新领域》认为,如今的数据时时刻刻都在源源不断地渗入全球经济发展的各个方面,并且预测了大数据中蕴藏的巨大价值。2012年,《大数据时代:生活、工作与思维的大变革》一书详细揭示了大数据的理念和本质。大数据开始成为全球研究热点。
(一)大数据处于炒作热期
根据Gartner在2013年的研究,大数据已经快速发展,进入到了过热期顶端(图1)。近几年企业级市场围绕大数据的炒作不断升温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的挑战,大数据的核心问题还是取决于数据挖掘背后所能产生的价值。在经历了一段热潮之后,大数据的概念可能转向低谷期,开始实实在在地为企业解决问题。
图1 2013年Gartner新兴信息技术炒作曲线图
资料来源:Gartner,2013
从2012年开始,Gartner针对大数据领域发布了“大数据炒作曲线”(Hyper Cycle for Big Data)报告,在炒作曲线图和优先矩阵中详细列出了大数据相关技术所处的炒作阶段和进入主流应用的时间周期。2013年,Gartner更新了“大数据炒作曲线”报告。该报告指出,大量的技术点集中在顶峰,表明这些主题的关注度很高;有些技术正在慢慢上升,例如图数据库、电子商务大数据分析等;其他如内存数据网格、云并行处理等技术正步入低谷。(图2)。从大数据优先矩阵中也可以看到,改造力量较强的内存分析和预测分析技术预期在2年内进入主流应用,而同样具有变革力的物联网和数据科学需要大于10年才进入主流应用(图3)。
图2 2013年Gartner大数据炒作曲线图
资料来源:Gartner,2013
云计算 内容丰富型服务① 内存数据库管理系统 |
信息价值和信息学物联网 |
复杂事件处理 内容分析 图数据库 信息能力框架 车联网 |
不少于2年 2-5年 5-10年 10年以上
变革的
内存分析 预测分析 |
高性能信息基础设施 逻辑数据仓库 智能化操作平台 基于数据挖掘工具的搜索 |
数据科学 |
云并行处理 基于云的网格计算 Hadoop SQL界面 内存数据网络 意向驱动客户系统 量化自我 销售分析 社会分析 文本分析 |
高
社会媒体监控 |
电子商务大数据分析 动态数据脱敏 信息语义服务② 视频搜索 |
数据库软件即服务 文件存储的数据库管理系统 Hadoop分布 智能电子设备 键值数据库管理系统 语音识别 表式数据库管理系统 |
中
低
图3 2011年Gartner大数据优先矩阵
说明:①内容丰富型服务(Context-Enriched Servieces),指利用位置(location)、社会局势(social situation)、附近的人(people nearby)和用户简介(user profile)等信息及智能手机提供的服务。
②动态信息脱敏(Dynamic Data Masking),指阻止或“脱敏”敏感或机密信息的技术。
资料来源:Gartner,2013
(二)大数据市场快速增长
由于对大数据产品、服务的界定不同,目前业界对大数据市场规模的预期有些差异,但总体都认为大数据市场将快速增长。
据MarketsandMarkets公司2013年发布的报告预测,全球大数据市场规模将从2013年的148.7亿美元增长到2018年的463.4亿美元,年均复合增长率达26%。该公司这份研究报告称,推动全球大数据市场发展的主要动力在于企业持续升级业务流程,改进运营效率。而另一个关键因素则是非结构化数据的快速增长,企业需要基于这些数据的预测性分析服务。在这一持续增长的市场中,提供硬件和软件IT解决方案的公司将有竞争优势。这些公司能为企业用户提供复杂的分析解决方案和数据管理平台。该报告研究认为,在咨询、集成和部署业务中,服务业务仍是其中最大的一部分。此外,以营收贡献来看,北美仍是最大的市场,而亚太、中东、非洲和拉美等新兴经济体将有着更高的年复合增长率。报告预计,发展中经济体的大数据市场将加速发展,这将进一步推动整个市场的增长。
2013年国际数据公司(IDC)也发布了相关研究报告,预计2017年大数据市场规模将达324亿美元,年复合增长率为27%。其中增长最快的市场领域是云计算基础设施,年复合增长率高达49%。与IDC在2012年的预测相比,大数据市场增速减少了4.7%,而IDC当时预测大数据市场增长最快的领域是存储,增长率为53.4%。
另外,还有根据Wikibon2013年3月发布的大数据市场报告,2012年大数据市场总体规模为113亿美元,报告还预测大数据市场2013年总体规模将增长61%至180亿美元,到2017年大数据市场规模有望达到500亿美元,这意味着未来五年大数据市场的年均复合增长率将高达31%。
(三)大数据投资倾向服务领域
据Gartner另一份调查研究报告所示,2013年在大数据领域的投资比2012年有所增长,有64%的企业投资或计划投资于大数据,而2012年同期只有58%。在这64%企业中,有30%的企业已经投资于大数据,有19%的企业计划在未来一年内投资,另外有15%的企业计划在两年内投资(图4)。
2012年投资或计划n=473 2013年投资或计划n=720
图4 2012-2013年机构对大数据的投资意向调研情况
资料来源:Gartner,2013
该调查研究还显示,2013年大数据投资倾向度较高的领域为媒体/通信、银行、服务等,而制造业则排在第六;在未来两年计划投资倾向度最高的领域是运输,医疗和保险紧随其后(图5)。
图5 2013年机构在各领域中对大数据的投资意向调研情况
说明:n为调查的机构数量
资料来源:Gartner,2013
从投资地域来看,北美地区有着较大的领先优势,而亚洲/太平洋地区在未来两年内投资的趋向十分明显。欧洲、中东、非洲和拉美无投资计划的比例较大,大数据技术的应用可能会稍有滞后(图6)。
图6 2013年机构在各地区对大数据的投资意向调研情况
资料来源:Gartner,2013
二、大数据企业布局服务业应用动态
就大数据的创新态势来看,产业端的创新要超前于基础理论领域。正是由于领先企业对大数据关键技术的深入研究,才形成了当前以企业为主体的大数据创新生态圈。这些企业不仅推出大数据技术支撑的各种服务,也通过在多个服务业领域中开发相关大数据应用,挖掘大数据技术下的新商业模式、服务方式和管理基础,对传统服务业进行改造和升级。
(一)领先企业开发多种大数据产品与服务
1.IBM创立大数据行业解决方案
IBM是跨大数据全产业链的巨型企业,其业务范围涵盖了大数据采集、存储、管理、分析到应用的几乎所有过程。IBM正在成为大数据产品和服务领先的提供商。
IBM自1990年代就推行可扩展并行系统,应用于天气预报等行业。1997年,IBM开发了“深蓝”计算机,使用大规模并行处理技术。2000年,IBM接受Linux并投资推进它,成为了面向Hadoop底层操作系统。2004年,IBM推广“蓝色基因”超级计算机架构,广泛应用在人类基因组测绘、医学疗法调查、气候趋势预测等领域。早在大数据概念进入媒体视野之前,IBM就提出“智慧地球”的说法,其核心是把“智慧”嵌入系统和流程之中,使服务的交付、产品开发、制造、采购和销售得以实现,使亿万人生活和工作的方式变得更加智慧。大数据的兴起正好为IBM提供了一种新的实现途径。
近年来,IBM先后投资了SPSS,Clarity,OpenPages,i2,Algorithmics等公司用以开发其商业分析解决方案,为客户提供预知判决、防范诈骗、风险和威胁的能力。此外,IBM雇佣了近9000名具有专业行业知识的资深分析咨询师,建立起了由8个全球分析解决方案中心链接起来的网络。目前,IBM的大数据平台包括基于Hadoop的分析、流计算、数据仓库、整合、可视化、系统管理、治理、咨询服务及业务伙伴应用多个方面,提供软件、硬件和行业解决方案在内的各种服务(表1)。
表1 IBM大数据主要产品和服务
功能 | 产品 | 服务 | 行业解决方案 |
•基于Hadoop的分析 •数据仓库 •信息整合和治理 | •InfoSphere Streams:支持连续分析海量的流数据,响应时间可达到亚毫秒级 •InfoSphere BigInsights:为管理和分析海量的结构化数据和非结构化数据提供了一个企业级的基于Apache Hadoop的解决方案 •IBM Netezza数据仓库设备:高性能的数据仓库设备,使对不断激增的数据量的高级分析变得更简单、更快速且更易于访问 •IBM InfoSphere Warehouse:提供了一个综合性的数据仓库平台,支持实时访问结构化和非结构化的信息 •IBM Smart Analytics:提供了一个集数据管理、硬件、软件和服务于一体的产品组合,其能够模块化地交付各种各样的业务变更分析 •InfoSphere Information Server:了解、清洗、转换和交付可信信息,将大数据整合进入其他的IT系统 | 云计算服务、数据中心服务等各种IT服务 | •政府:利用分析提高公共部门的能力 •银行:整合管理平台,规避欺诈风险 •电信:业务分析 •制造业:设备预测维护 •保险业:客户交互 •零售业:绩效分析 •医疗业:分析患者数据 •能源业:核电内容管理 •跨行业解决方案:企业协调BI系统 |
资料来源:IBM网站,上海科学技术情报研究所(ISTIS)分析整理
2.亚马逊提供大数据基础设施服务
从2013年开始,不断有市场分析师和新闻评论家称亚马逊(Amazon.com, Inc.)并不仅是一家商务公司,而是一家大数据公司。究其根本在于:亚马逊开发出的云基础设施处于盈利状态,可以资助零售业务的运营;它拥有的移动设备和内容可以通过用户网络进行传播。连接亚马逊在线零售、云服务和平板电脑业务的共同要素就是数据。对亚马逊而言,硬件并不重要。它的目标并不在于通过出售时髦消费电子产品和昂贵设备获利。通过效率,亚马逊能够在零售、出版和企业服务领域进行尝试。
亚马逊主要推出了亚马逊网络服务系统(Amazon Web Services,AWS)上的大数据,通过数据推动创新。亚马逊提供适用于数据收集、存储、集成、分析与写作的可扩展性服务。除了在过去三年里一直提供的在线分析引擎Elastic MapReduce服务(Elastic MapReduce是一种Web服务,使企业、研究人员、数据分析师和开发人员能够轻松、经济实惠地处理大量数据),AWS在2012年还新增了两项大数据服务:Amazon DynamoDB和RedShift。Amazon DynamoDB是完全托管的高性能NoSQL数据库服务,易于设置、运行和扩展。这是一项亚马逊从2007年就开始部署的服务。RedShift则是一个在线的数据存储库,是AWS在re:Invent大会上推出的产品。AWS会直接连到企业的数据中心,企业可以通过AWS服务,运行一些关键任务应用,同时AWS也将继续同SAP等企业合作,给企业提供商用软件。
3.谷歌开发大量数据资源
谷歌公司的大数据业务布局基本分为3个层次:数据中心、查询与挖掘、企业应用。目前谷歌公司在全球大约拥有30多个数据中心,其主要的产品和服务涉及了网络搜索、移动搜索、媒体与视频搜索、地图、专业搜索、云办公、社交媒体以及各种企业解决,其中最富有特色的是谷歌开发了大量的开源技术和项目,并构建了“谷歌开发者”(Google Developers)网站专门提供开放源代码项目托管服务(表2)。
表2 谷歌公司主要产品和服务
功能 | Google产品 | 企业解决方案 |
•搜索引擎 •网络应用 •手机系统 •广告产品
| •Google网页搜索:搜索数10亿网页 •Google Chrome浏览器:高速、简约、安全的浏览器 •移动:通过手机使用Google产品 •Google图片搜索:在网络上搜索图片 •新闻:搜索数以千计的新闻报道 •Google文档:创建和分享在线文档、演示文稿和电子表格 •Google翻译:将文本、网页和文件在50多种语言之间进行即时互译 •网上论坛:创建邮寄名单和网上论坛 •博客搜索:查找有关您喜爱的主题的博客 •学术搜索:搜索学术论文 •Google快讯:订阅所选主题的电子邮件动态更新 Google代码:开发者工具、API和资源 | •Google Adwords:在Google上为企业做广告 •Google Analytics:企业级的网站分析服务 •Google Apps:基于云的生产套件,可帮助团队随时随地使用任意设备沟通联系并完成工作
|
资料来源:Google网站,上海科学技术情报研究所(ISTIS)分析整理
(二)初创型企业凸显行业竞争力
1.Rocket Fuel——用数据投放广告
Rocket Fuel于2009年成立,它的盈利模式为:从广告网络交易所(adnetwork exchange)中购买网络广告展示位置(impression),然后以更高的价格将其出售给客户,而客户则是出于更精准的广告投放效果为这部分差价买单。具体说来,Rocket Fuel集社交、行为、搜索等各类定向数据于一体,来判定用户最感兴趣的广告。在其算法中考虑到了网民的多种因素,例如上网习惯、地理位置、时间段等。在人工智能、预测模型和数据驱动瞄准等技术的合力协助下,改进广告瞄准能力。正因为此,成立第一年,Rocket Fuel就吸引了耐克、微软、戴尔和美国运通等知名公司,覆盖4000万网民,每月推送广告约1亿次。
Rocket Fuel正是时下最流行的需求方平台(demand side platform, DSP)代表性公司。这类新兴公司的诞生和壮大背后,是互联网展示广告模式的不断演进。从最开始的门户媒体直接联系广告主出售广告位,到4A公司等广告代理机构通过中间平台进行交易,再到将所有潜在的广告位、价格、排期整体放在广告交易平台上,而广告主可通过DSP平台,筛选合意的受众和广告曝光机会。并实现自动购买(又称程序化购买),而自动化购买又分实时竞价模式(real-time bidding,RTB)和非实时竞价模式,并以RTB为主流。
尽管这家成立3年多的广告公司目前尚未实现盈利,但已于2013年在美国纳斯达克上市,上市前该公司获得7660万美元融资,而截至2013年11月其市值已超过15亿美元。如今该公司每天平均处理品牌广告展示15亿次,相当于刚成立时1年的推送总量。同时,Rocket Fuel的营收也成倍攀升——2010年时公司营收1650万美元,2011年4470万美元,2012年则为1.06亿美元,年均复合增长高达154%。
2.Splunk——用数据管理网络
Splunk成立于2003年,总部位于美国旧金山,在全球各地设有8个办事处,拥有500多名员工。Splunk软件可用于各种平台的IT数据、日志分析,支持的作业平台包含Windows,Linux,Solaris,FreeBSD,AIX,MacOS,HP-UX。与Google Analytics这一类的Web日志分析软件的不同之处在于,Splunk可以支持任何IT设备(服务器、网络设备、应用程序、数据库等)所产生的日志,其对日志进行处理的方式是进行高效索引之后让管理员可以对日志中出现的各种情况进行搜索,并且通过非常好的图形化的方式展现出来。
Splunk的业务迎合了大数据时代企业对数据应用的需求。面对日益爆炸式增长的数据,企业需要能够对大数据进行处理,挖掘其中的潜在价值,以便能够有效地进行应用管理、IT运营管理,增强整个公司与组织的洞察力。Splunk的客户主要是财富100强公司,目前有来自75个国家3700多个客户在使用Splunk的产品和服务,客户所在的行业覆盖了教育行业,如哈佛大学、纽约大学;金融服务行业,如美国银行、JP摩根;零售行业,如Freshdirect、梅西百货;高科技行业,如思科、摩托罗拉。
Splunk在2012年4月IPO上市,最初股价为17美元,在上市首日股价就翻了一番,现在股价比IPO价格高出450%。
3.Flatiron Health——用数据治疗癌症
2012年,Flatiron Health成立于纽约,其主要业务是开发能够从多种渠道收集病患临床记录、医生诊断记录、缴费记录和基因组等数据的软件,这些数据可以在整合后帮助肿瘤医生更好地做出临床诊断。因此在具体诊断的时候,医生就可以根据Flatiron平台所收集的数据和参考其他病患的临床表现做出决定。当然,隐私也同样是Flatiron在打造这一平台时的重要考虑因素,所以医生在查阅这些临床数据的时候不会知道病患的具体信息。现在有约1000名肿瘤学家正在使用Flatiron Heath的数据。
2014年5月,Flatiron Health获得了谷歌风投(Google Ventures)1.3亿美元的投资,这是迄今为止谷歌风投在医疗保健领域最大一笔投资。早期风险投资公司First Round Capital、临床实验室服务提供商Laboratory Corporation of America Holdings以及其他一些天使投资人同样参与了此次融资。而该公司的创始人Nathaniel Turner表示,他们会利用这笔投资收购肿瘤医疗记录的云端服务Alto Solutions。经过收购和整合,医生能够随时随地调用Flatiron的数据库进行分析,并且能够完善病患的电子医疗记录,丰富数据库。
4.Kaggle——用数据开展竞赛
Kaggle是一家位于美国旧金山的初创企业,提供一个大数据分析的众包平台,于2010年启动,并于2011年11月获得了1100万美元的风险投资。当前,Kaggle的在线社区拥有近11万名数据科学家。Kaggle的运作模式是,合作公司或机构提交一些相关数据到Kaggle平台,进而提出问题,平台上来自世界各地的计算机科学家和数学家,即数据科学家,将领取任务,通过竞赛产生最好的模型并获得大奖(奖金由那些提出问题的公司提供),而且有机会提供咨询服务,而合作公司或机构将最终拥有数据分析的结果、模型等知识产权。换句话说,Kaggle在数据问题和数据解决方案架起了一座桥梁。Kaggle在组织这些竞赛时会向企业收取费用,对于参赛的数据科学家是免费的,但会对每位数据科学家的贡献进行排名。此外,Kaggle还投资于基础设施建设,借此向企业或机构客户提供安全的数据托管服务。
到目前为止Kaggle已经做出了许多突破性成功,包括帮助改进了微软Kinect体感产品。在Kaggle的客户名单上,GE、Facebook、福特等赫然在列,甚至包括美国宇航局(NASA),当然它也服务规模较小的企业,帮助客户解决所有的数据科学问题,例如提高销售预测、客户细分、留住客户、优化定价等等。
Kaggle不仅仅是一个大数据分析的众包平台,而是创造了一个全新的劳动力市场和评价体系。对于那些希望利用大数据分析改进业务的企业来说,Kaggle的大数据分析的众包模式,正好解决了两大难题:人才和想法。
5.Inrix——用数据治理交通
Inrix于2004年创立,该公司试图为全球解决交通拥堵这个世纪性难题,其同名交通智能化平台为全世界解决交通问题带来智能数据和先进的分析方法。通过横跨全世界32个国家的5个行业,Inrix从将近1亿台车辆和设备中收集实时数据资源,洞察交通与驾驶相关信息以及提供复杂的分析工具与服务。当用户打开手机上的lnrix软件时,该软件就会显示出用户所处位置附近的道路交通地图信息,并会以图标方式标注用户所在的具体位置。Inrix可以为用户清晰地标识出附近的道路状况,使用绿、黄、红3种颜色显示出附近的事故和施工路段情况,用户就能够提前选择更加通畅的道路通行。
Inrix有近1亿台车辆和设备来收集实时数据资源,而这1亿的用户实际上也充当了Inrix传感器的角色。通过规模的出租车、运输车、卡车等资源,Inrix收集每个用户的实时信息,包括他们现时在哪里,准备要到哪里去,他们的行进速度如何等等,数据分析组合后再向用户提供实时的路况信息,当中包括了理想的交通路线指引、行驶时间预计、路况提醒以及其他实时的应用等等。
Inrix预判交通信息的功能不仅给个人用户带来便捷的出行方式,还为房地产带来了更多的商机。美国西部地区最大房地产公司Windermere已经率先与Inrix公司合作发布了一款新软件Inrix Drive Time,有了这款软件,他们就能为每一个购房者提供最合理最经济的购房选择。Inrix Drive Time依靠的是Inrix交通智能平台提供的实时交通信息,它能给购房顾客最精准的购房数据:实时交通信息每1分钟更新一次,每90天就能分析和编译成一个历史数据库。Windermere房地产公司利用这些数据为每位顾客的生活需求进行数据分析,通过推荐最佳的住房选择来提高成交率。
(三)国内BAT三巨头谋划大数据战略
BAT是百度(Baidu)、阿里巴巴(Alibaba)和腾讯(Tencent)3家企业的英文名称首字母组合,代表了国内互联网行业的领先水平。近几年,BAT已把大数据升级为公司战略。但是,如果略作比较,这3家企业还是存在很大差异(表3)。这不仅与公司拥有的数据性质有关,也与技术基因、战略优先级和生态系统能力有关。
表3 BAT大数据对比
公司 | 数据 | 技术 | 人才 | 方向 |
百度 | 公共数据 需求数据 | 数据聚合、语义理解、深度学习 | 高价+用心网络相关领域高端人才 | 注重研究与实用性结合,仍然围绕搜索 |
阿里巴巴 | 电商数据 信用数据 | 底层系统、并发处理 | 系统级别人才,例如Linus Kernal、数据库、服务器 | 完善底层系统,做分享平台 |
腾讯 | 关系数据 社交数据 | 非技术优先、执行力强、封闭开发、集体加班、重金激励 | 很早便挖人,不过都走了。缺技术带头人。但技术执行力强,同时注重高校合作 | 现将产品补全,形成稳点生态圈。面向产品的挖掘 |
资料来源:http://www.pc841.com/article/20130531-14001.html
1.百度——搜索数据
搜索巨头百度围绕数据而生。它对网页数据的抓取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,加上精准的搜索引擎关键字广告,这些实质上就是一个数据获取、组织、分析和挖掘的过程。除了网页外,百度还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。百度的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面,百度是聚集国内最多大数据相关领域顶尖人才的公司。总之,百度拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
2.阿里巴巴——电子商务数据
阿里巴巴是电子商务领域的航空母舰,拥有淘宝、支付宝以及天猫3个重量级产品,从而形成了海量用户、大并发量交易、海量货架数据等大数据资源。虽然阿里巴巴现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说都是比较简单的BI(商业智能),没到大数据应用阶段。但是其提出了“数据、金融和平台”战略,前所未有地重视起对数据的收集、挖掘和共享。阿里巴巴的各项投资方案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。然而,阿里巴巴并不是技术驱动,而是业务驱动的。因此在技术层面,阿里巴巴的技术重心主要在系统层面。总之,阿里巴巴更多是在搭建数据的流通、收集和分享的底层架构。
3.腾讯——社交数据
腾讯拥有社交大数据。腾讯大数据目前释放价值更多是改进产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用大数据技术实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。总之,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈,即本阶段先利用大数据挖掘改进自己的产品。后期有了成熟的模式合适的产品,则利用自家的社交及关系数据,开展对大数据的进一步挖掘。
三、主要服务行业大数据应用模式
大数据已成为全球商业界一项优先级很高的战略任务,因为它能够对全球整合经济时代的商务产生深远的影响。大数据在各行各业都有应用,尤其是在互联网、零售、金融、医疗、教育等服务行业具有广阔的应用前景。
(一)互联网行业产生大数据
互联网行业本身就是一个从事与信息收集、开发、利用、生产、存储、传递和营销相关的行业,它为社会经济发展提供有效信息服务,是现阶段国民经济结构的基本组成部分。互联网是大数据应用的核心领域,其主要需求是互联网访问用户数据分析和用户行为数据分析,基于这些进而实现推荐系统、广告追踪、点击流分析等应用。
1.用户数据分析
在Web2.0时代,互联网、移动互联网和电子商务上的用户,大部分是注册用户,互联网企业则拥有了用户的基本资料数据,如用户名、密码、电子邮箱等;社交网络的用户数据则包含更多字段,如昵称、头像、真实姓名、所在地、性别、生日、好友等;移动互联网用户的数据与手机绑定,可以获得手机号、手机通信录等。由于互联网用户数量和用户在线时间的急剧增加,用户在互联网上会留下更多的个人数据,甚至非注册用户也能会通过各种关系被找到相关数据。因而,互联网上的用户数据会越来越完整,而且这些数据的潜在价值和风险也会越来越大。
2.用户行为数据分析
用户行为数据就是用户在网站上发生的所有行为,如搜索、浏览、打分、点评、加入购物车、购买、使用减价券和退货等;甚至包括在第三方网站上的相关行为,如比价、看相关评测、参与讨论、社交媒体上的交流、与好友互动等。
在互联网电子商务领域中,用户行为数据量之大令人难以想象,据专注于电商行业用户行为分析的公司的不完全统计,一个用户在选择一个产品之前,平均要浏览5个网站36个页面,在社会化媒体和搜索引擎上的交互行为也多达数十次。如果把所有可以采集的数据整合并衍生,一个用户的购买可能会受数千个行为维度的影响。正是这些购买前的行为信息,可以深度地反映出潜在客户的购买心理和购买意向。亚马逊通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。
3.基于用户数据和行为数据分析的应用
通过对互联网用户数据和行为数据的分析,可以形成多种应用模式。其中包括:
(1)基于大数据相关性分析的推荐系统
亚马逊、当当网等电子商务企业就根据大量的用户交易行为数据的相关性分析为顾客推荐相关商品。据有关数据显示,亚马逊、当当网等电子商务企业近三分之一的收入来自它的个性化推荐系统。
(2)广告追踪和优化
电子商务网站一般都记录包括每次用户会话中每个页面事件的海量数据。这样就可以在很短的时间内完成一次广告位置、颜色、大小、用词和其他特征的试验。当试验表明广告中的这种特征更改促成了更好的点击行为时,这个更改和优化就可以实时实施。
(3)内容针时性投放
从用户的行为分析中,可以获得用户偏好,如通过微博用户分析,获悉用户在每天的4个时点最为活跃:早起去上班的路上、午饭时间、晚饭时间、睡觉前。掌握了这些用户行为,企业就可以在对应的时间段做某些针对性的内容投放和推广等。
其他基于互联网行业的大数据应用还包括:利用用户购买数据进行产品分析;利用社交网络进行病毒式传播分析;利用位置信息开展与定位追踪相关的服务等。
(二)大数据推动零售业转型
根据ResearchandMarkets公司研究报告预测,2014-2018年零售业的全球大数据市场年增长率为33.14%,该报告认为促成这一市场增长的其中一个主要因素是存储在零售行业中的数据呈指数级增长。过去,数据挖掘在零售业中有较为广泛的应用,主要集中在客户行为分析,通过对客户行为的分析,改善货架商品摆放、产品推荐、产品细分和市场营销等。而近几年在大数据的推动下,零售业新出现了在市场决策、定价决策、零售预测等多方面的应用,甚至还出现了“零售数据货币化”的盈利模式。因而大数据在改造传统零售业上具有广泛市场前景。
1.辅助开店选址
不管是购物中心的开发商,还是零售连锁品牌商,门店选址是一个非常重要的商业决策。日本著名快时尚品牌优衣库(UNIQLO)就利用大数据进行开店选址。优衣库开发了手机APP,但APP中的订单转化率、销售额并不是其考核指标,优衣库注重的是扩大APP安装量,尤其是在未开店地区的用户手机上抢占位置,通过品牌传播,提升曝光率。2014年初,优衣库APP在中国的安装量估计在300万左右。优衣库根据APP用户的位置可以确定活跃账户所在区域的密集度。借用大数据,优衣库直接采集到了其目标客户活动区域,直接、丰富、多样,大幅度降低了开店决策失误的风险。
2.优化产品定价
大数据技术分析电子商务交易的能力令零售商监控其竞争对手的定价策略成为可能,而且可以在短短几秒钟时间里做出回应,有些时候是由电脑算法直接做出决定。在这方面,亚马逊的很多书籍定价都是采用了大数据的定价策略。通过对读者购买电子图书的数量和行为特征的分析,确定不同书籍的价格。其中最值得称赞的是,亚马逊在Kindle商店里,根据读者偏好,将一批价格敏感的书籍在每个特别日子里的定价降至极富市场吸引力价格,从而有效带动了销量。
3.零售数据货币化
由于存储在零售行业中的数据呈指数级增长,零售企业将面临随大数据而来的一系列问题,尤其是海量信息涌入公司造成的压力。处理与管理日积月累的海量数据成本颇高,许多企业开始考虑将数据资产货币化或产品化。据Gartner公司近期研究显示,一些零售商已将销售点与其他相关资料上传到网络向合作伙伴提供付费下载,每年能为公司创造价值百万元的额外收入。
(三)大数据提升金融业服务质量与合规性
据TechNavio预测,2012--2016年金融服务业全球大数据市场年均复合增长率为56.69%。金融行业应用系统的实时性要求很高,积累了非常多的客户交易数据,金融行业大数据应用的目前主要需求是客户行为分析、金融风险分析、投资预测分析等。
1.客户行为分析
大多数金融机构已经开始基于数据挖掘对客户行为进行分析,用于市场营销。例如分析客户刷卡、存取款、电子银行转账等行为数据,给客户发送针对性广告信息。而在大数据时代,有些企业已经开始利用大数据进行产品创新:美国创业公司ZestCash主要业务是给信用记录不好或者没有信用卡历史的人提供个人贷款服务。与FICO拥有15~20个变量的信用评级法相比,ZestCash分析的却是数千个信息线索。例如,如果一个顾客打来电话,说他可能无法完成一次还款,大多数银行会把他视为高风险贷款对象,但是ZestCash经过客户相关数据分析发现,这种顾客其实更有可能全额付款,ZestCash甚至还会考察顾客在提出贷款之前在ZestCash网站上停留的时间。
2.金融风险分析
大数据还有利于金融业的风险控制。当前传统的基于线下的风险管理模式已经不能适应大数据时代的发展需要,开放的互联网环境为金融欺诈提供了便利,未来风险识别与服务的核心将是数据。南非最大的短期保险提供商Santam通过采用大数据、预测分析和风险划分帮助公司识别导致欺诈监测的模式,从收到的索赔中获取大数据,根据预测分析及早发现欺诈,根据已经确定的风险因素评估每个索赔,并且将索赔划分为5个风险类别,将可能的欺诈索赔和更高风险与低风险案例区分开。
3.投资预测分析
金融服务类企业不仅可以通过对大数据的挖掘和分析提高自身的竞争实力、改善用户体验、监督金融欺诈行为、验证合规性,使运营效率最大化,还可以通过大数据对金融市场进行预测,抓住投资先机。例如,华尔街有家名叫“德温特资本市场”的公司利用软件程序分析了全球3.4亿微博账户的留言,用来判断民众的情绪,据此来处理手中的股票。该大数据分析判断认为,人们高兴时会买股票,而焦虑时就会抛售。公司因此在2012年第一季度获得了7%的收益率。
(四)大数据颠覆传统健康医疗模式
健康医疗也是大数据应用的热点。基于电子病历的普及、医疗影像技术的进步、基因研究以及制药工程中对于大型数据库的应用,使拥有大规模复杂性数据集在医疗机构中变得很普遍。医疗行业大数据应用的需求主要来自个人健康管理,新兴基因序列计算和分析以及医疗电子健康档案分析等领域。
1.量化自我——个人健康管理
狭义的量化自我——与人体日常生理活动、状态直接相关的量化和监测过程——通过使用计算机、便携式传感和智能手机应用等技术手段,来追踪和记录运动、睡眠、饮食、心情等个体行为的情况,通过各种数据指标来研究、分析自身。广义而言,量化自我绝不仅限于身体和健康领域,还包括个体的日常生活习惯、行为、认知等。
目前,大数据与可穿戴设备结合的量化自我——个人健康管理应用有很多。例如,美国可穿戴设备生产厂商Fitbit公司所售的一项设备可以跟踪人一天的身体活动,还有晚间的睡眠模式。Fitbit公司还提供一项免费的手机应用程序,可以让用户记录他们的食物和液体摄人量。通过对活动水平和营养摄入的跟踪,用户可以通过数据图表直观地了解自己的营养状况和活动水平,而且该公司还能就可改善的方面提出建议。
2.基因组学测序分析
基因组学是大数据在健康医疗行业最经典的应用。基因测序的成本在不断降低,同时产生着海量数据。DNAnexus,Bina Technology,Appistry,NextBio等公司正通过高级算法和大数据来加速基因序列分析,让发现疾病的过程变得更快、更容易和更便宜。
美国初创公司23andMe公司还利用大数据技术为普通民众提供基因信息分析服务。其服务收费甚至仅为99美元。只需要吐一口唾沫或拔一根头发,邮寄到23andMe公司位于加利福尼亚州山景城的实验室里,两周后就可以从公司网站上查询到结果。23andMe公司宣布,通过全基因组上超过100万个位点的基因信息分析,可以对259种疾病提出患病率的预测和祖先遗传分析,从而提前干预,由此将会给制药业带来巨大的影响。同时,23andMe公司还开放了API,让开发者基于海量用户的基因数据开发创新性的工具和应用。
3.医疗电子健康档案数据分析
通过对大量病人电子健康档案数据的分析,医学研究者能够更有效地找出疾病成因,进而提供有针对性的预防、诊断和治疗措施。例如加拿大多伦多市儿童医院的新生儿重症监护病房目前正在使用大数据分析平台实时处理数据,用来更精准地预测早产儿出现疾病和感染的风险。医院通过电子设备监测、收集和分析早产儿的体温、心率、血氧饱和浓度和血压水平等数据,在病情出现明显的临床症状之前提前预测病症的发生。这一大数据应用除了能挽救早产儿的生命外,还可以缩短平均住院时间。
(五)教育培训行业利用大数据逐步转型
课堂教育的信息化以及在线教育的普及化使得教育培训行业的大数据成为可能。教育培训行业大数据应用模式主要包括适应性学习、个人线上教育以及由大数据分析需求形成的数据科学教育。
1.适应性学习
当前,无论是在线教育还是课堂教育,学生的学习习惯都可以被记录下来进行评估,并且通过评估所得的数据来预测他们将来的学习习惯。在一节给定的课程或是一个课件框架中,适应性学习体系能确定接下来该教给学生什么内容,或者判定学生哪些地方还没有完全明白。它还能让学生们亲眼看到,他们在学习这些内容时是如何进步的,或是他们对这些内容掌握了多少。
在线教育服务Knewton是最著名的适应性学习体系之一。该体系由世界领先的终身教育服务商之一卡普兰(Kaplan)的前总经理创立,它注重区分个体学生的优缺点。该公司一开始只提供GMAT的测试准备,如今被用来改进大学教育。作为拥有72000名学生的美国最大的公立大学,亚利桑那州立大学运用Knewton体系来提高学生的数学水平。该体系在2000名学生中使用了两学期以后,亚利桑那州立大学的辍学率下降了56%,而毕业率也从64%升高到了75%。
2.个人线上教育
不同于以往的“赶鸭上架”式教育模式,借助信息技术在21世纪的教育模式将发生根本性转变。这些转变中,以“个性化学习”模式最具变革性。例如由孟加拉裔美国人萨尔曼•可汗创办的可汗学院(Khan Academy)是一家拥有数千个教育录像的在线教育组织。该网站的每段课程影片长度约十分钟,从最基础的内容开始,以由易到难的进阶方式互相衔接,受众可以根据自己学习效率、知识点掌握的基础,选择循序渐进、跳跃式前进,或者重点复习巩固,个性化和针对性更强。其网站目前也开发了一种练习系统,记录了学习者对每一个问题的完整练习记录,教学者参考该记录,可以很容易得知学习者哪些观念不懂。传统的学校课程中,为了配合全班的进度,教师只要求学生跨过一定的门槛(例如及格)就继续往下教;但若利用类似于可汗学院的系统,则可以试图让学生懂得每一个未来还要用到的基础观念之后,再继续往下教学,进度类似的学生可以重编在一班。在美国,某些学校已经采用“回家看可汗学院影片代替家庭作业,上课时则是做练习,再由老师或已懂的同学去教导其他同学”这样的教学模式。
3.数据科学教育
对数据科学人才的需求几乎存在于每一个与大数据相关的领域中,因而造就了一个潜在的巨大的数据科学教育市场。例如美国雪城大学已开设了专门针对数据库科学素养教育的课程,授课对象面向社会,并且还有相应的学业证书。已经有许多知名企业派遣员工前往学习该课程。
四、主要国家和地区大数据相关政策规划及启示
虽然全球还没有国家制定针对服务业领域的大数据推进政策,但对于大数据领域本身来说,美国、欧洲、亚太地区等多个国家和地区已提出了相关政策及规划。其实,这些政策规划都涉及了对大数据促进服务业发展的支持。
(一)美国拥有完善的大数据政策体系
2012年3月29日,美国政府发布了“大数据研发倡议”(Big Data Research and Development Initiative),正式开启了美国政府层面的大数据相关技术研发和应用的政策支撑。其实,早在2009年,奥巴马就按《信息资自由法》发出了“开放政府指令”,旨在提高政府信息透明度,并且鼓励公众利用政府公开的信息和数据参与政务工作。2011年,美国政府又发布了新版《美国创新战略》,其中也指出美国将在数据密集型科学与工程上建立全球领先地位,并将建立一个数据驱动的政府。由此可见,“大数据研发倡议”并非是美国政府应对大数据趋势的一时之需,而是美国创新战略中支持数据驱动创新的延续和细化。2010年后,美国政府又在大数据研发和开放数据方面相继发布了多个相关政策,从而快速建立起了一套比较完善的政策体系,为美国政府在大数据领域的领先发展打下了良好的基础。
美国大数据科研政策的特点是鼓励多方协作研发,不仅包括了高校研究院所,还包括像IBM等全球领先的企业,甚至还有各类私营基金会;美国开放数据政策的特点是明确开放数据过程,注重个人隐私的保护。总之,美国政府制定推动的大数据政策,鼓励多方合作信息共享,并要求将政府自身的数据以便利的形式及时提供给大众,提高了公众对政府数据共享重大意义的认识,使个人都能够获取各种各样的数据。这种模式在某种程度上形成了数据利用的长尾效应,从而为创造更多潜在创新提供了机会。
1.美国大数据科研政策对服务业的支持
美国大数据技术和应用科学研发支持政策,主要由网络和信息技术研发(The Networking and Information Technology Research and Development, NIRD)计划总体规划,科学和技术政策办公室(Office of Science and Technology Policy, OSTP)发布研发倡议,国家科学基金(National Science Foundation,NSF)制定研发提案招标说明。
在2012年3月最初发布的“大数据研发展倡议”中就有多个涉及医疗服务和科研服务的应用项目。为了延续第一轮大数据研究项目,2013年11月OSTP和NITRD共同发布了7个方面共34类政府、商业及非赢利组织合作的大数据发展计划,更是涉及了交通、公共管理、教育等多个方面的项目,例如波士顿市的“城市交通大数据挑战”项目、纽约市的“市场办公室数据分析”(MODA)项目、美国国家标准技术研究所(National Institute of Standards and Technology, NIST)与IBM合作大数据人才测评项目等。
此外,NSF自2012年连续3年发起了3轮“在社会科学、行为科学、经济学、教育和人力资源等数据密集型研究领域建立社区和能力(BCC-SBE/HER)”提案征集活动。以期在SBE/HER(社会科学、行为科学、经济学、教育和人力资源)领域建立数据研究的社区、数据库和基础设施,具体包括成立集研究、数据和基础设施于一体的研究和管理团队,其中包括运用自动分析工具,以及相关基础设施的原型建设。
2.美国政府开放数据政策对服务业的支持
开放数据政策最早的源头可以追溯到1967年颁布的《信息自由法》,该法案的主要内容是规定民众在获得行政信息方面的权利和行政机关在向民众提供行政信息方面的义务。奥巴马总统在上任不到一年的时间里,即签署了“开放政府指令”,明确了政府数据应采用开放、机器可读格式、同时适当保护隐私、保密和安全等方式自由可用。这一措施的目标是加大政府的透明度,改进政府服务,让企业、学者等利用开放数据来生产新产品和新服务,并创造就业机会。此后,为了长期执行开放数据政策,美国政府又于2011年发布了“数字政府战略”,在2012-2014年发布了三轮“开放数据倡议”。
其中,“开放数据倡议”的目的是使政府数据和企业自愿提供的数据作为大规模新燃料的来源,企业家可以用它来创造新的产品和就业机会。10年前,美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA)开始制作任何人都可免费下载的电子气象数据。企业家利用这些数据建立气象新闻广播、网站、移动应用程序、保险等等。同样,政府决定使全球定位系统(GPS)可自由使用,对私营部门的创新起到了推波助澜的作用,创造了巨大的公共利益,促进了每年数百亿美元的经济增长。最近,由美国卫生部(Department of Health and Humom Services,HHS)和美国医学研究院在2010年推出的“健康数据倡议”,促进了政府储藏的健康相关知识和信息量的激增,并通过强调创新的聚会、研讨会和“数据狂欢”(Datapalooza)等形式将这些数据公布给企业家使用。数百家公司现在已经利用这些数据来开发新产品和服务,帮助了数以百万计的美国人,并且创造了就业机会。开放数据倡议不仅支持健康数据开放,还鼓励在能源、教育、公共安全、个人理财和非营利部门开展新开放数据行动。这些举措将同时涉及在严格保护隐私的方式下,政府公布的数据资源和私营部门自愿提供的可访问数据(例如,在公用事业领域,允许消费者和企业自行下载用电量数据的电子副本)。
(二)欧洲加强大数据战略规划与投资
欧洲的大数据政策体系存在于两个层面:以欧盟为主的国家间协同创新政策体系和各国家内部政策体系。欧盟层面制定总体战略,主要以战略项目、资源协调、基础设施建设、交流与合作等为主。自2010年以来,在欧洲i2010战略、欧盟第七框架计划等基础上,欧盟相继制定了“欧盟2020战略”、地平线2020计划等,这些战略都认为当今社会经济增长动力已经发生变化,未来社会以知识推动经济增长、创造价值,唯有创新才能走出经济困境、创造经济发展新的增长点。
1.欧盟推进“数据价值链战略”
“数据价值链战略”旨在获取数据(尤其是大数据)最大价值,是对欧洲“开放数据战略”、云计算、高性能计算以及开放科学数据战略的巩固和补充。数据价值链即是数据生命周期,从数据产生、验证、预处理,到以各种创新型产品和服务进行的利用和再利用。战略旨在培育一个包括软件企业、中小企业、数据密集型部门(公共和私人)、研究者、学术机构和投资者在内的贯通的欧洲数据生态系统,刺激围绕数据进行的研究和创新,开发跨部门、跨语言和跨界的产品与服务,采取加强能力基础建设、基础设施、标准、优惠的政策和法律环境等整套措施以改善提取数据价值的环境框架(表4)。
表4 欧盟数字价值链战略主要内容
三大原则 | 主要内容 | 具体措施 |
通过研究与创新发展一个贯通的欧洲数据生态系统 | 面向数据生态系统——在欧盟层面上让参与者一起参与(数据生态系统的特点:大学、公共、私人部门合作;充足的高质量的数据工人(data-workers);大公司和小型企业之间的合作;公共部门通常作为新型服务的启动客户(launching customers);再利用数据的广泛可用性;强大的基础设施 | 在第七框架下推动相关利益者和资金资源的汇集与合作;推出欧洲数据价值链平台,形成欧洲大数据的ppp模式,到2014年集聚所有关键利益相关者;组织欧洲数据论坛(European Data Forum),形成年度盛会,到2016年,成为欧洲数据产业利益相关者的互联和发展的焦点 |
建立数据市场监测工具 | 建立工具以测量相关就业等目标绩效(2014年建立,2015年第一次测量) | |
鼓励围绕数据进行研究 | 在“2020地平线”整体规划范围内提供大数据服务 | 搜索在“2020地平线”下大数据处理方面知识和技术转移的跨委员会合作;建立一系列的大数据 服务,到2016年全面实施 |
根据不同部门的需要驱动大数 据研究(交通、健康、政府管理、零售、金融、公共部门等) | 基于数据密集型部门的需求确定“2020地平线”研发和创新投资;到2014年年底基于ppp模式研究欧洲数据技术路线图 | |
促进创新——新的数据服务和产品 | 推动跨部门、跨语言和跨界的计划;支持中小企业利用“2020地平线”全部的融资工具以刺激2014-2020年间的创新 | |
改善数据价值萃取的环境框架 | 建设有益的法律和政策环境 | 推动公开数据政策;在利用数据潜力的同时解决隐私问题,发展新方法以整合IT设备中的隐私功能,与大数据和隐私方面中不同利益相关者持续对话;解决知识 |
建设有益的法律和政策环境 | 产权问题;解决数据安全问题,与利益相关者对话 | |
增强交互操作性
| 在欧盟委员会ICT标准化战略下处理数据价值链各环节的标准化 | |
强化开放数据的基础设施建设 | 在CEF2014-2020框架下,2014年年底前推出、建设和推广跨欧洲的开放数据门户,推动研究数据的广泛可用性,发展获取公共资助研究数据的跨欧基础设施 | |
支持数据能力的发展 | 在广泛的技能和ICT计划中着力培养数据专家;在2020地平线中设立专门的能力提高计划;2014年起与欧洲著名学术机构合作建立欧洲数据能力中心网络以加强技能基础 |
资料来源:European Commission. Elements of a data value chain strategy.
https://ec.europa.eu/digital-agenda/en/elements-data-value-chain-strategy
2.英国着力提升数据分析能力
2013年年初,英国商业、创新和技能部(Department of Business, Innovation and Skills)宣布,政府将注资6亿英镑支持有关研究机构的研发工作,以发展8类高新技术。其中,大数据和节能计算(energy-efficient computing)在未来两年内将获得英国政府1.89亿英镑资金。英国大学与科技国务大臣戴维·威利茨认为,英国为大数据革命做好了充分准备,全球500台最强大计算机中,英国有25台(欧洲有107台,美国253台,中国68台),英国的优势在于擅长处理不同大数据集的算法,强势在数学和计算机科学领域,英国科学家参与欧洲核子研究中心(Conseil Europeenpour la Recherche Nucleaire, CERN)就是最好的说明,英国在医疗保健、人口统计、农业和环境领域有着世界上最好、最完整的数据集。
2013年底,英国商务、创新和技能部发布《英国数据能力发展战略规划》,旨在使英国成为大数据分析的世界领跑者,并使公民和消费者、企业界和学术界、公共部门和私营部门均从中获益。该战略在定义数据能力以及如何提高数据能力方面,进行了系统性地研究分析,并提出了举措建议。
3.法国开启电子政务大数据
电子政务的推广应用是智慧城市建设的一个重要方面。2011年7月,法国工业部长埃里克贝松宣布投资20万欧元,启动“开放数据半人马座移动”(Open Data Proxima Mobile)项目,希望通过该项目实现公共数据在移动终端上的使用,从而最大限度地挖掘它们的应用价值。项目内容涉及交通、文化、旅游和环境等领域。为了便于公民自由查询和下载公共数据,2011年12月,法国政府推出的公开信息线上共享平台data.gouv.fr正式上线。2013年2月,法国政府发布《数字化路线图》,列出5项将会大力支持的战略性高新技术,其中一项就是大数据。同时法国将建立“地方性数字化城区”,提高法国“数字化”生态系统的能见度,法国数字经济部将建立一个“数字化计划实验室”,并与地方政府紧密合作,推动数字化工具的研发。2013年4月,法国经济、财政和工业部宣布,将投入1150万欧元用于支持7个未来投资项目。
(三)亚太地区紧随全球大数据发展步伐
亚太地区是全球大数据技术应用发展最为快速的地区。其中,日韩等主要国家对大数据产业的兴起也非常重视,但这些国家并没有独立的国家层面大数据产业规划,有关大数据的推进措施基本都是本国信息技术战略规划的延伸。
1.日本将大数据作为新IT国家战略的核心
自2012年以来,为了发展大数据产业,日本在国家层面相继发布了相关战略、基础设施、预算方面的文件。但总体上看,日本还没有专门的关于大数据的战略规划和文件,而是将其融人到IT相关战略与政策中。
2012日本总务省信息和通信技术(Information and Communications Technology, ICT)基本战略委员会在7月推出新的综合战略“活力ICT日本”,将重点关注大数据应用。“提升日本竞争力,大数据应用不可或缺”,新ICT战略将重点关注大数据应用所需的云计算、传感器、社会化媒体等智能技术开发;新医疗技术开发、缓解交通拥堵等公共领域将会得到大数据带来的便利与贡献。另外,ICT在2012年发布的信息通信白皮书中,将大数据的应用建设作为实现“智慧革命”(Smart Revolution)目标的重要支撑内容。
2.韩国建设大数据中心
2011年,韩国科学技术政策研究院正式提出“大数据中心战略”以及“构建英特尔综合数据库”,同时,设立专职部门制定应对大数据时代计划。2012年,韩国科学技术委员会就大数据未来发展环境发布重要战略计划。此后,韩国政府把智慧城市的建设与大数据产业的发展结合在一起,相继发布了智慧城市服务、宽带基础设施、数据中心等方面的规划和政策。
2013年,在新一任韩国总统朴槿惠“创意经济”的新国家发展方针指导下,韩国未来规划部提出“培养大数据、云计算系统相关企业1000个”的国家级大数据发展计划以及《第五次国家信息化基本技术(2013-2017)》等多项大数据发展战略,其主要内容涉及以下5个方面:安全领域、自然灾害、交通安全、国民人身安全、网络犯罪。此外,食品安全、国民医疗、国家信息安全等领域,甚至残疾人就业、高龄人员养老等领域也将涉及大数据应用。
3.新加坡政府扮演大数据时代关键角色
近年来,新加坡加强了智慧城市的建设,并制定了大数据技术路线图,推动数据开放。2014年,新加坡资讯通信发展管理局(Infocomm Development Authority,IDA)聘请了首任首席数据科学家,专门推进政府数据的开放和价值开发。
新加坡多个政府部门主动开放政府数据,积极推动医疗、教育等具体领域的应用发展,并将大数据人才的培养作为国家战略的一部分,新加坡政府计划到2017年,培养2500名数据分析专业人才,进一步巩固强化数据相关的基础设施建设,着重数据安全和隐私方面的立法建设,鼓励企业设立数据分析中心,并形成产学研政之间的合作网络,以增强新加坡在亚太地区大数据分析方面的实力。
4.澳大利亚发布公共服务大数据战略
2013年8月,澳大利亚政府信息管理办公室(Australia Government Information Management Office,AGIMO)发布了《公共服务大数据战略》。该战略以6条“大数据原则”为支撑,旨在推动公共行业利用大数据分析进行服务改革,制定更好的公共政策,保护公民隐私,使澳大利亚在该领域跻身全球领先水平。大数据战略的主要使用者是负责提供公共服务和制定相关政策的澳大利亚政府高级官员,它描述了这样一个愿景,就是在确保公民隐私和安全的前提下,政府推动相关机构更加高效地利用各自的数据资产,实现机构的价值和目标。
5.中国地方政府制定大数据相关规划
一些中国地方政府也已经开始对大数据密切关注,并推出相关政策助推大数据发展。2012年10月,广东省经济和信息化委员会提出了《广东省实施大数据战略工作方案》。2012年12月,陕西省发布了《陕西省大数据产业的发展战略》。北京中关村开始布局大数据产业,成立大数据产业联盟,同时发布大数据实验室孵化基金。重庆也在2013年7月出台了《重庆市大数据行动计划》。2013年7月,上海也发布了《上海推进大数据研究与发展三年行动计划(2013- 2015年)》,同时成立了大数据产业技术创新战略联盟。
(四)利用大数据促进上海现代服务业发展
在大数据时代,上海现代服务业的发展面临着机遇与挑战。基于上海大数据产业和服务业发展的现状和基础,提出如下思考:
1.鼓励大数据与服务业融合的创业创新
利用大数据改造传统服务业是推进产业升级转型的新趋势。由于当前大数据产业链主要是一些国际大数据公司所主导,上海没有可以与之相匹敌的企业。因此,只能依赖于细分市场和特定环节的突破,激发出中小型创业型企业的创新精神,培育一批基于数据的服务创新型企业及中小型创业型企业通过市场竞争拼出一条血路。此外,还可以通过筑巢引凤构建大数据与服务业融合的产业链高地。上海享有地域、技术、人才、市场、行政效率和透明度高等多种优势,IT产业集群优势也非常明显,借此可广泛吸引国内外服务业企业将大数据行业分析中心设在上海,就地应用和试点,作为上海现代服务业发展的重点支持对象。
2.积极培养和引进服务业大数据人才
人才是技术研发和市场应用的基础。据麦肯锡的估计,仅在美国,大数据技术人才缺口达14万~19万,管理人才150万。上海应开始重视对大数据专业人才的培育,还要意识到国际性人才争夺战的激烈性,既要培育出人才,更要留得住人才。具体的做法可以是设立人才清单,分类培养各级人才与技能。大数据人才不仅包括各类数据科学家,也包括了各种数据技术工人,以及行业应用人才。因而,有必要将大数据产业需要的人才进行各级各类,按照不同的需求进行引进和培养。
3.制定相关规则防范风险
大数据应用中可能面临新的信息安全挑战。一方面在技术上,它要面对信息技术系统应用所同样面临的一般信息安全问题,另一方面又要面对新的复杂情况。大数据应用越是发展,对个人隐私等信息安全挑战就越是严峻,同时,大数据在本质上要求开放,要求将互联网上公开的碎片信息与政府掌握的、企业运行中产生的、各种个人应用设备采集的数据结合起来,才能发挥其真正的核心价值。它超越了孤立信息系统的数据应用,所以对传统信息系统“严防死守”式的安全策略也形成挑战,这就需要在大数据的利用时找到开放和保护的平衡点。国外的做法通常是设置安全机制,比如采用第三方信息安全审计,或者对数据的使用做出明确的规定。
4.重视开放数据与公众参与
从全国范围来看,上海市政府的信息化建设已可称之为翘楚,数据开放也是当前上海发展大数据产业的重点措施之一。但是目前各职能部门的信息数据相对独立,而且大多数处于搁置状态。大数据在本质上具有要求开放的属性。只要在充分保护隐私数据不被滥用的前提下,开放政府信息数据,通过加强公众参与,可以自然催生出基于政府信息数据的大数据应用,甚至可望成为能够带来潜在商业价值的产业领域。