搜档网
当前位置:搜档网 › 大数据的大价值:大数据五大成功案例深度解析

大数据的大价值:大数据五大成功案例深度解析

大数据的大价值:大数据五大成功案例深度解析
大数据的大价值:大数据五大成功案例深度解析

大数据的大价值:大数据五大成功案例深度解析

?作者:Cashcow

?星期四, 四月11, 2013

?大数据, 航空, 零售

?暂无评论

大数据的热潮并未有消褪迹象,相反,包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出,在推动大数据企业应用方面,真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国内,虽然管理学界和财经媒体对大数据推崇备至,认为大数据是信息技术改变商业世界的杀手应用,但是关于大数据中国企业的成功案例的报道却出奇地少。

最近《中国企业家》的“大数据专题”特别报道采访了农夫山泉、阿迪达斯中国和数家航班信息移动服务商(前两家为SAP客户),为我们带来了详实的大数据案例报道,非常有参考价值,原文转载如下:就在制作这期“大数据专题”时,编辑部发生热烈讨论:什么是大数据?编辑记者们旁征博引,试图将数据堆砌的商业案例剔除,真正的、实用性强的数据挖掘故事留下。

我们报道的是伪大数据公司?我们是否成为《驾驭大数据》一书的作者Bill Franks所称的“大数据骗局”中的一股力量?同样的质疑发生在阿里巴巴身上。有消息称,3月23日,阿里巴巴以7000万美元收购了一家移动开发者数据统计平台。这引发了专家们热烈讨论,它收购的真是一家大数据公司吗?

这些质疑并非没有道理。

中国确实没有大数据的土壤。“差不多先生”、“大概齐”的文化标签一直存在。很多时候,各级政府不太需要“大数据”,形成决策的关键性数据只有一个数字比率(GDP)而已;其二,对于行业主管机构来说,它们拥有大量原始数据,但它们还在试探、摸索数据开放的尺度,比如说,是开放原始数据,还是开放经过各种加工的数据?是转让给拥有更高级计算和储存能力的大型数据公司,还是将数据开源,与各种各样的企业共享?其三,数据挖掘的工具价值并没有完全被认同。在这个领域,硬件和软件的发展并不十分成熟。即便如此,没有人否认数据革命的到来,尤其在互联网行业。阿里巴巴的马云将大数据作为战略方向,百度的李彦宏用“框计算”来谋划未来。即便是CBA(中国男子篮球职业联赛)也学起了NBA(美国男篮职业联赛)五花八门的数据统计、分析与挖掘。

在过去两年间,大量的资本投资一些新型数据工具公司,根据美国道琼斯风险资源(Dow Jones VentureSource)的数据,在过去的两年时间里,11.7亿美元流向了119家数据库软件公司。去年,SAP 市值已经超过西门子,成为德国市值最高的上市公司,而这样的业绩部分得益于其数据库软件HANA的商业化,去年一年时间里HANA带给SAP3.92亿欧元的收入,增长了142%。

但是,大数据还没法分析、挖掘出自己的直接变现能力。在截稿日时,我们再重新读维克托·迈尔-舍恩伯格(Viktor Mayer-Sch鰊berger)的《大数据时代:生活、工作与思维的大变革》一书,作者相信,未来,数据会成为有价值的资产。假以时日,它会大摇大摆地进入资产负债表里。

案例1:农夫山泉用大数据卖矿泉水

发挥你您的想象力,选择您认为可是的答案

这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每天会产生的数据量在10M,这似乎并不是个大数字。

但农夫山泉全国有10000个业务员,这样每天的数据就是100G,每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时,这家公司的CIO胡健就会有这么一种感觉:守着一座金山,却不知道从哪里挖下第一锹。

胡健想知道的问题包括:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。

从2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复杂的“0、1、1、0”。

SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示,企业对于数据的挖掘使用分三个阶段,“一开始是把数据变得透明,让大家看到数据,能够看到数据越来越多;第二步是可以提问题,可以形成互动,很多支持的工具来帮我们做出实时分析;而3.0时代,信息流来指导物流和资金流,现在数据要告诉我们未来,告诉我们往什么地方走。”

SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时,农夫山泉仅仅是一个软件采购和使用者,而SAP还是服务商的角色。

而等到2011年6月,SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中,运输环境的数据场景。关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问题的核心。

基于上述场景,SAP团队和农夫山泉团队开始了场景开发,他们将很多数据纳入了进来:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。

在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的做法是通过大区间的调运,来弥补终端货源的不足。“华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。”

这种没头苍蝇的状况让农夫山泉头疼不已。在采购、仓储、配送这条线上,农夫山泉特别希望大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400 家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。

也就是说,销售的最前端成为一个个神经末梢,它的任何一个痛点,在大脑这里都能快速感知到。

“日常运营中,我们会产生销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取到SAP BW或Oracle DM,再通过Business Object展现。”胡健表示,这个“展现”的过程长达24小时,也就是说,在24小时后,物流、资金流和信息流才能汇聚到一起,彼此关联形成一份有价值的统计报告。当农夫山泉的每月数据积累达到3TB时,这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是,胡健等农夫山泉的决策者们只能依靠数据来验证以往的决策是否正确,或者对已出现的问题作出纠正,仍旧无法预测未来。

2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。

胡健选择SAP Hana的目的只有一个,快些,再快些。采用SAP Hana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。

这些基于饮用水行业实际情况反映到孙小群这里时,这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景,SAP并非没有案例,雀巢就是SAP在全球范围长期的合作伙伴。但是,欧美发达市场的整个数据采集、梳理、报告已经相当成熟,上百年的运营经验让这些企业已经能从容面对任何突发状况,他们对新数据解决方案的渴求甚至还不如中国本土公司强烈。

这对农夫山泉董事长钟目炎目炎而言,精准的管控物流成本将不再局限于已有的项目,也可以针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上,随着手指的移动,建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化,好像手指移动产生的数字涟漪。

以往,钟目炎目炎的执行团队也许要经过长期的考察、论证,再形成一份报告提交给董事长,给他几个备选方案,到底设在哪座城市,还要凭借经验来再做判断。但现在,起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度,这些无法测量的因素。

有了强大的数据分析能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎是另外三家之和。对于胡健来说,下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。

获益的不仅仅是农夫山泉,在农夫山泉场景中积累的经验,SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈,这意味着还有相当比率的车辆处于空置状态,资源尚有优化空间。通过合作创新,我们用SAP Hana为他们特制了一个算法,优化租用流程,帮助他们打破瓶颈,将车辆使用率再次提高了15%。”

案例2:阿迪达斯的“黄金罗盘”

发挥你您的想象力,选择您认为可是的答案

看着同行大多仍身陷库存泥潭,叶向阳庆幸自己选对了合作伙伴。

他的厦门育泰贸易有限公司与阿迪达斯合作已有13年,旗下拥有100多家阿迪达斯门店。他说,“2008年之后,库存问题确实很严重,但我们合作解决问题,生意再次回到了正轨。”

在最初降价、打折等清库存的“应急措施”结束后,基于外部环境、消费者调研和门店销售数据的收集、分析,成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。

现在,叶向阳每天都会收集门店的销售数据,并将它们上传至阿迪达斯。收到数据后,阿迪达斯对数据做整合、分析,再用于指导经销商卖货。研究这些数据,让阿迪达斯和经销商们可以更准确了解当地消费者对商品颜色、款式、功能的偏好,同时知道什么价位的产品更容易被接受。

阿迪达斯产品线丰富,过去,面对展厅里各式各样的产品,经销商很容易按个人偏好下订单。现在,阿迪达斯会用数据说话,帮助经销商选择最适合的产品。首先,从宏观上看,一、二线城市的消费者对品牌和时尚更为敏感,可以重点投放采用前沿科技的产品、运动经典系列的服装以及设计师合作产品系列。在低线城市,消费者更关注产品的价值与功能,诸如纯棉制品这样高性价比的产品,在这些市场会更受欢迎。

其次,阿迪达斯会参照经销商的终端数据,给予更具体的产品订购建议。比如,阿迪达斯可能会告诉某低线市场的经销商,在其辖区,普通跑步鞋比添加了减震设备的跑鞋更好卖;至于颜色,比起红色,当地消费者更偏爱蓝色。

推动这种订货方式,阿迪达斯得到了经销商们的认可。叶向阳说:“我们一起商定卖哪些产品、什么产品又会热卖。这样,我们将来就不会再遇到库存问题。”

挖掘大数据,让阿迪达斯有了许多有趣的发现。同在中国南部,那里部分城市受香港风尚影响非常大;而另一些地方,消费者更愿意追随韩国潮流。同为一线城市,北京和上海消费趋势不同,气候是主要的原因。还有,高线城市消费者的消费品位和习惯更为成熟,当地消费者需要不同的服装以应对不同场合的需要,上班、吃饭、喝咖啡、去夜店,需要不同风格的多套衣服,但在低线城市,一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比,高线城市,显然为阿迪达斯提供了更多细分市场的选择。

实际上,对大数据的运用,也顺应了阿迪达斯大中华区战略转型的需要。

库存危机后,阿迪达斯从“批发型”公司转为“零售驱动型”公司,它从过去只关注把产品卖给经销商,变成了将产品卖到终端消费者手中的有力推动者。而数据收集分析,恰恰能让其更好地帮助经销商提高售罄率。“我们与经销商伙伴展开了更加紧密的合作,以统计到更为确切可靠的终端消费数据,有效帮助我们重新定义了产品供给组合,从而使我们在适当的时机,将符合消费者口味的产品投放到相应的区域市场。一方面降低了他们的库存,另一方面增加了单店销售率。卖得更多,售罄率更高,也意味着更高的利润。”阿迪达斯大中华区董事总经理高嘉礼对大数据的应用成果颇为满意。

案例3:数据权之争

发挥你您的想象力,选择您认为可是的答案

拥有了数据就等于夺取了行业制高点,飞友网络科技公司CEO郑洪峰深知个中道理。

最近几年,随着移动互联网的兴起,一类关于航班动态的应用程序开始出现。通过一套算法,数据工程师们将机场航班实时动态转换成直观的信息,再传递给用户,让后者能够及时了解到航班的起飞、到达、延误、取消、返航、备降等状态,从而帮助用户更高效地安排行程计划。

目前这个市场上主要有三款应用产品,分别是航班管家、飞常准和航旅纵横,飞常准正是飞友科技推出的一款应用。三款应用中,航班管家和飞常准都是民营企业,上线时间较早,用户数较多;航旅纵横虽然上线最晚,却是由央企中国民航信息集团(中航信)开发,大有后来居上的趋势。

随着这个细分市场呈现三足鼎立的局面,一个问题浮出水面。郑洪峰向《中国企业家》直言,数据是这个行业最重要的资源。但是目前中航信垄断了大部分行业信息,使得飞常准必须通过购买和交换才能获得自己所需要的数据。

“我们的数据成本是非常高的。”郑洪峰告诉本刊,“气象、航班信息、空域流量等信息有些是公开发布的,有些则需要公司向空管局、机场和航空公司购买或交换。”

对于郑来说,获取数据的过程就是一部血汗创业史。据其回忆,早年的各大机场、航空公司之间的数据是割裂的,为了获得准确的航班起降信息,郑洪峰和他的团队就去为这些政府机构、大公司提供技术支持,以此来交换所需要的数据。“我们必须放下身段,他们需要什么我们就做什么。”郑说道。因为飞常准是家小公司,决策链条短,效率高,通过多年的积累,郑洪峰打通了部分数据通道。

郑洪峰在民航系统工作近12年,其人脉和常识的积累成为飞常准的重要优势。1999年,他创建了民航资源网。现在,这家网站是中国最大的民航门户网站。2005年,他又创办了飞友,主要为飞行旅客提供机票搜索引擎等服务。从2008年开始,郑洪峰团队通过飞常准为用户提供航班动态服务。早期,飞常准的用户只是民航内部工作人员,很多机票代理商主动帮其推广,机场方面也常常用飞常准的应用来安抚因飞机延误而愤怒不已的乘客,而业内资深人士也常提供很多有价值的反馈信息。郑洪峰依靠民航内部的资源维持着自己的数据来源。但郑知道,这并不能长久。

郑洪峰的故事并不是孤例。中国一家大型电子商务公司的数据挖掘专家接受本刊专访时提到,现在,越来越多的电子商务公司需要预测非一线城市的物流状况。在这一过程中需要考虑当地交通拥堵程度和天气情况,如果当地政府可以提供这方面的相关数据,可以大大提高运作的效率。以交通数据为例,这位数据挖掘专家使用的是百度地图和高德地图,后来,他发现不能再用了:一方面,与这样的公司合作存在商业机密问题;另一方面,由于交通数据可能来自于这些公司的统计,失真度也是这位数据挖掘专家担心的。“我们非常希望政府能开放一些原始数据。”他继续说道,“我们也希望和领先者能平等地分享数据权,而不是数据成本增加了二三倍。”

郑洪峰和这位数据专家都担心数据垄断,希望政府公平公开地开放数据,这样的做法并非没有借鉴。美国有一个叫做https://www.sodocs.net/doc/eb9874864.html,的网站,用户可以从这个网站上获得航班信息和天气情况,其功能与国内的航班动态应用类似。但是值得一提的是,这个网站的数据来源是一个公开的美国政府网站https://www.sodocs.net/doc/eb9874864.html,。目前在上面大约有超过40万各种原始数据文件,涵盖了农业、气象、金融、就业、交通、能源等近五十个分类。此外,https://www.sodocs.net/doc/eb9874864.html,还有一个地理信息的子站点,专门提供地理信息相关的数据。美国官方表示,这个网站的目的是“方便公众更便捷地获得联邦政府数据,并通过鼓励创新来突破政府的围墙而创造性地使用这些数据。”2006年经济学家唐·泰普斯科特(Don Tapscott)在《维基经济学》中指出,人类已经进入了共享时代:“失败者创建的是网页,而胜利者创建的是生机勃勃的社区;失败者创建的是有墙的花园,而胜利者创建的则是一个公共的场所;失败者精心守护他们的数据和软件界面,而胜利者则将资源与每个人共享。”这一理念后来被认为是网络2.0时代的核心理念。以用户为中心,注重用户交互,让用户参与共同建设的网络2.0同样适用于政府,最近几年各国政府的一系列举措标志着政府2.0时代的到来。

那么在大数据时代,中国政府做好准备了吗?

参考阅读:数据解放宣言:美国政府大数据网站https://www.sodocs.net/doc/eb9874864.html,将开源

深藏的事实

飞常准的竞争对手也遇到了相同的困境。为了拿到第一手数据,航班管家非常卖力。它与各大机场合作,间接获得自己所需要的航班起降信息。2012年6月,航班管家与上海虹桥机场达成协议,航班管家可以直接从虹桥机场获得信息,包括航班的延误、取消以及登机口变更等一手信息,且提供的信息均与虹桥机场同步。可以预见,机场是其重要的数据来源。

面对竞争对手的步步紧逼,郑洪峰认为,正常的商业竞争并不是飞常准所焦虑的事。“开放与竞争对我们来说是好事。”

对于飞常准来说,央企中航信旗下的航旅纵横才是最大的威胁。“在一定程度上,它有垄断数据的嫌疑。”一位坚持匿名的专家说道。而面对记者的采访要求,航旅纵横以不便透露为由拒绝。目前,中航信拥有中国所有终端旅客详细的数据库,包括姓名、手机、消费习惯等,这是中航信最核心的资源。由于与航旅纵横母子公司的关系,非市场化的利益输送饱受诟病。

在有关民航信息的关键数据中,空域流量是影响中国航班正点率的主要原因,而这一数据掌握在空管局手里。“空管局也愿意将数据分享给航空公司、机场,甚至是一些小公司,它们这么多年也在努力,可中国有自己特殊的情况。”上述专家说道。

在中国,不到30%的空域对民航开放。和其它国家相比,中国是空域管制最为严格的国家之一。“民航系统也很头疼,七成多的空域属于国家机密,所以机场、空域关闭根本无法预知,何来公开的数据?”上述专家说道。

在航班信息中,准点率是非常重要的一条数据。郑洪峰以此对比中美两国差异。“在国外,像准点率这些关键数据都是由政府全部公开的,因为准点率会决定哪家航空公司可以获得哪些航线,是航线资源分配一个非常重要的参数。但是,在中国,这个数据却是各家公司自己搜集的。”换句话说,相关政府部门并没有掌握到第一手的数据来源,遑论数据开放了。

在石油、电信、铁路、民航等战略行业中,民航业的数据开放远远走在了其它行业的前头。上述电子商务公司的数据专家告诉本刊,设计物流工具时,他们更愿意与民航系统合作,不仅仅是快,还因为如果找相对封闭的铁路系统要一些关键性数据,“更难,更不靠谱。”数据专家说道。

“有时,政府也有担心,你要数据做什么?有时他们第一反应是,…间谍?;第二反应是,你用来赚钱的,我会不会存在什么风险。”上述民航专家说。这位民航专家的一部分工作是为相关政府写内部报告,有时需要跟民航系统要一些关键性数据,即便如此,也免不了遭遇相关政府部门的怀疑。

中国传媒大学教授沈浩认为,现在的政府网站许多都是空架子,甚至大部分网站都很少更新,内容上也只是一些公告,而之前的决策过程并没有反映出来;与此同时,由于中国政府缺少推动力,尚无法建立像https://www.sodocs.net/doc/eb9874864.html,的数据平台。

另外,根据BNET商学院对中国政府部门的调查分析显示,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的只占5.6%,比起美国和英国等政府开源力度差距巨大。

此项调查的负责人,BNET商业英才网副总编周安利认为:政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面,数据分析也受制于管理体制和职能制约,及长期传统管理积累的习惯,业务驱动力不足,绩效考核不配套。所以中国政府部门对大数据可能产生的价值,以及如何利用数据分析实现政府的科学决策依然有相当长的距离要走。

数字生产力

如今,飞常准已经拥有300万月活跃用户,覆盖1万个国内航班,5万个国际航班。郑洪峰直言,飞常准的优势和主要收入来源就是利用大数据技术对数据进行收集、分析和加工。比如利用获得的收据,飞常准可以帮助保险公司制定航班延误保险,而这些都是政府和保险公司以前无法完成的。

以前,航班延误险存在一个问题,就是保险公司让用户去举证,用户必须有各种各样的纸质证明才能从保险公司拿到赔偿,而赔偿金额往往只有两三百块钱,因此用户都不愿意买这个险。“而现在,航班一落地,通过我们的数据和服务,保险公司就知道是否超过保险阀值,没超过的,用户可以直接从保险公司拿到钱,过程非常简单。”郑说道。与保险公司的合作,郑洪峰得到的回报是收取一小部分服务佣金。

数据开放不仅可以让小公司受益,而且可以让政府更加透明、负责任。美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克(Beth Noveck)在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下,运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来,解决政府无法完成以及棘手的问题。”诺维克告诉《中国企业家》。

诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门搜集了全美几乎所有医院的感染率,但是政府并没有足够的能力把这些数据转化为有价值的信息。可是,当这些数据被放在https://www.sodocs.net/doc/eb9874864.html,网站上以后,微软和谷歌却能够运用自己强大的技术能力制作了一幅数据地图。不管是研究机构或者是普通患者都能运用搜索引擎查找任何一家医院的感染率来决定是否住院。

而在中国互联网领域,此前受到虚假广告质疑的百度也开始与相关政府部门合作,利用后者的数据进行网络打假。百度相关负责人告诉《中国企业家》,以前百度需要从2000亿网页中筛查出有问题的假药网站,屏蔽虚假医疗信息非常困难,单纯依靠技术和管理手段的升级,难以达到打击假药的最佳效果。同时,百

度作为一家企业,并不具备相关监管资质,这也是百度无法进行独立打击假药的问题所在。百度曾独立打击假药,但效果十分有限。

从2010年开始,百度联合卫生部、国家药监局等多个部委部门发起“阳光行动”,打击各类互联网不良及虚假信息,之后,百度与国家药监局正式达成战略合作,国家药监局的三大药品数据库,总计20余万个权威药品信息向百度开放,而且这些数据库将随着药监局的数据变化实时更新。用户可以通过通俗的商品名、专业的药品名、批准文号等多个途径,在百度搜索到药品的权威信息。

“作为5亿网民的互联网入口,百度一直以来都希望能利用搜索入口和平台优势,与各家具有数据资源优势的政府部门、权威机构联手,让权威信息全面入驻网络。”这位负责人说道,“重要的是,数据治国,相关政府部门也获得了很好的赞誉。”

中国传媒大学教授沈浩认为,虽然中国政府在2007年就发布了《政府信息公开条例》,但目前政府公布的数据大部分还是报告和报表,没有标准的格式,不能以数据的形式查到,因此也无法进行深入的分析、加工和挖掘。

“如果政府需要社会共享和分析这些数据,必须提供最原始的数据,这样的数据学术和商业上才能去应用它。”沈浩说,“你看https://www.sodocs.net/doc/eb9874864.html,的网站,在上面的联邦政府的数据库,都是以电脑可读取的格式发布的。”

郑洪峰也意识到这个难题。他有时候会给相关政府、大公司提供一些数据,他力求寻找一种标准格式。而在这样的方向上,中国的一些公司也在与政府一起努力。

高德软件有限公司三维应用事业部总经理赵珂告诉记者,以前的项目往往是政府立项再雇用公司去做,完成后政府拥有版权,这样导致数据市场不是市场经济而是投资拉动型的经济。而目前高德与地方测绘局采取的合作形式是授权模式,高德帮助政府采集数据。拥有了标准化的数据,相关政府就拥有了一个标准的基础数据库。“这是国家测绘局比较有远见的一个举措,相信我们未来和政府这类合作会越来越多。”赵珂说。

郑洪峰也相信,未来会更务实更市场化,歧视性的东西会越来越少。中国的数据会越来越开放,也会更加利用市场的机制去鼓励更多的商业用户用好航班的数据。

与此同时,郑洪峰也在以不同形式回馈于给他提供数据的政府相关部门和大公司,最近,他的团队正在撰写一份报告,名为《航班正点提高率计划》。

文章来源:中国企业家

深度学习不是人工智能的全部和未来_光环大数据培训

https://www.sodocs.net/doc/eb9874864.html, 深度学习不是人工智能的全部和未来_光环大数据培训 现在每一个人都在学习,或者正打算学习深度学习(DL),它是目前人工智能诸多流派中唯一兴起的一个。各个年龄阶段的数十万人学习着免费和收费的深度学习课程。太多的创业公司和产品的命名以「深度」开头,深度学习已然成了一个流行语,但其真正使用实际上很少。绝大多数人忽略了深度学习只占机器学习领域的1%,而机器学习又只占到了人工智能领域的1%。余下的99% 则被用来处理实践中的绝大多数任务。一个深度学习专家无法与人工智能专家划上等号。 深度学习并不是人工智能的同义词。谷歌、Facebook 等巨头公司宣传最多的人工智能工具主要是或者仅仅是深度学习,因此大众误以为所有的人工智能突破都(将)由深度学习实现。真实情况并非如此。决策树比如XGBoost 不会成为头条,但却在很多Kaggle 表格数据竞赛中低调地击败了深度学习。媒体暗示AlphaGo 的成功全部归于深度学习,但实际上它是蒙特卡洛树搜索+深度学习,这表明深度学习单枪匹马很难取胜。很多强化学习的任务通过神经进化的NEAT 而不是反向传播得到解决。人工智能领域存在着「深度误传」(deep misinformation)。 我并不是说深度学习没有解决问题:它令人印象深刻。树和其他算法并没有完胜深度学习,某些任务上深度学习无法被取代,但是我希望未来一些非深度学习系统可被(重新)发现以击败深度学习,并解决了目前无法解释的黑箱问题。同样我也希望读到有关「灾难性遗忘」的深度学习文章,它是指在学习新知识时快速遗忘先前已学习知识的倾向,并且需要每天对抗「过拟合」。关于「智能」:深度学习只是简单地相信给到的训练数据,而不管什么是真与假,现实与想象,公平与不公。人类也会误信假新闻,但只是在某种程度上,甚至孩童都知道电影是虚构的、不真实的。 关于更多细节,如果你有时间了解,请见我的详述文章:https://https://www.sodocs.net/doc/eb9874864.html,/pulse/ai-deep-learning-explained-simply-fabio-ciucci。

大数据时代的信息安全试题答案

单选题 1.信息主权领域范围不受地域边界影响,而根据信息传播的深度和广度动态变化。()(分数:10分) 标准答案:A 学员答案:A A.正确 B.错误 2.在经济转型和服务业大力发展的背景下,我国中小企业在数量、创造GDP、拉动就业方面的占比均已超过70%。()(分数:10分) 标准答案:B 学员答案:B A.正确 B.错误 3.美国拓展信息主权的主要措施不包括()(分数:10分) 标准答案:B 学员答案:B A.国家战略 B.信息掌控和垄断 C.产业体系 D.基础设施 4.大数据核心价值是()(分数:10分) 标准答案:A 学员答案:A A.海量数据存储、分析 B.数据增长迅速 C.表现形式多样化 D.具有极高的信息价值 5.云计算是对()技术的发展与运用(分数:10分) 标准答案:D 学员答案:D A.并行计算 B.网格计算 C.分布式计算 D.三个选项都是 6.云计算体系结构的()负责资源管理、任务管理用户管理和安全管理等工作(分数:10分) 标准答案:C 学员答案:C A.物理资源层 B.物理资源层

C.管理中间件层 构建层 7.大数据区别于传统数据的特征有()(分数:10分) 标准答案:ABCD 学员答案:C A.海量数据存储 B.数据增长迅速 C.表现形式多样化 D.具有极高的信息价值 8.大数据应用需依托的新技术有()(分数:10分) 标准答案:D 学员答案:D A.大规模存储与计算 B.数据分析处理 C.智能化 D.三个选项都是 9.以下不属于影响国家信息主权的关键因素的有()(分数:10分) 标准答案:B 学员答案:B A.信息资源 B.信息容量 C.信息产业 D.基础设施 10.百度拥有完整、自主的大数据核心技术。()(分数:10分) 标准答案:A 学员答案:A A.正确 B.错误 一.单选题 1.大数据应用需依托哪些新技术()(分数:10分) 标准答案:D 学员答案:D A.大规模存储与计算 B.数据分析处理 C.智能化 D.以上都有

大数据处理流程的主要环节

大数据处理流程的主要环节 大数据处理流程主要包括数据收集、数据预处理、数据存储、数据处理与分析、数据展示/数据可视化、数据应用等环节,其中数据质量贯穿于整个大数据流程,每一个数据处理环节都会对大数据质量产生影响作用。通常,一个好的大数据产品要有大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释,本节将基于以上环节分别分析不同阶段对大数据质量的影响及其关键影响因素。 一、数据收集 在数据收集过程中,数据源会影响大数据质量的真实性、完整性数据收集、一致性、准确性和安全性。对于Web数据,多采用网络爬虫方式进行收集,这需要对爬虫软件进行时间设置以保障收集到的数据时效性质量。比如可以利用八爪鱼爬虫软件的增值API设置,灵活控制采集任务的启动和停止。 二、数据预处理 大数据采集过程中通常有一个或多个数据源,这些数据源包括同构或异构的数据库、文件系统、服务接口等,易受到噪声数据、数据值缺失、数据冲突等影响,因此需首先对收集到的大数据集合进行预处理,以保证大数据分析与预测结果的准确性与价值性。

大数据的预处理环节主要包括数据清理、数据集成、数据归约与数据转换等内容,可以大大提高大数据的总体质量,是大数据过程质量的体现。数据清理技术包括对数据的不一致检测、噪声数据的识别、数据过滤与修正等方面,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量; 数据集成则是将多个数据源的数据进行集成,从而形成集中、统一的数据库、数据立方体等,这一过程有利于提高大数据的完整性、一致性、安全性和可用性等方面质量; 数据归约是在不损害分析结果准确性的前提下降低数据集规模,使之简化,包括维归约、数据归约、数据抽样等技术,这一过程有利于提高大数据的价值密度,即提高大数据存储的价值性。 数据转换处理包括基于规则或元数据的转换、基于模型与学习的转换等技术,可通过转换实现数据统一,这一过程有利于提高大数据的一致性和可用性。 总之,数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量,而大数据预处理中的相关技术是影响大数据过程质量的关键因素 三、数据处理与分析 1、数据处理 大数据的分布式处理技术与存储形式、业务数据类型等相关,针对大数据处理的主要计算模型有MapReduce分布式计算框架、分布式内存计算系统、分布式流计算系统等。

电影神探深度解析

电影神探深度解析标准化管理部编码-[99968T-6889628-J68568-1689N]

警察A,负责破案X(案情:警察B和警察C在执行追捕犯人南亚裔人D任务过程中,BC丢手枪1,C死,犯人D捡到手枪1。案发之后有三起持枪抢劫,其中两起有枪击:和运钞员;一起无枪击:赌场。)迟迟未果,求助于神探。神探喜欢模拟现场感受犯罪者动机和意图。? 但神探视角会给观众带来两个难题:? 难题1,神探有幻觉,要和幻觉中老婆(镜头给的林熙蕾)对话,而神探之外的人看不到;? 难题2,神探能看穿其观察对象的多重人格和当前主人格(比如,警察B的7个人格,警察A 懦弱的少年人格),而镜头要交待这人格,就以具象(或者说不同的人格用不同的来表现)来表现。难题2在观影过程中会被观众慢慢体会并解决。? ? 神探推断为了破案剧情推演之需要,也是为了把某些事件交待清楚。案件X在真实发生时,漆黑一片,根本看不清楚(当时看得一阵抱怨)。神探推断过程中,把这一事件重复交待了一下,不然编剧得被骂死。? ? 最后的关键,是枪的轮转。结局的时候:南亚裔人手里拿的是警察B的枪,警察B手里拿的是警察C的枪,神探手里拿的是警察A的枪,警察A手里拿的是A女友OR老婆的枪。? 根据剧情总结以及神探的推断,两起有枪击的抢劫,应该是警察B所为;一起无枪击的抢劫,应该是南亚裔人所为。? 结局部分设置不合理,再神的探也经不起你们这种乱枪啊亲!警察B试图缴械免死,但神探毕竟不是一般人,重伤之下一枪爆头,不是甩狙,是枪口顶着脑门。其实,那握抢的手,已经变成了观众本人。? ?

看到有影评人士写7个人格就是七宗罪,还是忍不住喷一下。电影这东西,不怕观众看不懂,就怕影评的时候瞎演绎。书评这东西,不怕写得长,就怕照抄某某名人说云云。抄一句也就算了,因为大家都抄,但你TM整段整段复制实在让人无法忍受啊?乐评这东西,不怕青涩和愤怒,就怕开篇离题万里,先是大时代然后某某音乐流派然后八卦没完没了。音乐要是能用文字替代,还有人听么?? ? 我喜欢看的,是你自己写的东西。? 神探

八大案例深度解析电力大数据应用

八大案例深度解析电力大数据应用 麦肯锡曾有报告预测,在全球范围内,大数据分析方案的广泛使用能够带来每年3000亿美元的电费削减。电力大数据的有效应用可以面向行业内外提供大量的高附加值的增值服务业务,对于电力企业盈利与控制水平的提升有很 高的价值。有电网专家分析称,每当数据利用率调高10%,便可使电网提高20%~49%的利润。 电力行业的数据源主要来源于电力生产和电能使用的发电、输电、变电、配电、用电和调度各个环节,可大致分为三类:一是电网运行和设备检测或监 测数据;二是电力企业营销数据,如交易电价、售电量、用电客户等方面数据; 三是电力企业管理数据。通过使用智能电表等智能终端设备可采集整个电力系统的运行数据,再对采集的电力大数据进行系统的处理和分析,从而实现对电网的实时监控;进一步结合大数据分析与电力系统模型对电网运行进行诊断、优化和预测,为电网实现安全、可靠、经济、高效地运行提供保障。 一、电网监测及维护 1.运维监测系统及时反应 Enphase Energy(美国Enphase 能源股份有限公司) Enphase Energy每天从来自80个不同国家25万个系统收集大约2.5TB的数据。这些数据可以用来检测发电和促进远程维护、维修来确保系统无缝运行。另外,Enphase Energy还利用从发电系统收集到的数据来监测、控制或调整网络中的发电和负载状态,在电网和在出错或需要升级时做出相应的反应。 2.设备检修运维专题分析

电力企业可以基于永洪自研发的一站式大数据分析平台开展各业务领域的深度分析,如在电网检修运维领域,通过对电力设备资产管理、设备运检管理、设备技术管理、技改大修管理等方面,从安全、效益、成本三个方面进行关键 指标选取,分析检修管理中“安全”、“效益”、“成本”三者之间的相互影响,协调 三个因素综合最优,同时实现对电网企业检修指标的实时在线监控,为公司检修策略制定提供指导和服务。 (图中分析场景所用的数据为测试数据) 3.预防基础设备故障导致的停电 American Electric Power Co., Inc. (AEP)(美国电力有限公司) 在AEP的资产健康中心,数据分析师把设备派生的运行信息和智能信息应 用程序结合在一起。通过采用大数据算法和分析软件,他们可以密切监测传输基础设施的运行情况。 如今,AEP使用智能电表、通信网络和数据管理系统得到稳健的常规信息。 智能电网技术使客户更有效地用电和合理管理用电成本,收集到的数据也有助于该公司为客户定制电力管理程序和提供个性化定制服务。

现代深度学习方法中数据重要还是算法重要_光环大数据培训

https://www.sodocs.net/doc/eb9874864.html, 现代深度学习方法中数据重要还是算法重要_光环大数据培训 对这个问题,我希望你期待的不是一个简单的是或者否的答案。在过去几年里,数据更重要还是算法更重要这个问题,专家们(以及非专家们)已经进行过许多冗长的辩论,概括其结论,就是二者谁重要取决于许多细节和细微差别,了解需要时间。 我之前回答过一个很相似的问题:在机器学习中,更多的数据总是比更好的算法好吗?我建议先阅读那个答案,可以解决这个问题的80%,然后再回到这个答案来。这两个问题有一些细微但很重要的区别,我将在下面讨论。 首先,我前面回答的问题是指向机器学习(ML)的,而这个问题提问的是人工智能(AI)。机器学习和人工智能是一回事吗?不完全是。实际上,ML 是AI 的一个子领域,ML 特别需要用大量数据来训练算法。而AI 还包括基于逻辑或基于规则的其他方法,这些方法不像ML 那样需要大量的数据。换句话说,假如我们同意在ML 中数据并不总是比算法更重要,那么在范围更广的AI 领域,数据的重要性应该更小。 正如我在另一个问题“市场认为AI 与ML 间的区别是什么?”的答案中提到的,大多数人可能不太在意ML 和AI 之间的区别,往往将它们混合使用。实际上,今天大多数人把AI 当做深度学习的同义词,而深度学习其实是一种特殊的机器学习方法。所以,我认为从深度学习的最新进展的观点来看这个问题更好: 在现代深度学习方法中,数据是否比算法更重要? 是,也不是。的确,深度学习方法非常的“数据饥渴”。深度学习算法有很多参数需要微调,因此需要大量的数据以得出可概括的模型。所以,在这层意义上,拥有大量的数据是

普罗米修斯深度解析

这是一部极好的片子,但是看了一连串的影评,多数是骂娘的,骂娘的都是没看懂,觉得导演糊弄观众了。也有少数影评是在捧,在分析的,但又捧的地方又不对,分析也全不在点上。索性自己写一篇,给自己理思路,也给大家理思路,并请诸位冷静等待斯科特的导演剪辑版。 1. 楔子 一直很好奇中国古典小说的写法。现代小说的写法是要注意结构的,如同砌墙造屋,严丝合缝,首尾相应,不多一条梁,不少一只角。但古典小说却如同一片荒原,四野茫茫。从最遥远处的一星墨点开始勾绘宏大的框架。 西游记的开头是“混沌未分天地乱,茫茫渺渺无人见。”封神榜从盘古开始说起,红楼梦的开头是女娲补天,多出了块石头,故名《石头记》。镜花缘从王母过生日说起;三国和水浒算是写实派,一个从周朝说起,一个从本朝说起 此类楔子几乎成了小说必备,一番长长的叙述,但与之后要开始的故事完全脱节,往往要到了结局时分,才知道楔子的作用。就好似佛所说的因缘,楔子的存在就是为了证因果,讲道理。旧时茶馆里的说书人,讲到结局时,惊堂木一拍,听众恍然大悟,原来中心思想在这里等着你呢! 但最初故事的产生并非为了宣扬枯燥的伦理道德,而是为了纯娱乐。在那个文字还没建立的远古,无书可读,没有电影,没有电视,没有非诚勿扰和原始好声音。夜晚野兽出没,整个部落的人只能点起火堆,围坐在一起,讲天花乱坠的故事,这是消遣,也是一种安全感。 在人类文明发展之后,依然很流行讲故事,只是讲故事这件事开始变得低俗。古人说“文以载道”,但在古人说这句话时,“文”并不包括小说。文是八股文,修身治国平天下。写小说是要被人看不起的(写黄色小说更是被人看不起,至今无人知晓写出《金瓶梅》的兰陵笑笑生的真实身份)所以,小说是不负责“载道”的,要写得跌宕起伏,吸人眼球才是正经事。 到了近一百年,五四运动,中国的小说越写越开始讲道理。于是,鲁迅就开始指责起那些只讲故事而不启民智的鸳鸯蝴蝶派来------这是题外话。 回过来说“载道”。想要“载道”又必须会讲故事,孔孟都是讲故事的好手,诸子百家在各地游说诸侯王,都是要先说段故事,然后才讲道理,于是王信服。《圣经》里全是故事,教人信仰主的奇迹,教人信仰末日审判,教人信仰信主得拯救。 故事载道,这是人类伦理的构成。 就此由言,西方伦理两个重要的来源,一个是希腊神话,一个是《圣经》。 古希腊是西方文明的源头。公元前323年,亚历山大大帝突然病逝,帝国崩坏,四分五裂,希腊逐渐势微,罗马崛起。希腊文化,多神崇拜却一路由罗马延续了下来。公元前27年,在彻底并吞了由希腊人统治的埃及后,屋大维建立了罗马帝国,那些希腊众神,只不过换了个罗马名字,继续供于庙堂中受人膜拜。

我们的大数据时代题目及答案(2016全文本)

1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单选题,本题2分) A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是执行方法。(单选题,本题2分) A:数据存储和备份规范 B:数据管理和维护 C:数据价值发觉和利用 D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是( C)。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B:要求同类数据的内容相似度尽可能小 C:要求不同类数据的内容相似度尽可能小 D:与分类挖掘技术相似的是,都是要对数据进行分类处理

大数据的大价值:大数据五大成功案例深度解析学习资料

大数据的大价值:大数据五大成功案例深度解析 ?作者:Cashcow ?星期四, 四月11, 2013 ?大数据, 航空, 零售 ?暂无评论 大数据的热潮并未有消褪迹象,相反,包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出,在推动大数据企业应用方面,真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国内,虽然管理学界和财经媒体对大数据推崇备至,认为大数据是信息技术改变商业世界的杀手应用,但是关于大数据中国企业的成功案例的报道却出奇地少。 最近《中国企业家》的“大数据专题”特别报道采访了农夫山泉、阿迪达斯中国和数家航班信息移动服务商(前两家为SAP客户),为我们带来了详实的大数据案例报道,非常有参考价值,原文转载如下:就在制作这期“大数据专题”时,编辑部发生热烈讨论:什么是大数据?编辑记者们旁征博引,试图将数据堆砌的商业案例剔除,真正的、实用性强的数据挖掘故事留下。

我们报道的是伪大数据公司?我们是否成为《驾驭大数据》一书的作者Bill Franks所称的“大数据骗局”中的一股力量?同样的质疑发生在阿里巴巴身上。有消息称,3月23日,阿里巴巴以7000万美元收购了一家移动开发者数据统计平台。这引发了专家们热烈讨论,它收购的真是一家大数据公司吗? 这些质疑并非没有道理。 中国确实没有大数据的土壤。“差不多先生”、“大概齐”的文化标签一直存在。很多时候,各级政府不太需要“大数据”,形成决策的关键性数据只有一个数字比率(GDP)而已;其二,对于行业主管机构来说,它们拥有大量原始数据,但它们还在试探、摸索数据开放的尺度,比如说,是开放原始数据,还是开放经过各种加工的数据?是转让给拥有更高级计算和储存能力的大型数据公司,还是将数据开源,与各种各样的企业共享?其三,数据挖掘的工具价值并没有完全被认同。在这个领域,硬件和软件的发展并不十分成熟。即便如此,没有人否认数据革命的到来,尤其在互联网行业。阿里巴巴的马云将大数据作为战略方向,百度的李彦宏用“框计算”来谋划未来。即便是CBA(中国男子篮球职业联赛)也学起了NBA(美国男篮职业联赛)五花八门的数据统计、分析与挖掘。 在过去两年间,大量的资本投资一些新型数据工具公司,根据美国道琼斯风险资源(Dow Jones VentureSource)的数据,在过去的两年时间里,11.7亿美元流向了119家数据库软件公司。去年,SAP 市值已经超过西门子,成为德国市值最高的上市公司,而这样的业绩部分得益于其数据库软件HANA的商业化,去年一年时间里HANA带给SAP3.92亿欧元的收入,增长了142%。 但是,大数据还没法分析、挖掘出自己的直接变现能力。在截稿日时,我们再重新读维克托·迈尔-舍恩伯格(Viktor Mayer-Sch鰊berger)的《大数据时代:生活、工作与思维的大变革》一书,作者相信,未来,数据会成为有价值的资产。假以时日,它会大摇大摆地进入资产负债表里。 案例1:农夫山泉用大数据卖矿泉水

电信运营商大数据业务运营流程深度剖析

电信运营商大数据业务运营流程深度剖析 【摘要】为了对电信运营商大数据业务运营流程进行剖析,首先针对运营商在对外开展大数据业务的过程中所面临的管理困境进行了总结和分析,并从数据资产管理流程及大数据端到端业务流程两方面提出相应的改进建议,以期为电信运营商大数据业务整体推进提供有益的参考。 【关键词】大数据业务数据资产管理流程端到端业务流程 1 引言 2015年,在“互联网+”战略及创新氛围的带动下,三大运营商均已完成大?稻萦τ贸【按幽诓坑τ米?向外部变现的破局。2016年以后,运营商的大数据业务正逐渐走向规模化和商业化。在大数据业务的规模化商业化运营过程中,运营商面临怎样的挑战,又该如何应对,成为值得探讨的问题。 本文将针对运营商的大数据业务运营全流程,从数据资产管理和大数据端到端业务流程两条管理制度流程,详细剖析运营商开展大数据业务所面临的困难,并针对这些困难提供出优化提升的管理建议,以期为后续大数据业务运营管理提供参考。 2 大数据业务管理现状及相关理论介绍

2.1 大数据业务管理现状 运营商在开展大数据业务过程中通常会涉及两条流程支线:数据资产管理流程和大数据端到端业务管理流程。 如图1所示,在大数据端到端业务管理流程方面,大部分运营商已形成了前端部门收集汇总大数据需求,后端部门与外部支撑厂商进行大数据应用功能的具体开发实现的端到端业务管理流程。 如图2所示,在数据资产管理流程方面,大部分运营商仍延续传统的采集存储规则,并未形成针对大数据应用的系统性的数据资产管理流程及制度。完整的数据资产管理是包括针对数据的计划、规范定义、采集存储、提取使用、盘点维护、数据清除环节在内的全生命周期管理,而目前大部分运营商的数据管理仅包含采集存储、提取使用、数据清除环节,且现存管理制度不适应大数据业务特征,制度有效性受限。 2.2 BPMMM和数据质量管理评估维度 (1)业务流程管理成熟度模型 业务流程管理成熟度模型(BPMMM,Business Process Management Maturity Model)是用来评价并提高企业业务流程管理水平的模型,包括外部结构和内部结构。如图3所示,BPMMM的外部结构划分为初始级、可复用级、已定义级、可管理级和优化级五个层级。

Haldane大叔的猜想诺奖深度解析(之三)

图1: S=1 的AKLT 模型基态。每个S=1 的自旋(图中的椭圆)可以拆成两个S=1/2 (图中的黑点),两个S=1/2 又可以组合成一个自旋单态。系统在体内是自旋单态的直积,在左右边界上各有一个S=1/2 的边界态。 Haldane这个猜想为什么如此有名呢?原因有三。其一,80年代以前,人们还沉浸在 Landau的对称破缺理论中,还是习惯于从对称性破缺和长程序来区分物质的不同形态或者相,而 Haldane的猜想犹如一声惊雷,让人们开始关注没有对称破缺的物质形态,里面有一个很大的未开垦的王国,即拓扑物质形态,或拓扑相;其二,整数和半整数自旋的区别完全是量子力学的效应,是量子的威力在宏观的强关联多体系统中的体现,没有经典的物理对应;其三,Haldane预言的量子相在实验上被实现,其猜想的正确性也被大量研究所证实。 Haldane还研究了海森堡相互作用中存在各向异性的情况,阐明能隙的存在是很稳定的,不受 XXZ类型或单离子或其他类型的各项异性项的影响。由于整数自旋(特别是S=1)的反铁磁链中的能隙不受微扰的影响,这个稳定存在的有能隙的量子态构成一个非平庸的量子相(其基态没有对称破缺,但因为存在边界态,而与平庸的有能隙的直积态有本质区别),后来被称为 Haldane phase。 Haldane有着过人的计算能力和良好的物理直觉。其猜想是从准经典的角度,在磁有序的经典基态上考虑量子涨落,并在大的时间和空间尺度下取连续极限,通过场论的分析而得到的。由于其理论相对比较晦涩,这些我们放到本文后半部分讲解,这里先说说 Haldane猜想对后来研究产生的影响。 在 Haldane大叔提出 conjecture之后不久,Affleck-Kennedy-Lieb-Tasaki四位大佬提出了后来以其名字命名的 AKLT模型Affleck et al. [1987](其基态可以严格的得到,如图1所示),简洁而漂亮阐述了S=1的自旋反铁磁链的基态,即 Haldane phase,并证明了其(1)没有反铁磁长程序;(2)具有有限的能隙;(3)具有自旋S=1/2的边界态。其中第三条是 Haldane phase最异乎寻常也最引人注意的地方。可惜的是 Haldane本人没有意识到整数自旋链具有半整数自旋边界态这个奇特性质,后来才被 Tai-Kai Ng从场论角度解释清楚Ng [1994]。看来 Nobel奖级的大人物的思维也有断电的时候:-);亦或是 Haldane大叔宅心仁厚,给后人分一杯羹。

大数据时代题目及答案(三套试题仅供参考)

大数据时代题目及答案(三套试题仅供参考)

第一套试题 1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单选题,本题2分) A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是执行方法。(单选题,本题2分) A:数据存储和备份规范 B:数据管理和维护 C:数据价值发觉和利用 D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是( C)。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别

大数据技术与应用专业深度解析含课程说明师资介绍资料

大数据技术与应用专业深度解析(含课程说明、师资介绍) 大数据技术与应用专业是是新兴的“互联网+”专业,该专业将大数据分析挖掘与处理、移动开发与架构、人软件开发、云计算等前沿技术相结合,并引入企业真实项目演练,依托产学界的雄厚师资,旨在培养适应新形势,具有最新思维和技能的“高层次、实用型、国际化”的复合型大数据技术与应用专业人才。 专业背景 近几年来,互联网行业发展风起云涌,而移动互联网、电子商务、物联网以及社交媒体的快速发展更促使我们快速进入了大数据时代。截止到目前,人们日常生活中的数据量已经从TB(1024GB=1TB)级别一跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别,数据将逐渐成为重要的生产因素,人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。大数据时代,专业的大数据人才必将成为人才市场上的香饽饽。当下,大数据从业人员的两个主要趋势是:1、大数据领域从业人员的薪资将继续增长;2、大数据人才供不应求。 图示说明:2012-2020年全球数据产生量预测 专业发展现状 填补大数据技术与应用专业人才巨大缺口的最有效办法无疑还需要依托众多的高等院校来培养输送,但互联网发展一日千里,大数据技术、手段日新月异,企业所需要的非常接地气的人才培养对于传统以培养学术型、科研型人才为主要使命的高校来说还真有些难度。幸好这个问题已经被全社会关注,政府更是一再提倡产教融合、校企合作来创办新型前沿几

乎以及“互联网+”专业方向,也已经有一些企业大胆开始了这方面的创新步伐。据我了解,慧科教育就是一家最早尝试高校校企合作的企业,其率先联合各大高校最早开设了互联网营销,这也是它们的优势专业,后来慧科教育集团又先后和北京航空航天大学、对外经济贸易大学、贵州大学、华南理工大学、宜春学院、广东开放大学等高校在硕、本、专各个层次开设了大数据技术与应用专业方向,在课程体系研发、教学授课及实训实习环节均有来自BAT 以及各大行业企业一线的技术大拿参与,所培养人才能够很好地满足企业用人需求。 专业示例 笔者在对慧科教育的大数据技术与应用专业做了专门研究,共享一些主要特色给大家参考: 1.培养模式 采用校企联合模式,校企双方(即慧科教育集团和合作校方)发挥各自优势,在最大限度保证院校办学特色及专业课程设置的前提下,植入相应前沿科技及特色人才岗位需求的企业课程。 2.课程体系 笔者对慧科教育的大数据技术与应用专业做了专门研究,现分享一下慧科专业共建的课程给大家参考。慧科教育集团的专业课程重在培养学生的理论知识和动手实践能力,学生在完成每个学期的理论学习后,至少有两个企业项目实战跟进,让学生在项目中应用各类大数据技术,训练大数据思路和实践步骤,做到理论与实践的充分结合。 大数据技术与应用专业的课程体系包括专业基础课、专业核心课、大数据架构设计、企业综合实训等四个部分。

尽职调查深度解析

尽职调查深度解析 (一)尽职调查概念 1、概念 尽职调查又称谨慎性调查,是指投资人在与目标企业达成初步合作意向后,经协商一致,投资人对目标企业一切与本次投资有关的事项进行现场调查、资料分析的一系列活动。 财务尽职调查即由财务专业人员针对目标企业与投资有关财务状况的审阅、分析、核查等专业调查。 2、种类 尽职调查的种类包括四类:法律尽职调查、财务尽职调查、业务尽职调查、 其他尽职调查。 (二)尽职调查的目的 尽职调查就是要搞清楚: 1、他是谁?即交易对手实际控制人的底细和管理团队 2、他在做什么,即产品或服务的类别和市场竞争力 3、他做得如何,即经营数据和财务数据收集,尤其是财务报表反映的财务状况、经营成果、现金流量及纵向、横向(同业)比较 4、别人如何看,包括银行同业和竞争对手的态度

Tips: (1)在做企业尽职调查时,可以以估值模型为线索进行调查;(2)不要忽视目标公司董事会会议记录以及决策等法律文件,里面会包含公司业务的信息,特别是公司战略。 2、财务 (1)历史数据的真实性、可靠性 (2)预测财务数据偏于保守?偏于乐观?预测的依据是什么? (3)是否有表外负债? (4)内控制度的健全性(审计师的内控审计报告) (5)税务问题(除公司自身税务情况外,还需关注收购方案所涉及的税务问题) Tips:在做财务尽职调查时,需与审计师充分沟通,并且与业务尽职调查紧密联系。 3、法律 (1)公司自身的法律情况:重大诉讼和法律纠纷、房产土地的权属问题等 (2)交易所涉及的法律问题:股权结构(类别股权安排,优先股东、期权等问题)、行业监管规定、交易涉及的其他监管规则等。 Tips: 法律尽职调查可以分为两部分,一部分是公司本身的法律情况,需要依赖律师去尽职调查,投行需要关注未来的风险所在;另一部分是交易所涉及的法律问题,此部分投行要充分组织和积极参与讨论,具体的工作可以以律师为主。 4、人力资源

大数据思考与练习答案 (1)

2020学年大数据思考与练习 一、单选题 1.当前大数据技术的基础是由()首先提出的。 A.微软 B.百度 C.谷歌 D.阿里巴巴 2.大数据的起源是()。 A.金融 B.电信 C.互联网 D.公共管理 3.智能健康手环的应用开发,体现了()的数据采集技术的应用。 A.统计报表 B.网络爬虫 C.API接口 D.传感器 4.2012年,()政府发布了《大数据研究和发展倡议》,标志着大数据已经成为重要的时代特征。 A.中国 B.美国 C.日本 D.英国 5.大数据的最显著特征是()。 A.数据规模大 B.数据类型多样 C.数据处理速度快 D.数据价值密度高 6.下列关于大数据特点的说法中,错误的是()。 A.数据规模大 B.数据类型多样 C.数据处理速度快 D.数据价值密度高 7.当前社会中,最为突出的大数据环境是()。 A.互联网 B.物联网 C.综合国力 D.自然资源 8.医疗健康数据的基本情况不包括以下哪项?() A.诊疗数据 B.个人健康管理数据 C.健康档案数据 D.公共安全数据 8.下列关于计算机存储容量单位的说法中,错误的是()。 A.1KB<1MB<1GB B.基本单位是字节(Byte) C.一个汉字需要一个字节的存储空间 D.一个字节能够容纳一个英文字符 9.在数据生命周期管理实践中,()是执行方法。 A.数据存储和备份规范 B.数据管理和维护 C.数据价值发觉和利用 D.数据应用开发和管理 10.大数据时代,数据使用的关键是()。 A.数据收集 B.数据存储 C.数据分析 D.数据再利用 11.大数据的本质是() A.联系 B.挖掘 C.洞察 D.搜集 12.规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是()。 A.大数据 B.贫数据 C.富数据 D.繁数据 13.信息技术的发展非常快,表现在()。 A.集成电路的规模每18到24个月翻一倍 B.信息的存储能力每9个月翻一番 C.信息的存储能力每9个月翻一番 D.光通讯的速率和容量每年翻一番 14.与大数据密切相关的技术是()。 A.蓝牙 B.云计算 C.博弈论 D.WiFi 15.大数据应用需依托的新技术有()。 A.大规模存储与计算 B.数据分析处理 C.智能化 D.三个选项都是 16.数据科学就是从()中提取知识的研究。 A.流量 B.互联网 C.数据 D.人群 17.IBM在3V的基础上又归纳总结了第4个V是指()。 A.真实和准确 B.无时不在 C.巨量 D.极速

大数据时代题目及答案(三套试题仅供参考)

第一套试题 1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B :百度 C:谷歌 D:阿里巴巴 2、大数据的起源是( C )。(单选题,本题 2分) A:金融 B :电信 C:互联网 D :公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题 2分) A:数据管理人员 B :数据分析员 C :研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模B:活性C:关联度D:颗粒度 5、数据清洗的方法不包括(D)。(单选题,本题 2分) A:缺失值处理 B :噪声数据清除 C :一致性检查 D :重复数据记录处理 6、智能健康手环的应用开发,体现了(D)的数据采集技术的应用。(单选题,本题2分) A:统计报表B:网络爬虫C:API接口D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题 2分) A :数据重组是数据的重新生产和重新采集B:数据重组能够使数据焕发新的光芒 C :数据重组实现的关键在于多源数据融合和数据集成 D :数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含(C)。(单选题,本题 2分) A:数字城市B:物联网C:联网监控D:云计算 9、大数据的最显著特征是(A)。(单选题,本题 2分) A:数据规模大B:数据类型多样C:数据处理速度快 D :数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( B )。(单选题,本题 2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是( D )。(单选题,本题 2分) A:数据规模大B:数据类型多样 C :数据处理速度快D:数据价值密度高12、当前社会中,最为突出的大数据环境是( A )。(单选题,本题 2分) A:互联网B:物联网C:综合国力D:自然资源 13、在数据生命周期管理实践中,( B )是执行方法。(单选题,本题2分) A:数据存储和备份规范B:数据管理和维护 C:数据价值发觉和利用D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题 2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是(C)。(单选题,本题 2分) A:1KB<1MB< 1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是( B )。(单选题,本题 2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B:要求同类数据的内容相似度尽可能小 1

史上最全大数据解析

大数据概念:史上最全大数据解析 来源:数据观时间:2015-04-02 17:52:56作者: 现如今,我们身边很多人对一些热门的新技术、新趋势往往趋之若鹜却又很难说得透彻,比如大数据,如果被问大数据和你有什么关系,估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然,在聊天时不会显得很“土鳖”;二是在工作和生活环境中,真正能参与实践的大数据案例实在太少了,所以大家没有机会花时间去知其所以然。 我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。 如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到 BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop 和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。 怎样结构大数据? 首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,

这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。 其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开: 第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

有机化学牛人博客

近年来随着中国对基础研究的经费投入不断增加,中国在基础研究领域取得了长足发展,个人感觉以下10人在化学领域年富力强,所作工作都属国际水平,国内领先。由于个人学识有限,观点难免有失偏颇,还请见谅。加之不同研究领域不好作出比较,本人主要参考依据是其所发文章,及其引用次数,排在后面的几位尽管还不是院士,所发IF>5.0的paper基本也都有30篇左右, 国内同一水平的学者应该还可以找出一些,但要明显高出这10人的恐怕没有几位。纯属一家之言,还望各位大仙指正! No.1 侯建国院士——中国科技大学(选键化学) 他的工作国外同行比较关注,作了副校长依旧发science,鱼和熊掌他兼得了! No.2 李灿院士——中科院大连化物所(催化化学) 天才出于勤奋,科学乐在其中! No.3 麻生明院士——中科院上海有机所(金属有机化学) 他是在两家权威杂志上《Chemical Reviews》,《Accounts of Chemical Research》都撰写过文章的的唯一大陆学者,最年轻的院士。 No.4.吴奇院士——香港中文大学(高分子化学) 美国物理学会会士,他2003年评上院士时,有130篇文章的IF>3.0 No.5 吴云东院士——香港科技大学(理论有机化学) 50多篇jacs,05年上的院士应该没有人不服吧! No.6 高濂——中科院上海硅酸盐所(无机材料化学) 他是大陆仅有2位论文被高频引用的学者之一。不晓得为什么就是上不了院士。 No.7 李亚栋——清华大学(无机化学) 他是正宗本土培养的青年才俊,土鳖可以做的比海龟更为出色 No.8 赵东元——复旦大学(分子筛材料) 已经是全国劳模,明师出高徒。与当年哈佛同门杨,冯等人相比,只有他选择了回国。No.9 江雷——中科院化学所(界面材料化学) 很年轻就坐上863首席,不仅仅是血气方刚。化学所第一牛人。 No.10 杨丹——香港大学(生命有机化学) 香港十大杰出青年国外的牛人多,牛人写的牛博客更多,各位虫友有拿得出手的有机化学牛人博客吗 能分享下吗化学牛人主页 在校内网上看到一同学收集的化学牛人主页,顺便和大家分享一下 有机合成方法学(含Organometallics): 1. B.M. Trost(Stanford University) 课题组网址:https://www.sodocs.net/doc/eb9874864.html,/group/bmtrost/ (其实Trost也做全合成也做方法学的) 2. J.F. Hartwig(University of Illinois at Urbana Champaign) 课题组网址:https://www.sodocs.net/doc/eb9874864.html,/hartwig/ 3. K.B. Sharpless (The Scripps Research Institute) 课题组网址:https://www.sodocs.net/doc/eb9874864.html,/chem/sharpless/

相关主题