搜档网
当前位置:搜档网 › 解码阿里大数据

解码阿里大数据

解码阿里大数据
解码阿里大数据

解码阿里大数据

大数据时代,阿里巴巴集团是最有资本进行烂漫遥想的公司之一,阿里数据平台事业部的服务器上,攒下了超过100PB已“清洗”的数据。

马云曾在2012年公开宣称,“平台、数据、金融”是阿里集团和阿里小微集团未来的指导路线。在此前后,战略布局已经渐次展开:2010年,推出重整的搜索业务“一淘”,2011年收购数据属性公司CNZZ,近期又接连收购友盟、入股新浪微博和高德,抢占数据源;在物流领域,阿里由天猫主导建设了与各大配送公司对接的“天网体系”,最近牵头成立智能骨干物流网络“菜鸟科技”,构建物流信息数据平台。

阿里数据十年铸剑,如今只是起手开了个局。

十年进化

从报表到分析工具、flash,阿里的数据产品越来越没“数据味”。

从2003年淘宝起步开始,阿里集团数据平台事业部负责人“七公”(本名汪海)就一直在与数据打交道,他的经历勾勒出了这家数据巨人的演变轨迹。

阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起初非常粗糙,无非数据库、IT系统,随后开始

统计分析行业的基础指标,比如PV、UV等,当时的淘宝数据部门只有数名员工。

在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手――易趣,当时eBay、亚马逊都已成立成熟的BI部门。恰是与易趣的竞争,推动了阿里的数据应用。据淘宝内部人回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化分析需求,淘宝的数据团队开始积累流量数据的分析经验。

2004-2005年,淘宝逆转易趣,业务量激增,品类快速扩张,数据量随之跃升。淘宝开始意识到,不能再靠拍脑袋做经营决策了,需要实时观察掌握用户量和交易量的变化,进行精准分析。

2005年,淘宝成立商业智能部门,成为当时淘宝技术研发部门负责人姜鹏的直属部门。这一年,阿里拥有了第一款严格意义上的数据产品――“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。同年,阿里切入搜索、广告业务――两项业务均带有天然的数据属性,成为阿里大数据运营的开端。七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性更明确――搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI(投资回报率)。

2009年,阿里数据开始进入产品化时代。“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。

阿里的对外数据产品也浮出水面。脱胎于“雅虎统计”的工具“量子恒道”,为外部商户提供统计分析工具,用于跟踪自有店铺流量、点击、购买等数据的变化。

与数据产品的大裂变同步,2009年,阿里的数据技术架构,开始大变革。此前一年加入阿里出任首席架构师的王坚,一手主导了阿里架构从Oracle商用系统向Hadoop开源平台的迁移。相比IBM、Oracle等商用系统,Hadoop平台的优点是成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。

同年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一,开发出“云梯1”系统,以实现全集团所有数据的打通、整合的管理和共享。

这一系列变革之后,阿里最高层提出了“数据开放”。2010年初,淘宝推出“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成为了大中型商户追捧的数据利器。产品研发发端于阿里数据平台团队对客户的走访。当时,宝洁公司提出,希望了解行业数据,以帮助其经营决策。数据团队的员工提出,与其case by case解决,不如直接产

相关主题