搜档网
当前位置:搜档网 › 阿里巴巴 数据分析笔试题以及相关问题

阿里巴巴 数据分析笔试题以及相关问题

阿里巴巴 数据分析笔试题以及相关问题
阿里巴巴 数据分析笔试题以及相关问题

2016阿里巴巴数据分析校园招聘笔试

21道题,100分,60分钟

一、单选题(10)

1.想了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是

A.从中抽取的500名学生的身高

B.上海市全部小学生的身高

C.从中抽取的500名小学生

D.上海市全部小学生

2.以下对k-means聚类算法解释正确的是

A.能自动识别类的个数,随即挑选初始点为中心点计算

B.能自动识别类的个数,不是随即挑选初始点为中心点计算

C.不能自动识别类的个数,随即挑选初始点为中心点计算

D.不能自动识别类的个数,不是随即挑选初始点为中心点计算

3.以下哪个是常见的时间序列算法模型

A.RSI

B.MACD

C.ARMA

D.KDJ

4.有个袋子装有2个红球,2个蓝球,1个黄球,取出球之后不再放回,请问取两次出来

的球是相同颜色的概率是多少

A.0.3333

B.0.2500

C.0.2000

D.0.1667

5.65,8,50,15,37,24,()。括号中的数字是()

A.25

B.26

C.22

D.27

6.一组数据,均值>中位数>众数,问这组数据

A.左偏

B.右偏

C.钟型

D.对称

7. SQL 语言允许使用通配符进行字符串匹配的操作,其中’%’可以表示 A . 零个字符 B . 1个字符 C . 多个字符 D . 以上都是

8. 关于正态分布,下列说法错误的是 A. 正态分布具有集中性与对称性

B. 正态分布的军事与方差能够决定正态分布的位置与形态

C. 正态分布的偏度为0,峰度为1

D. 标准正态分布的均值为0,方差为1

9. 以下不同的场景中,使用分析方法不正确的有

A. 根据商家最近一年的经营与服务数据,用聚类算法判断出天猫商家在各自主营类目下所

属的商家层级

B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C. 用关联规则算法分析出购买汽车坐垫的买家是否适合推荐汽车脚垫

D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

10. 下列时间序列模型中,那个模型可以较好地拟合波动性的分析与预测 A. AR 模型 B. MA 模型 C. ARMA 模型 D. GARCH 模型

二、多选题(5)

11. Excel 工作簿a 中有两列id 、age ,工作簿b 中有一列id ,需要找到工作簿b 中id 对应

的age ,可用的函数包括 A. Index+match B. Vlookup C. Hlookup D. Find E. If F. Like

12. 现在有M 个桶,每个桶都有N 个乒乓球,乒乓球的颜色有K 种,并且假设第i 个桶第

j 种颜色的球的个数为ij C ,比例为ij

ij C R N

=,现在要求颜色纯度越高,下列哪种算法

描述是合理的 A.

()/ij

N K C -∑越小越纯

B. ()-*ij

ij

C LOG R ∑越小越纯

C.

()1-*ij

ij

R R ∑越小越纯

D. ()()1-1-ij

ij

R R ∑越小越纯

E.

()

2

1-ij R ∑越小越纯

F. ()-

*ij

ij

R LOG R ∑越小越纯

13. 关于相关系数,下列描述中正确的有:

A. 相关系数为0.8时,说明两个变量之间呈正相关关系

B. 相关系数等于1相较于相关系数等于-1,前者的相关性更强

C. 相关性等于1相较于相关系数等于0,前者的相关性更强

D. Pearson 相关系数衡量了两个定序变量之间爱你的相关程度

E. Spearman 相关系数可以衡量两个定序变量之间的相关程度

F. 性关系数为0.2相较于-0.8,前者的相关性更强

14. 关于线性回归的描述,以下正确的有

A. 基本假设包括随即干扰项是均值为0的同方差正态分布

B. 基本假设包括随即干扰项下是均值为0的同方差正态分布

C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量

D. 在违背基本假设时,模型不在可以估计

E. 可以用DW 检验残差是否存在序列相关性

F. 多重共线性会使得参数估计值方差减少

15. 下列哪些方法可以用来对高位数据进行降维 A. LASSO B. 主成分分析 C. 聚类分析 D. 小波分析法 E. 线性判别法

F. 拉普拉斯特征映射

三、问答题

16. 程序员A 在某个环境中编写代码,发现这个环境中只有一个函数rand9能产生1-9这9

个数字,请问他该如何使用这个rand9函数编写一个能随机产生1-10的10个数字的rand10函数

18.公司要构建淘宝商家健康指数,所以要对最近1年内交易的淘宝商家进行问卷调研。为

不过于打搅商家,问卷调研采取抽样方式进行确定商家名单。怎样抽取比较好?

19.已知A商家近五年每月的成交数据,请列出两种不同时间爱你序列预测模型可以用来预

测商家接下来三个月的成交,并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法?

20.下面数据是2015年4月1日至4月10日某业务的数据,请对这些数据进行分析并得出

注:数据单位为万

21.你理解中的分析师是什么样的?你觉得自己应聘分析师职位的有事是什么?并说明理

一、异常值是指什么?请列举1种识别连续型变量异常值的方法?

异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。

未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评:考察的内容是统计学基础功底。

二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)

的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程

直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

其流程如下:

(1)从n个数据对象任意选择k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。

点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下:

Member_ID(用户的ID,字符型)

Log_time(用户访问页面时间,日期型(只有一天的数据))

URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)

createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;

点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。

另外,这个答案其实是不对的,实现有很多方法,任由大家去发挥吧。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,

a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?

b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?

a) 从这一周的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。

五、用户调研

某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:

a) 试验需要为决策提供什么样的信息?

c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量,采用分层比例抽样;

需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;

选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。

点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。

综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备好了吗

阿里巴巴的相关信息

1.阿里巴巴的生日是1999年。

2.阿里巴巴的使命是让天下没有难做的生意。

3.我们的愿景是让客户相会、工作和生活在阿里巴巴,并持续发展最少102年(1999年

创办,想跨三个世纪所以定了102年)。

4.双十一购物狂欢节始于2009年11月11日(天猫(淘宝商城)推出的光棍节促销)

5.2015年4月1日至2016年3月21日阿里巴巴的交易额是多少:3万亿,阿里巴巴用

了13年完成的交易金额沃尔玛用了54年

6.阿里巴巴人才观的是:人才是最好的财富、平凡的人做不平凡的事、让员工快乐的工作

7.阿里巴巴价值观:客户第一、团队合作、拥抱变化、诚信、激情、敬业

8.阿里巴巴文化:关乎维护小企业的利益

9.阿里巴巴部门

阿里安全、阿里健康、阿里旅行、阿里妈妈、阿里数娱、阿里通信、阿里影业、阿里云、B2B&农村淘宝、菜鸟、钉钉、高德、国际B2C、国际UED、集团客户体验、聚划算、蚂蚁金服、OS事业群、商家业务、商业智能部、数据技术及产品部、数据应用部、搜索、淘宝、天猫、UC、业务平台、友盟+、中间件

10.飞天开放平台是阿里巴巴集团自主研发的云计算平台,负责管理数据中心Linux集群的

物理资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节。

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

运营岗问题及答案——【阿里面试非技术岗】

1 详情页的优化通过哪几项数据分析? 1.页面停留时间跳失率收藏加够转化 2.与同类优秀产品对比,增加符合自己产品的内容 2 直通车推广主要关注哪几个数据?推广的思路? 展现量 点击率 收藏 加购 转化率 平均点击扣费 投入产出比 首先测试宝贝数据,点击、收藏、加购是否达标,与同类商品对比 宝贝数据没有问题 前期根据宝贝标题的核心关键词来添加直通车关键词,从而让直通车带动自然搜索

中期删除一些数据表现不好的关键词加入一些数据好投产高的关键词 后期加入与核心关键词不匹配但是投产高的一些关键词,竞争宝贝一些引流关键词 3 影响产品权重主要哪几个因素? 收藏加购转化销量停留时间访问深度老客户回访下单旺旺在线时间服务保障退货率纠纷率动销率 动态评分好评率产品违规 4 通过以上几个因素简要说明优化思路 店铺;能开通的保障服务全部开通店铺保证持续上新没有访客流量的宝贝及时下架删除。有能力去加入淘宝的一些资质认证(如极有家ifashion 中国制造)

宝贝;优化宝贝的详情,尽可能的体现宝贝的卖点优势,对买家关注的产品细节特点详细展示,展示一些效果的宝贝实拍图多角度多细节的展示宝贝。宝贝前期人为做一些宝贝的基础销量与评价还有问答家(尽可能带图片,评价真实)前期可以做一些浏览单做收藏加购,做好宝贝的关联营销与搭配套餐。保证产品质量与详情图片和描述相符 新客户;出现问题及时与买家沟通解决,引导买家加入自己的微信做好评返现送礼品 老客户;利用一些工具,微淘短信淘金币活动会员权益与老客户进行互动在自己 微信中的老客户用些价格优势和礼品做一些老客户的回访回购 5 新品的推广方法? 直通车结合问题 4 中宝贝+老客户 6 店铺常用推广方式有哪些你熟悉哪几种 直通车钻展淘宝客活动(天天特价淘金币淘抢购聚划算主题活动) 7 店铺爆款的操作模式 1.直通车+自然搜索 2.活动引爆(淘宝客高佣金) 前期人为做数据数据起来报活动

阿里巴巴数据产品经理工作(总结篇) _0

[ 产品经理] 阿里巴巴数据产品经理工作(总结篇) 2015-3-17 17:07| 发布者: 猫儿 来自: 阿里巴巴PD | 关键词: PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。 科普: PD:对于WEB产品设计人员而言,它的意思是“产品设计人员”,即produce designer。 PD:在IT企业中,一般是Product Director(产品主管)或Project Director(项目主管)的意思 一. 如何做一个好的数据产品经理?

PD(指产品经理,下同)本身就是在做牛做马,关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理(好拗口),相信也有同感。既然要和这么多人打交道,要推动数据产品的上线,数据产品经理自然有着一定的要求。 我的体会如下——也借此去鞭策自己在朝这个方向努力: 1.要极其熟悉公司业务及动向。所以要了解公司的商业模式、战略、以及业务流程、要考核的各种指标,以及指标背后的业务含义等。这一点,再了解都不够。 2.要了解数据分析。好的数据PD,即使不做数据PD,也应该是个数据分析师。数据PD 的一大要务就是将数据分析做成可复制,可自动运转的系统。虽然有数据分析师们围绕在自己周围,但是自己也要清楚业务的问题,分别要看什么数据,或者当数据出现后,意味着业务出现了什么问题或者会出现什么问题。这一点,要向最好的数据分析师们看齐。

3. 要了解数据仓库及商务智能。 这两个关键词背后都是庞大的体系,恐怕我短短半年的转岗时间太短,虽然能够对别人讲解一通商务智能产品的架构。嘴里虽然会抛出若干个类似于汇总,钻取,度量,指标,维度,缓慢变化维,层次,属性,仪表盘等等术语,但是也不支持多几层的知识钻取,遇到异常问题,也不知道该从什么地方分析原因。幸而身边有数据仓库的同事,可以多多学习。这一点,没有天花板。 而商务智能,做为一门学科,起源于20世纪90年代,它的出发点是帮助用户更好地获取决策信息,最初商务智能的动机是为用户提供自助式的信息获取方式,这样,用户就可以不用依赖于IT部门去获取定制的报表。(引自《信息仪表盘》一书P41)。而如今,商务智能除了提供信息,更主要的是降低用户获取数据的门槛,提升数据的实时性等方面。从降低用户获取数据的门槛一个方向,我们就可以做很多事情,比如如何设计信息仪表盘(designing of information dashboard)?如何让数据以更亲和的更直观的方式展示(数据可视化)?如何能够让用户离线访问?如何能够实现警戒数据的主动发送?这一点上,花多少功夫都不多。 4. 要精通数据产品开发流程。数据开发+产品开发。 数据PD的最终目的是要做数据产品。这里要拆开看,其一,数据产品本身也是在线可供用户实现的产品,既然是产品,产品的整套研发思路和普通的产品没有太大区别,用户是谁,他们需求是什么,满足需求需要什么feature list,每个feature list的资源评估以及优先级如何,产品的生命周期如何?这是产品开发。然后他是个数据产品,意味着这比普通的产品,多了更多的要求。在数据这个内核之外,它需要各种feature list,如订阅,搜索,自定义,短信接口,邮件接口等。但是数据这个内核,也需要一套数据开发流程。 比如: 数据源——是否足够,是否稳定——数据PD需要足够了解目前的业务处理系统建设情

阿里数据整合及数据管理体系解读

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。 传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。 阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可 管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和 DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体 的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。 数据体系架构 数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及 管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电 商板块涵盖淘宝、天猫、天猫国际、 B2B 系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的 7大生态。 规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命 名体系,规范定义 将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数 据域、业务过程、原子指标 /度量、修 饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。 规范定义实例 修矗型 维度 ▼ . 1 ▼ ■ T 楼饰词 戶子洁标! 岖廈隱性! 1 嚴生拦标 <■- 一 一 _ 子指标十対刖息割十幔茶词 1 J ----- 1… 二二 — — — — | — --- ---- na ___ —.1 —— —j T V r* .m _ J — * ?■ — — — 一 一 一 — 1 ir ' 疋总事实表 [杷明唧审冥聚合的事 寰表】 ( 明鉅車寬袁 盘原始板度的明堀救据) (把逍担鍵度轲理化的霍表:. ___ t.. ivritw ■近1夫通址奄 的丫 *TTff ](1 009 P*V..WTfl 支讨督糾 P*v _a*Tit 喙巧茗呼 t 金tt 古式

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

最新阿里巴巴现状分析

阿里业务现状介绍 一、阿里业务板块 阿里巴巴是国内最大的电商平台,位列中国互联网巨头“BAT”之一。2017年财年(2016.03~2017.03)收入已达到1583亿元,同比增长57%,5年复合增速51%。 从2017财年起,阿里将其业务分为四大板块: (1)核心电商业务(由国内外的零售、批发电商平台以及营销平台构成); (2)云计算业务(阿里云); (3)数字媒体与娱乐业务(优酷土豆、UC网页等); (4)创新业务及其他(包括YunOS、高德地图、钉钉等)。 核心电商业务目前仍是阿里的主要收入来源,其他业务增长潜力较大。2017财年电商板块的收入为1339亿元,占总营收的85%(2015、2016年财年的占比均在90%以上)。其他业务板块也处于快速的增长期,云计算业务2017财年增长121%至67亿元,数字媒体娱乐业务收入增长271%至147亿元,创新类和其他业务收入增长65%至30亿元。三大潜力业务是阿里生态的重要环节,不仅可以服务于阿里核心电商业务,也有望成为阿里未来收入增长的新引擎。 阿里巴四大业务版块(下图):

阿里起家于电商平台业务,当电商GMV从高速增长向中速增长的过程中,阿里业务需要进一步向横向、纵向两个维度扩张。平台业务模式的核心是数据的掌控。 阿里巴巴向横/纵两个维度成长(下图): 阿里巴巴生态圈(下图): 从本次案例分析,主要着重分析其电商平台-制度成本 交易数据-交易成本 物流对应-物流成本 支付-支付成本 二、阿里的电商业务情况、收入来源及构成 1)GMV及活跃客户情况情况

2017财年,阿里GMV(GMV=1销售额+2取消订单金额+3拒收订单金额+4退货订单金额)约为3.8万亿。2013财年突破1万亿后,GMV年均复合增长率为36.8%。 时至今日,阿里仍然是中国唯一交易总金额超过1万亿的电商平台。 阿里庞大GMV已高度“移动化”:2017财年GMV中79%来自移动端,较2016财年提高了14个百分点。2014财年,移动端GMV突破3000亿元、2017财年接近3万亿,年均复合增长率达110%。 2)活跃用户数及人均消费 2017财年,电商平台的活跃买家总数为4.54亿,近三年的平均复合增长率为21.2%。

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师(北京) 一、10道填空,每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT!小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果? A 0 B 10 C 25 D50 答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。。。 2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法,k_means。 5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定 应该是B吧。 6、precision、ecall、ROC。 剩下的不记得了。 二、三道题,每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率? 答案:貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义,具体步骤。并举一个适合用层次分析法的案例。 三、两道题,每题20分。 1、淘宝上有一些小众但是品位高的店铺,怎么把他们筛选出来捏? 2、双十一的时候,商家会发优惠券,从商家和平台两个角度设计评价指标,并分析指标不同结果应该对应怎样的措施。 资料:优惠券分两种:满200减50,满300减100. 发放日期:10月15-11月10 使用日期:11月11 希望对大家有所帮助!

产品类面试真题阿里笔试非技术岗

产品类面试真题 Q:你的互联网项目产品经历 Tips:具体小问题包括:①如何发现的需求?②如何开展项目?③产品有什么问题?④如何解决?⑤团队组成?如何分工?⑥担当角色发挥的作用?答:从产品定位、功能、解决 Q:说出你印象最深刻的项目? Tips:从项目内容,你在当中的作用,你的收获谈起。当中出现的问题、数据调查、运营手段、取得成果等角度来谈。之后面试官会从中问下实施细节,说的时候最好可以体现你在团队中的职务,取得的效果,从中的收获? Q:你觉得90后身上具备什么素质? A:首先,具备什么素质因人而异。但大部分90后,平均智商偏高(受到良好的教育);对新鲜事物的接受能力较强;乐天派,有激情,有活力。 Tips:这是一道考情商的题,不要说的太极端就好, Q:简单的谈谈你的实习经历? Tips:如果你做过产品相关工作,就谈这个,如果没有,就谈产品经理应该具备的一些能力所对应的经历。 Q:你对产品经理的理解 A1:产品经理是生孩子的,运营是养孩子的。是一个团队的粘合剂,将各个部门联系到一起。 A2:产品经理是一个非常典型的“门槛在里面”的岗位,看上去谁都能做,其实个体间能力的相差能够非常之大。个人觉得对这个问题的回答,很大程度上就决定了此次面试的结果,建议大家看一看《启示录:打造用户喜爱的产品》和《腾讯方法》这两本书以加深理解。 个人建议可以从这么几个方向入手:产品经理是做啥的、产品经理需要具备哪些能力、产品经理对于整个团队的重要性、产品经理的自我完善与成长路径、自身条件与产品经理职位需求的契合度。 Tips: ①我理解的PM需要具备:需求挖掘,数据分析,团队沟通,执行力等方面的能力~ ②为什么要做PM:从a自己的愿景、b能力与岗位的匹配、c提升能力,这三个角度回答问题。 做产品的大前提是要喜欢产品,不然将来你痛苦,团队痛苦,用户也痛苦,是不是?网络

毕业生笔试题:阿里巴巴数据分析笔试题

《毕业生:阿里巴巴数据分析师笔试题》 最近,网上放出了IT大佬们的一些考题出来,让人竞相争看,倒地这些大牛公司的择贤条件是如何的呢?大圣众包(https://www.sodocs.net/doc/d47266683.html,)威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题,让大家提前试试水。答案在最后,可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 三、根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致) 四、销售数据分析 根据某一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师, a)从数据中,你看到了什么问题?你觉得背后的原因是什么? b)如果你的老板要求你提出一个运营改进计划,你会怎么做? 五、用户调研 某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题: a)试验需要为决策提供什么样的信息? b)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

———————————————答案分割线——————————————— 一、 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以FrankE.Grubbs命名的),又叫maximumnormedresidualtest,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 【点评】考察的内容是统计学基础功底。 二、 聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchicalmethod)、划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后

阿里巴巴品牌数据银行分析师考试题库答案

答案在最后一页 1.人群放大功能的放大倍数最高不超过50倍,放大后的最大值不超过1000万,这种 说法正确吗? 2.如有有授权店铺,品牌可以圈选浏览店铺指定商品大于2天的人群。这种说法正确 吗? 3.品牌希望在数据银行收割预售期高意向人群,应该在哪里操作? 4.数据银行自定义人群创建完成后,当天即可查看分析报告,这种说法正确吗? 5.天猫超市是数据银行现有的数据应用通道,这种说法正确吗 6.支持接通了天猫超市触达通道,可以进行天猫超市的个性化翻牌,试用派发,优惠 券等消费者运营触达,人群包的人数要求大于等于1万,这种说法正确吗 7.365天内购买过品牌商品大于等于2次的消费者是忠诚消费者,这种说法正确吗 8.数据银行中关于会员的定义,如果是会员通品牌商,则会员定义是:“已领卡的消费 者;如果是非会员通品牌商,则会员的定义是:交易笔数或者交易金额已达到品牌商自己设置的门槛的消费者”这种说法正确吗 9.某男装品牌想对不同品类的老客发不同的短信内容,需要的操作是:先在数据银行 圈选出不同品类的老客,然后讲各老客人群同步至CRM,最后在CRM端将不同短信内容和人群进行设定,这种说法正确吗? 10.权限分组之间创建的自定义人群、营销活动人群、上传人群以及数据应用人物相互 隔离,且支持分组之间自定义人群的相互授权,这种说法正确吗? 11.月均消费金额的定义是什么? 12.全部创建的营销活动人群都可以查看报告。这种说法正确吗? 13.新零售版里面,人群应用通道默认包含BrandHub、达摩盘、istoreCRM、地动仪、

支付宝、Unidesk.这种说法正确吗? 14.人群透视中月均消费金额属性,是最近一年内消费者在淘宝天猫上的月均消费金额。 这种说法正确吗? 15.品牌-搜索中,搜索行为是从全网拉取XX关键词的人群,产出搜索改关键词且是该 品牌的人群。这种说法正确吗? 16.某品牌怀疑自己的会员活跃度在下滑,希望从数据银行中得到数据论证,我们可以 直接查看消费者分析模块看板中的会员活跃率这个指标。这种说法正确吗? 17.数据融合中,人群上传后能够匹配到的范围是哪个? 18.新增上传人群中,上传文件的匹配方式是什么? 19.月报中统计的消费者总量是相应时间段内覆盖的消费者总数,因此,某个消费者既 存在于A里面,又存在于P里面,这种说法正确吗? 20.自定义人群设置更新的周期最长不超过多少天? 21.对比同行业TOP5品牌时,品牌能了解到TOP5品牌优哪些。这种说法正确吗? 22.假设某个人群的总数为100万,最近15Ian踩过“阿里妈妈”触点的有30万人, 其中最近15天踩过“钻石展位”触点的有10万人,那么该人群“钻石展位触点” 的占比为多少? 23.FAST包括活跃消费者、关系周加深率、会员数和活跃会员数量。这种说法正确吗? 24.品牌在圈选双11期间品牌购买人群的新增数量时,需要同时差去品牌双11前PL 人群,这种说法正确吗? 25.目前数据银行接通了地动仪线下通道,暂时只开放到零售角色使用。这种说法正确 吗? 26.自定义分析中,全链路状态AIPL一般默认能取到的最长时间限为()

阿里巴巴数据分析

图一:整体变化时间序列数据图 从图中可以看出: 阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势;股东权益2012年~2013年减少,2013年~2015年开始大幅增长;营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定,稳中有涨。整体分析: 从资产构成来看,流动资产所占总资产的比重在逐年下降,止2015年为55.63%,而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降,但仍高于非流动资产所占比重,在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加,经营规模扩大,资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长,股东权益却呈下降趋势,说明资产的增长主要是来源于负债的增加,而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险,转而采取了较稳健的财务政策。 图二:偿债能力时间序列数据图 从图中可以看出: 2012年~2013年资产负债率呈现大幅增长,而从2013年~2015年该比率发生扭转开始平稳下降。 偿债能力分析: 从资产负债率变化的角度来看,该比率在2012年-2013年大幅增加,这可能导致债权人的权益无法得到保障,因为资产负债率越高,说明企业的长期偿债能力就越弱,债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动,进行资产结构优化,从而降低负债带来的企业风险,提高了债权人的保证程度。

2017阿里巴巴招聘笔试题

2017阿里巴巴招聘笔试题 1、iBatis相比JDBC优势的优势有哪些? 答:简单易上手、开发速度快、面向对象,数据库可移植。 (此处应该将优缺点一起分析,才是满意得到回答) 延伸学习: MyBatis和iBatis的区别: ibatis本是apache的一个开源项目,2010年这个项目由apache software foundation 迁移到了google code,并且改名为mybatis (1)Mybatis实现了接口绑定,使用更加方便: 在ibatis2.x中我们需要在DAO的实现类中指定具体对应哪个xml映射文件,而Mybatis实现了DAO接口与xml映射文件的绑定, (2)对象关系映射的改进,效率更高 iBatis: 优点 : 代码量减少、简单易上手、SQL语句和代码分离(便于修改)、数据库可移植 缺点:SQL语句需要自己写、参数只能有一个 Hibernate: 优点:对象关系数据库映射、完全面向对象、提供缓存机制、HQL编程 缺点:不能灵活使用原生SQL、无法对SQL优化、全表映射效率低下、N+1的问题 JDBC、iBatis、Hibernate明显对比: JDBC更为灵活,更加有效率,系统运行速度快。但是代码繁琐复杂,有的时候用了存储过程就不方便数据库移植了。 hibernate,iBatis 关系数据库框架,开发速度快,更加面向对象,可以移植更换数据库,但影响系统性能。 JDBC:手动 手动写sql,不能直接传入一个对象、不能直接返回一个对象。 iBatis的特点:半自动化 手动写sql,能直接传入一个对象、能直接返回一个对象。

Hibernate:全自动 不写sql,自动封装,能直接传入一个对象、能直接返回一个对象。 2、PrepareStatement相比statement,有哪些优点? 答: (1)直接使用Statement,驱动程序一般不会对sql语句作处理而直接交给数据库; 使用PreparedStament,形成预编译的过程,并且会对语句作字符集的转换(至少在sql server)中如此。 如此,有两个好处:对于多次重复执行的语句,使用PreparedStament效率会更高一点,并且在这种情况下也比较适合使用batch;另外,可以比较好地解决系统的本地化问题。 (2)PreparedStatement还能有效的防止危险字符的注入,也就是sql注入的问题。(但是必须使用“对?赋值的方法”才管用) 3、TCP/IP对应于OSI七层模型的哪些层? 答: OSI七层模型分别是:应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 TCP/IP协议不是TCP和IP协议的合称,而是指因特网整个TCP/IP协议族。从协议分层模型方面来看,TCP/IP由四个层次组成:网络接口层、网络层、传输层和应用层。 延伸学习: 应用层:由用户自己规定,只要形成的消息能与表示层接口。这包括各机互访协议,分布式数据库协议等。 表示层:是在满足用户需求的基础上,尽可能的节省传输费用而设置的。如文本压缩、常用词转换、加密、变更文件格式等。这就是说,只要能表示用户所需的信息,形式上可以改变,并尽可能形成标准格式,以利于传送。 对话层:是为用户之间对话的进行而设置的,这包括建立和拆除对话,确定对话对象。如不是授权的对话者,就不予送出信息,以达到可靠的要求,这一层也可与传输层合并。 传输层:就是使主机之间或信源和信宿之间能互通信息。这一层因此也可以被称为源--宿层或端--端层,这一般是主机操作系统的一部分。它负责把上一层

2017阿里巴巴年度零售情况分析

2017阿里巴巴年度零售情况分析

“2017年已划上句号,2018崭新的一年已经开始!根据数据统计显示:2017年阿里中国零售平台GMV规模达46350亿,同比增长30%。其中,天猫跟淘宝网分别达到21090亿及25260亿,同比分别增长43.9%及20%! 数据来源:云观咨询、中商产业研究院整理 受益于中国电子商务的高速发展,阿里巴巴中国零售平台近几年在自身基数已经非常大的情况下GMV还保持着相当不错的增长!并且能在2016年以21%的增幅处于最低谷的时期,还能够快速调整过来并在2017年交出近30%的增长成绩,GMV突破4.5万亿,实在不易! 同期中国社会消费品零售总额2016年约33.23万亿,2017年预估约36.65万亿增长约10.3%,阿里中国零售平台GMV增长领跑社零近3倍,占比社零约12.6%!预测阿里巴巴将在2019年底完成1万亿美元的目标

数据来源:云观咨询、中商产业研究院整理 在2012年1月阿里将原来的淘宝商城正式更名为现天猫的时候,这将注定是中国电子商务尤其是B2C发展历程当中重要的一件大事!同时天猫也迎来了高速发展的黄金时期,五年时间,由2000亿到2万亿规模翻了近10倍! 在2016年短暂的增长低谷后,2017年加紧大力完善菜鸟网络,发力天猫超市等,补足了以往短板的物流板块,从而2017年消费电子及快速消费品等品类得以爆发增长,再加上新零售模式软硬件的进一步完善,线上线下系统等对接的进一步成熟,唤醒了服饰等传统龙头品类的第二春,多方面发力从而拉动了2017年整体44%的增长! 天猫自身体量首次突破2万亿大关,并且占比阿里中国零售平台整体份额由2012年的22.6%升至2017年的45.5%,如不出意外2018年天猫就将占据半壁江山!

数据分析师笔试题目

网易数据分析专员笔试题目 一、基础题 1、中国现在有多少亿网民? 2、百度花多少亿美元收购了91无线? 3、app store排名的规则和影响因素 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站 二、计算题 1、关于简单移动平均和加权移动平均计算 2、两行数计算相关系数。(2位小数,还不让用计算器,反正我没算) 3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离 三、简答题 1、离散的指标,优缺点 2、插补缺失值方法,优缺点及适用环境 3、数据仓库解决方案,优缺点 4、分类算法,优缺点 5、协同推荐系统和基于聚类系统的区别 四、分析题 关于网易邮箱用户流失的定义,挑选指标。然后要构建一个预警模型。

五、算法题 记不得了,没做。。。反正是决策树和神经网络相关。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征?

阿里巴巴笔试题

1.自我介绍 2.介绍一个你所做过的测试项目 3.bug状态的转换,及各状态转换执行人是谁 4.介绍软件测试流程 5.如果你和开发人员出现分歧怎么办 6.如果第二天就到交付日了,回归测试还没有执行完毕,你该怎么办? 7.你有女/男朋友么?你未来如何打算? 8.你还有什么要问我的问题么? 9.我是做功能测试的,功能测试比较枯燥,你怎么认为? 、要对语句A>1 OR B <= 3 测试……(不记得了)100%覆盖,至少要多少测试用例 2、典型的针对系统漏洞的Dos攻击? 3、4,2,2,3,6,15,(?)A,20 B,24 C,25 D,45 4、3升,5升,7升量筒,已知3、5量筒装满水,7量筒为空,问至少要倒多少次才能使其中一个量筒的水为4升 5、太长了 6、太长了 7、保护邮件安全的软件? 8、普通用户执行超级用户文件的指令 9、软件测试对象 10、软件缺陷生命期 11、OPENAPI平台 12、超长字符串攻击属于? 13、项目的最重要的是()和() 14、可能引起Cross Site Scripting攻击的是? 15、马可夫模型(HMM)的三个基础?(非选择) 16、有序集合a, b,求交集(非选择) 转载请注明出自应届生求职招聘论坛https://www.sodocs.net/doc/d47266683.html,/,本贴地址:https://www.sodocs.net/doc/d47266683.html,/thread-33014-1-1.html DBA笔试题 一:SQL tuning 类 1 列举几种表连接方式 等连接、非等连接、自连接、外连接(左、右、全)

2 不借助第三方工具,怎样查看sql的执行计划 I) 使用Explain Plan,查询PLAN_TABLE; EXPLAIN PLAN SET STA TEMENT_ID='QUERY1' FOR SELECT * FROM a WHERE aa=1; SELECT operation, options, object_name, object_type, ID, parent_id FROM plan_table WHERE STA TEMENT_ID = 'QUERY1' ORDER BY ID; II)SQLPLUS中的SET TRACE 即可看到Execution Plan Statistics SET AUTOTRACE ON; 3:如何使用CBO,CBO与RULE的区别 IF 初始化参数OPTIMIZER_MODE = CHOOSE THEN --(8I DEFAULT) IF 做过表分析 THEN 优化器Optimizer=CBO(COST); /*高效*/ ELSE 优化器Optimizer=RBO(RULE); /*高效*/ END IF; END IF; 区别: RBO根据规则选择最佳执行路径来运行查询。 CBO根据表统计找到最低成本的访问数据的方法确定执行计划。 使用CBO需要注意: I) 需要经常对表进行ANALYZE命令进行分析统计; II) 需要稳定执行计划; III)需要使用提示(Hint); 使用RULE需要注意: I) 选择最有效率的表名顺序 II) 优化SQL的写法; 4 如何定位重要(消耗资源多)的SQL 使用CPU多的用户session SELECT a.SID, spid, status, SUBSTR (a.program, 1, 40) prog, a.terminal,a.SQL_TEXT, osuser, V ALUE / 60 / 100 V ALUE FROM v$session a, v$process b, v$sesstat c WHERE c.statistic# = 12 AND c.SID = a.SID AND a.paddr = b.addr ORDER BY V ALUE DESC; 5 如何跟踪某个session的SQL 利用TRACE 跟踪 ALTER SESSION SET SQLTRACE ON; COLUMN SQL format a200; SELECT machine, sql_text SQL

2015年阿里校招数据分析师笔试题

2015年阿里校招数据分析师笔试题 2015年8月19日,阿里校招数据分析师题。共计21题(单选漏了一题,选择题每个人的都不一样,问答题是一样的。暂时没有答案,希望对大家有用。 单选题: 1、观测宇宙中单位体积内星球的个数,属于什么分布: A学生分布B泊松分布C正态分布D二项分布 2、一些关于数据挖掘说法是正确的 A数据挖掘是万能的 B如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了 C数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法 DABC均有错 3、已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别: A2,9;B4,9C4,4.5;D2,4.5 4 、下面算法中哪一种不属于广义线性回归算法 A生存模型算法 Bbeta回归算法 Clogit回归算法 D判别分析算法 5、有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句? Aproc sort Bproc rank Cproc univariate

Dproc freq 6、X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率。 A0.84375 B0.75275 C0.65275 D0.80370 7、下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是? A回归系数的符号与专家经验知识不符 B方差膨胀因子(VIF)<5 C其中两个预测变量的相关系数>=0.85 D变量重要性与专家经验严重违背 8、由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算 A采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值 B采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值 C采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环 D采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环 9、请找出数列4,9,23,60,157的下一项() A 411 B 314 C 425 D ABC均错 10(应该是没统计上) 多选题 11、以下哪个语法不是R的基础语言 Aproc glot

2014阿里巴巴笔试题

2014年阿里巴巴秋季校园招聘 系统工程师笔试卷 第一部分单选题(前10题,每题2分;后10题,每题3分;共50分。选对得满分,选错倒扣一分,不选得0分。) 1.字符串“alibaba”有个不同的排列。 A. 5040 B. 840 C. 14 D.420 2.下列一段C++代码的输出是 A 。 class Base { public: int Bar(char x) {return (int)(x);} virtual int Bar(int x) {return(2*x);} }; class Derived :public Base { public: int Bar(char x) {return(int)(-x);} int Bar(int x) {return (x/2);} }; void main(void) { Derived Obj; Base*pObj=&Obj; printf("%d,",pObj->Bar((char)(100))); printf("%d,",pObj->Bar(100)); } A. 100,50 B. -100,200 C. -100,50 D. 100,200 3.有一个二维数组A[10][5],每个数据元素占1个字节,且A[0][0]的存储地址是1000,则A[i][j]的地址是。 A. 1000+10i+j B. 1000+i+j C. 1000+5i+j D. 1000+10i+5j 4.下列不是线性表? A. 队列 B. 栈 C. 关联数组 D. 链表

5. 下列有关在一个处理器(processor)上跑两个线程(thread)的说法中,正确的是。 A. 一个线程可以改变另一个线程的程序计数器(program counter) B. 一个线程既不能读也不能写另一个线程的栈(stack) C. 一个线程可以读写另一个线程的寄存器(register) D. 以上都不对 6.关于双链表的搜索给定元素操作的说法正确的是。 A. 从两个方向搜索双链表,比从一个方向搜索双链表的速度慢 B. 从两个方向搜索双链表,比从一个方向搜索双链表的方差要小 C. 从两个方向搜索双链表,比从一个方向搜索双链表速度要快 D. 以上说法都不正确 7.对n个数字进行排序,期中两两不同的数字的个数为k,n远远大于k,而n的取值区间长度超过了内存的大小,时间复杂度最小可以是。 A. O(nlogk) B. O(nk) C. O(n) D. O(nlogn) 8.一台指针式钟表的时钟和分钟的指向重合的时间间隔是 B 。 A. 720/13分钟 B. 720/11分钟 C. 60分钟 D. 以上都不正确 9.两个大小不同的杯子R和S,R中装着一定量的小米,S中装着一定量的沙子。一名儿童用勺子从S中取出一勺沙子放入R,与小米混合之后,再从R中取出等体积的一勺混合物放入S。假定两勺物品的体积相等,且R和S都没有发生溢出。则以下说法中正确的是。 A. R中的沙子和S中的小米一样多 B. R中的沙子比S中的小米少 C. R中的沙子比S中的小米多 D. 无法判断 10.假定抛出的硬币落地之后正反两面出现的概率分别是1/2。那么抛10次和100次硬币(分别称为T10和T100)相比,以下说法正确的是。 A. T100出现一半的正面比T10出现一半正面的概率更大 B. T100前3次都是正面的概率比T10前3次都是正面的可能性大 C. T100正面次数的方差小于T10出现正面次数的方差 D. T100出现正面的比例比T10出现正面的比例在(0.45,0.55)区间中的可能性更大。 11.某福彩机构推出了一款简单的猜谜游戏:游戏玩家只需交纳n元,赌红或者黑。如果开奖结果与游戏玩家所赌的颜色相同,则玩家除得到交纳的n元赌资外,还可以获得n元作为奖励;否则该玩家失去交纳的n元赌资。为了游戏公平,开奖是红或者黑的概率均为1/2。某游戏玩家想出了一个玩法:开始出100元参与赌博,然后按照如下规则进行游戏,如果输掉,并且赌资充足,就把已经输了的总钱数翻倍作为赌资进行赌博;否则,就停止该游戏。假定该机构赌资无限,而玩家的赌资比较有限,以下关于该玩家退出游戏时的情形的评论中合理的是:。 A. 该玩家的策略可以保证游戏结束时赢钱数的期望为正数 B. 该福彩机构长期会赔钱 C. 该玩家会有一定概率在游戏结束时输钱,但输得不多

相关主题