搜档网
当前位置:搜档网 › 2014年阿里巴巴数据分析师笔试题

2014年阿里巴巴数据分析师笔试题

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师(北京)

一、10道填空,每题3分

1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT!小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果?

A 0

B 10

C 25 D50

答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。。。

2、标号12345的5个球,一次取两个,和为3或者6的概率是多少?

答案:0.3。不解释。

3、考了LOGISTIC回归。

4、聚类分析法,k_means。

5、其他条件相同,置信水平越低,则置信区间上下限差值越()

A.越大

B.越小

C.为0 D不确定

应该是B吧。

6、precision、ecall、ROC。

剩下的不记得了。

二、三道题,每题10分。

1、已知每10万人中有1人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率?

答案:貌似所有的讲全概率公式的书上都有这道题。

2、SQL

两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。

3、层次分析法AHP的含义,具体步骤。并举一个适合用层次分析法的案例。

三、两道题,每题20分。

1、淘宝上有一些小众但是品位高的店铺,怎么把他们筛选出来捏?

2、双十一的时候,商家会发优惠券,从商家和平台两个角度设计评价指标,并分析指标不同结果应该对应怎样的措施。

资料:优惠券分两种:满200减50,满300减100.

发放日期:10月15-11月10

使用日期:11月11

希望对大家有所帮助!

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

阿里巴巴实习生笔试题含答案

阿里巴巴实习生笔试题含答案

答案:D 内联函数: Tip:只有当函数只有10 行甚至更少时才将其定义为内联函数. 定义: 当函数被声明为内联函数之后, 编译器会将其内联展开, 而不是按一般的函数调用机制进行调用. 优点: 当函数体比较小的时候, 内联该函数能够令目标代码更加高效. 对于存取函数以及其它函数体比较短, 性能关键的函数, 鼓励使用内联. 缺点: 滥用内联将导致程序变慢. 内联可能使目标代码量或增或减, 这取决于内联函数的大小. 内联非常短小的存取函数一般会减少代码大小, 但内联一个相当大的函数将戏剧性的增加代码

大小. 现代处理器由于更好的利用了指令缓存, 小巧的代码往往执行更快。 结论: 一个较为合理的经验准则是, 不要内联超过10 行的函数. 谨慎对待析构函数, 析构函数往往比其表面看起来要更长, 因为有隐含的成员和基类析构函数被调用! 另一个实用的经验准则: 内联那些包含循环或switch 语句的函数常常是得不偿失(除非在大多数情况下, 这些循环或switch 语句从不被执行). 注意:有些函数即使声明为内联的也不一定会被编译器内联, 这点很重要; 比如虚函数和递归函数就不会被正常内联. 一般, 递归函数不应该声明成内联函数.(递归调用堆栈的展开并不像循环那么简单, 比如递归层数在编译时可能是未知的, 大多数编译器都不支持内联递归函数). 虚函数内联的主要原因则是想把它的函数体放在类定义内, 为了图个方便, 抑或是当作文档描述其行为, 比如精短的存取函数. -inl.h文件: Tip:复杂的内联函数的定义, 应放在后缀名为-inl.h 的头文件中.

阿里数据整合及数据管理体系解读

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》,这本书确实内容非常详实,全是干货,值得反复品味。刚刚看完第9章,讲的是数据整合及管理体系,觉得非常好,设计得非常精妙,只看看觉得还不能深刻理解,遂做个读书笔记按照自己理解重构整理一遍,同时补充上自己的解读分享给大家,推荐给准备搭建数据产品或者数据平台的人。 传统企业的业务变化相对不快,但使用一般的表格文档来管理数据过程也已经越来越困难,更何况互联网这样迅速变化的业务,做好数据整理及管理的难度可想而知,但阿里的数据团队还是形成了完成的方法体系,并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。 阿里大数据建设方法论的核心就是,从业务架构设计到模型设计,从数据研发到数据服务,做到数据可 管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层(ODS )和数据中间层(DWD和 DWS ),通过数据服务和数据产品,完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体 的方法论以及相关的产品两个部分,通过产品把方法论固化为标准的流程和操作,达到数据管理的目的。 数据体系架构 数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及 管理,维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外,如何定义每个术语的涵义,准确定义术语非常关键,有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业务板块:根据业务的属性划分出相对独立的业务板块,业务板块间指标和业务重叠性较低,比如电 商板块涵盖淘宝、天猫、天猫国际、 B2B 系,金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的 7大生态。 规范定义:结合行业的数据仓库建设经验和阿里数据自身的特点,设计出的一套过程方法和数据规范命 名体系,规范定义 将用于模型设计中。规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数 据域、业务过程、原子指标 /度量、修 饰类型、修饰词、时间周期、派生指标规则,下图是它们之间的关系, 以及具体实例。 规范定义实例 修矗型 维度 ▼ . 1 ▼ ■ T 楼饰词 戶子洁标! 岖廈隱性! 1 嚴生拦标 <■- 一 一 _ 子指标十対刖息割十幔茶词 1 J ----- 1… 二二 — — — — | — --- ---- na ___ —.1 —— —j T V r* .m _ J — * ?■ — — — 一 一 一 — 1 ir ' 疋总事实表 [杷明唧审冥聚合的事 寰表】 ( 明鉅車寬袁 盘原始板度的明堀救据) (把逍担鍵度轲理化的霍表:. ___ t.. ivritw ■近1夫通址奄 的丫 *TTff ](1 009 P*V..WTfl 支讨督糾 P*v _a*Tit 喙巧茗呼 t 金tt 古式

阿里巴巴_2014_用户体验研究专员_实习生_笔试题

加权算术平均数中权重(权数)的实质是? ?各组单位数之间的比值 ?各组的单位数 ?各组的单位数占总体单位数的比重 ?各组的单位数与指标值的乘积 非引导性的问题对访谈的成败起到重要作用,以下哪个选项跟“非引导性”无关? ?问题要关注直接体验 ?保持问题的封闭性 ?问题要客观 ?问题要关注单一主题 请问您以下对信度、效度相互关系的描述,哪个是正确的? ?信度高,效度也就高 ?效度高,信度也就高 ?信度低,效度也可能高 ?效度低,信度也就低 某地区到实体超市消费的人数呈下降趋势,2011年与2010年相比降低4%,2012年又比2011年降低6%,2013年是2012年的95%,则2013年与2010年相比,下降幅度为多少? ?12.0% ?85.7% ?14.3% ?88.0% ?以上都不是 在一次问卷调查中,我们对用户的网上购物态度进行了测量,测量使用了5分态度语句量表,事后我们希望根据用户的网上购物态度对用户进行分类,请问下列哪种统计分析方法是必须的? ?回归分析(Regression) ?相关分析(Correlation)

?聚类分析(Clustering) ?因子分析(Factor analysis) ?方差分析 在可用性测试过程中,请问以下哪些做法是正确的? ?在用户遇到障碍求助时,要积极回应用户的疑问 ?可以鼓励用户在测试过程中,说出自己的操作步骤及疑问 ?在用户遇到障碍时,就要第一时间追问,了解障碍产生的原因 ?要让用户自己确认任务是否完成,研究人员不能帮助用户下结论一个产品的用户流失调研中,它的样本取样可以包含哪些用户? ?产品的流失用户 ?产品的活跃用户 ?产品的潜在用户 ?产品的沉睡用户 关于问卷设计要注意的原则,下列哪些说法是错误的? ?选项之间要保持互斥 ?选项设计不必穷尽所有的可能性 ?问题顺序要先易后难 ?必要时个人信息(如年龄、性别、收入等)可以放在问卷开头询问 ?为了节约访问时间,可以将两个主题的题目合并成一个题目来问统计分析中的因子分析(Factors),如何确定因子的个数? ?根据研究假设 ?根据特征值 ?根据因子载荷的大小 ?根据碎石图 ?根据因子累积贡献率 ?样本折半因子对比 建构聚划算的人物角色(persona)时,以下哪些做法是正确的?

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧 重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日 志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也 就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一 个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到 分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

百度、阿里、腾讯三巨头开挖大数据

百度、阿里、腾讯三巨头开挖大数据2014-04-14 09:55 罗超 36大数据字号:T | T 实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。 AD:51CTO学院:IT精品课程在线看! 概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT 坐拥数据金矿,已陆续踏上了大数据掘金之路。 BAT都是大矿主,但矿山性质不同 数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。 百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。 阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。 腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

下面,就将三家公司的情况一一扫描与分析。 一、百度:含着数据出生且拥有挖掘技术,研究和实用结合 搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。 除了网页外,百度还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管百度拥有核心技术和数据矿山,却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用,与Google相比,百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。 2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。 接下来,百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。

阿里巴巴笔试题答案

第一题选C,不解释吧,按位与就行 第二题选D,不解释,2*3*sizeof(int*)=48(64位机器上是8字节一个指针) 第三题选C,我不确定,不过,应该是的 第四题选D,明显考的是补码 第5题选D,果断访问错误(这是Java的代码) 第6题选B,大家都懂 第7题果断A啊 第8题果断是B,不解释,大家懂 第9题是B,’0’不是’\0’,这个要注意 第10题果断是Fibonacci,显然是C,前几个是0,1,2,3,5,8,13,21 第11题选B,计算量是2^35,现在计算机的主频是2^30,所以差不多是几秒的事 第12题是B,显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1,所以N0=82,不解释 第13题果断是D,这个老题目了,不解释 第14题是C,二分查找嘛,大家都会,不解释 第15题是Fulkerson算法,算出来是46,每一次选一个增广路径即可,直接选不出来为止 第16题选185,显然,它给了120块钱(楼主二了)和一个物品(值65元),所以亏损185 这个题目楼主是这样想的,结果二了 第17题是2,不解释Fermart小定理,2^6 mod 7= 1,所以2^100=2^4=16=2 mod 7 第18题,我觉得是B,不知道对不对,这个不会 第19题,算得不太精细,选了A,不确定。 第20题C,概率与级数运算,不解释 第21题,果断B,D,malloc,new申请到的是Virtual Memory,不过,windows里面还真可以申请到物理内存,用的是VirtualAllocEx API即可

第22题B,C肯定对,D不确定,感觉是对的,不过,没敢选 第23题,其实就是解n^14<10^16,解出n<= 13,所以选14,15(我是推出n<10^(8/7)然后算出n<=13 第24题,D,因为选出第一个是白的,所以位于A的概率是2/3 第25,不可能,需要2.8*10^8 bit,而蓝牙只能传2.4*10^7bit所以一帧需要0.2S 第26题(mnlogn)不解释,归并而已 第27题显然是17分钟 第28,错两个地方1,没考虑只有一个数,2,可能死循环(给你数组0,2,3让查找1)楼主两个都想到了,写的时候忘记了写1,悲剧 第29题,果断SkipList,地球人懂的O(PLogpN)

2015校招-阿里巴巴在线笔试题目

1、某团队有 2/5的人会写Java程序,有3/4的人会写C++程序,这个团队里同时会写Java和C++的最少有______人。 3 4 5 8 15 20 2、下列结构中,______必须随机存取实现。 栈 队列 数组 单链表 二叉树 堆 3、在一个单链表中,q的前一个节点为p,删除q所指向节点,则执行______。delete q; q->next=p->next;delete p; p->next=q->next;delete p; p->next=q->next;delete q; delete p; q->next=p->next;delete q 4、带头结点的单链表head为空的判定条件是:______。 head==NULL head->next==NULL head->next==head head!=NULL *head==NULL *(head->next)==NULL 5、甲乙两路发车间隔均为10分钟的公交车发车时刻分钟数个位分别为1和9,那么对于一个随机到达的乘客,ta乘坐甲车的概率为: 0.1 0.2 0.3 0.4 0.5 0.9 6、硬币游戏:连续扔硬币,直到某一人获胜。A获胜条件是先正后反,B获胜是出现连续两次反面,问AB游戏时A获胜概率是______。 1/6 1/4

1/2 2/3 3/4 7、棋盘上共有2020个格子,从1开始顺序编号。棋子初始放在第1格,通过扔骰子决定前进格子数,扔出x点就前进x格。骰子有6面,分别对应1至6;质量均匀。当棋子到达2014或超过2014,游戏结束。那么,棋子刚好到达2014的概率与______最接近。 2/3 1/2 1/3 2/7 1/6 1/7 8、“秘密”是一款在朋友圈内匿名交流的SNS平台。假定每个人只能看到朋友发的帖子,却不知道具体是谁发的;并且朋友关系是对称的,即如果A是B的朋友,那么B也是A的朋友。某好事者希望知道一篇帖子具体是谁发的,他通过找几个好友看看他们是否是这个帖子楼主的朋友,从而求“交集”,推断楼主是谁。朋友圈是指彼此互为朋友的人群。什么样的楼主容易被发现真实身份? 朋友很多的楼主。 朋友很少的楼主。 发负能量帖子的楼主。 有很多个小朋友圈的楼主。 发正能量帖子的楼主。 只有一个大朋友圈的楼主。 9、H同学每天乘公交上学,早上睡过头或遇到堵车都会迟到;H早上睡过头概率为0.2,路上遇到堵车概率为0.5;若某天早上H迟到了,那么以下推测正确的有______。 今天H早上睡过头了 今天H早上睡过头的概率为0.2 今天H早上睡过头的概率大于0.2 今天H早上遇到堵车了 今天H早上遇到堵车的概率为0.5 今天H早上遇到堵车的概率小于0.5 10、一个合法的表达式由()包围,()可以嵌套和连接,如(())()也是合法表达式;现在有6对(),它们可以组成的合法表达式的个数为______。 15 30 64 132 256 360 11、下列结构中,______必须随机存取实现 栈 队列

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理? 9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在

所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征? 19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗? 20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出? 21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好? 22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少? 23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡? 24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些? 25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价? 26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法? 27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下) 28、什么是星型模型?什么是查询表?

阿里巴巴数据分析

图一:整体变化时间序列数据图 从图中可以看出: 阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势;股东权益2012年~2013年减少,2013年~2015年开始大幅增长;营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定,稳中有涨。整体分析: 从资产构成来看,流动资产所占总资产的比重在逐年下降,止2015年为55.63%,而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降,但仍高于非流动资产所占比重,在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加,经营规模扩大,资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长,股东权益却呈下降趋势,说明资产的增长主要是来源于负债的增加,而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险,转而采取了较稳健的财务政策。 图二:偿债能力时间序列数据图 从图中可以看出: 2012年~2013年资产负债率呈现大幅增长,而从2013年~2015年该比率发生扭转开始平稳下降。 偿债能力分析: 从资产负债率变化的角度来看,该比率在2012年-2013年大幅增加,这可能导致债权人的权益无法得到保障,因为资产负债率越高,说明企业的长期偿债能力就越弱,债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动,进行资产结构优化,从而降低负债带来的企业风险,提高了债权人的保证程度。

阿里巴巴2012校园招聘笔试题

1、有一个虚拟存储系统,若进程在内存中占3页(开始时内存为空),若采用先进先出(FIFO)页面淘汰算法,当执行如下访问页号序列后1,2,3,4,5,1,2,5,1,2,3,4,5,会发生多少缺页? A、7 B、8 C、9 D、10 2、设有一个顺序栈S,元素s1、s2、s 3、s 4、s 5、s6依次进栈,如果6个元素的出栈顺序为s2、s3、s4、s 6、s5、s1,则顺序栈的容量至少应为多少? A、2 B、3 C、4 D、5 3、下列关于文件索引结构的叙述中,哪一个是错误的? A、采用索引结构,逻辑上连续的文件存放在连续的物理块中 B、系统为每个文件建立一张索引表 C、索引结构的优点是访问速度快,文件长度可以动态变化 D、索引结构的缺点是存储开销大 4、【0、2、1、4、3、9、 5、8、 6、7】是以数组形式存储的最小堆,删除堆顶元素0后的结果是() A、【2、1、4、3、9、5、8、6、7】 B、【1、2、5、4、3、9、8、6、7】 C、【2、3、1、4、7、9、5、8、6】 D、【1、2、5、4、3、9、7、8、6】 5、某页式存储管理系统中,地址寄存器长度为24位,其中页号占14位,则主存的分块大小是()字节。 A、10 B、2^10 C、2^14 D、2^24 6、在一个长为33厘米的光滑凹轨上,在第3厘米、第6厘米、第19厘米、第22厘米、第26厘米处各有一个钢珠,凹轨很细,不能同时通过两个钢珠,开始时,钢珠运动方向是任意的。两个钢珠相撞后,以相同速度反向运动。假设所有钢珠初始速度为每秒运动1厘米,那么所有钢珠离开凹轨的最长可能时间是() A、30 B、26 C、38 D、33 7、std::vector::iterator重载了下面哪些运算符? A、++ B、>> C、*(前置) D、== 8、下列运算符,在C++语言中不能重载的是() A、* B、?: C、:: D、delete 9、在排序方法中,元素比较次数与元素的初始排列无关的是() A、Shell 排序 B、归并排序 C、直接插入排序 D、选择排序 10、给定如下代码:int x[4]={0}; int y[4]={1}; 数组x和y的值为() A、{0,0,0,0},{1,1,1,1} B、{0,0,0,0},{1,0,0,0}

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、 单选题 分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复;如果小甲上个月总共有100个咨询量,那么他当时的回复率是多少? A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析:"参考章节:店铺客服转化率诊断本题考点:客服回复率答案解析:客服回复率是指客服对于咨询他的客户进行回复的百分占比,如果有100个咨询量,其中12个没有回复,那么回复率就是(10 0-12)/100=88%" 2、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去? A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、 单选题 分值: 1 小明是吹风机类目的商家,他想做类目趋势对比表,为此他需要收集近几年的相关数据作为参考? A: 近5年 B: 近4年 C: 近3年 D: 近2年 答案解析:参考章节:品类罗盘—商品年度规划(一)本题考点:市场趋势表格制作试题解析:在大数据的背景下,我们做类目数据对比时,会去抓取近3年子类目数据为参考维度。 4、 单选题 分值: 1 小明店铺的无线首页,模块1跳转店内爆款,每天点击量200,模块2跳转店内新品,每天点击量80;因为新品数据良好,有次爆款潜力,小明决定交换模块1和模块2跳转商品! A: 正确 B: 错误 答案解析:参考章节:页面效果如何提升?本题考点:页面数据分析答案解析:根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、 单选题 分值: 1 为了尽量减少花费,小李想选择免费方法实现新品破0 ;以下那种破0 方法不是免费的?

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师(北京) 一、10道填空,每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT!小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果? A 0 B 10 C 25 D50 答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。。。 2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法,k_means。 5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定 应该是B吧。 6、precision、ecall、ROC。 剩下的不记得了。 二、三道题,每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查,如果被测者患病则一定能查出来。如果被测者没病,有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率? 答案:貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义,具体步骤。并举一个适合用层次分析法的案例。 三、两道题,每题20分。 1、淘宝上有一些小众但是品位高的店铺,怎么把他们筛选出来捏? 2、双十一的时候,商家会发优惠券,从商家和平台两个角度设计评价指标,并分析指标不同结果应该对应怎样的措施。 资料:优惠券分两种:满200减50,满300减100. 发放日期:10月15-11月10 使用日期:11月11 希望对大家有所帮助!

2018数据分析师考试大纲

2018CPDA 数据分析师考试大纲 第一部分考试介绍 一、考试目标 数据分析师专业技术考试主要测试考生是否具备数据分析基础知识,是否了解数据分析工作流程及数据分析技术,是否具备利用数据分析知识解决实际业务问题的能力。 侧重考查考生对数据分析知识的掌握和应用,借助数据分析知识解决实际数据分析工作和企业决策工作的能力,根据企业决策的需要,对各种相关数据进行分析和评估能力。 考点涉及数据分析统计基础、数据获取、数据预处理、数据可视化、数据算法模型及客户数据分析、产品数据分析、营销数据分析、采购数据分析、物流数据分析、生产制造数据分析、智能供应链及投资收益风险分析等。 二、考试科目及考试形式 考试分为理论机考和实操笔试,考试时限分别为90 分钟和120 分钟,满分都为100分。 CPDA 数据分析师的认证考核采取全国统一时间,每年四次。 三、教材与资料 《数据分析基础》《营销数据分析》《供应链优化与投资分析》《战略管理》《面授讲义》是数据分析师考生必修必考教材与资料。 四、知识点要求注释 识记:要求掌握概念、熟悉理论、重点考试要求范围; 理解:要求应知应会,非重点考试要求范围; 应用:掌握实际使用方法,运用计算工具或分析软件进行实和分析,考试要求范围; 了解:拓展性知识,非考试要求范围。 第二部分考试内容 根据数据分析师专业技术考试的考试目标、科目和考试形式等要求,数据分析师专业技术考试科目要点包括但不限于以下内容: 一、数据分析理论知识 数据分析理论知识是对考生数据分析基础知识的掌握程度的测试。数据分析基础主要从数据分析的整个流程去考查学生知识,其中涵盖了数据获取、数据预处理、数据可视化、数据分析算

阿里巴巴2014秋季校园招聘_软件研发工程师笔试题答案

2014研发1. 单选题 1. 假设把整数关键码K散列到N个槽列表,以下哪些散列函数是好的散列函数 A: h(K)=K/N; B: h(K)=1; C: h(K)=K mod N; D: h(K)=(K+rand(N)) mod N, rand(N)返回0到N-1的整数 答案:D 2. 下面排序算法中,初始数据集的排列顺序对算法的性能无影响的是: A: 堆排序 B:插入排序 C: 冒泡排序 D:快速排序 答案:A(插入排序:最优时间复杂度O(n)最差时间复杂度O(n^2)平均时间复杂度O (n^2) 冒泡排序:最优时间复杂度O(n)最差时间复杂度O(n^2)平均时间复杂度O (n^2) 快速排序:最优时间复杂度O(nlogn)最差时间复杂度O(n^2)平均时间复杂度O(nlogn) 堆排序:最优时间复杂度O(nlogn)最差时间复杂度O(nlogn)平均时间复杂度O (nlogn)) 3. 下面说法错误的是: A: CISC计算机比RISC计算机指令多 B: 在指令格式中,采用扩展操作码设计方案的目的是为了保持指令字长不变而增加寻址空间 C:增加流水线段数理论上可以提高CPU频率 D:诺依曼体系结构的主要特征是存储程序的工作方式 答案:B 4. 不属于诺依曼体系结构必要组成部分是: A:CPU B: Cache C:RAM D:ROM

答案:B 5. 一个栈的入栈序列式ABCDE则不可能的出栈序列是: A:DECBA B:DCEBA C:ECDBA D:ABCDE 答案:C 6.你认为可以完成编写一个C语言编译器的语言是: A:汇编 B:C语言 C:VB D:以上全可以 答案:D 7. 关于C++/JAVA类中的static成员和对象成员的说确的是:A:static成员变量在对象构造时候生成 B: static成员函数在对象成员函数中无法调用 C: 虚成员函数不可能是static成员函数 D: static成员函数不能访问static成员变量 答案:A 8: 答案:C

阿里国际站代运营篇:没有分析数据,说什么精准营销!

现在的整个市场越来越重视数据的分析,很多人越来越关注PV、UV、跳出率、访问深度、停留时长等。总体来说,这些指标都属于统计指标,反映的都是店铺总体情况,数据的价值除了反映现状,还有更重要的是应用。统计是数据汇总整理的结果,没有分析,怎能拿来指导下一步的工作呢? 对于我们经营国际站的外贸人来说,最重要的东西之一就是买家到底喜欢什么,只有知道了这个之后,我们才能针对买家爱好出击,做到精准吸引潜在买家!要想知道买家喜欢什么,首先你要知道买家都做了些什么,通过分析买家的行为来掌握买家的习惯。 什么是买家行为分析 简单来说就是分析买家做了什么,和买家一直做什么,并以此来抓住买家的喜好点,掌控整个市场 那我们怎么去分析? 阿里后台就可以直接搞定这些东西了,来看一下! 阿里巴巴后台>>数据管家>>知买家>>访客详情 地域,判断目标市场 通过采集访客地域数据,我们可以判断出我们的主营市场是什么地方,是欧洲还是北美,或者其它的地方。判断出目标市场后,在P4P推广我们就可以针对我们的目标市场时间进行推广。旺铺及产品页装修风格也可以结合目标市场买家喜好进行设计。 浏览量,了解买家搜索路径 点开浏览量,我们可以知道买家来了我们店铺后的路径,浏览了哪些页面,及在每个页面的停留时长。在都有反馈的前提下,浏览量越少,即表达买家越喜欢这个产品,搜索路径越短,普通产品,排名会越好,P4P产品,所需要的竞价底价越低。 停留总时长,计算跳出率 从点击页面中,可以看出买家在这个页面仅仅只停留几秒,这个就相当于买家一进你的页面就立马跳走啦,大家可以统计停留时长低于2s的访客数量,该数据除以访客总数就可以得出跳出率了,如果跳出率占比过高,大家需要优化旺铺页面及产品详情页。影响跳出率的原因有关键词与页面的匹配度,页面打开速度过慢等。 常用搜索词,判断买家的质量及真实需求

2014阿里巴巴笔试题

2014年阿里巴巴秋季校园招聘 系统工程师笔试卷 第一部分单选题(前10题,每题2分;后10题,每题3分;共50分。选对得满分,选错倒扣一分,不选得0分。) 1.字符串“alibaba”有个不同的排列。 A. 5040 B. 840 C. 14 D.420 2.下列一段C++代码的输出是 A 。 class Base { public: int Bar(char x) {return (int)(x);} virtual int Bar(int x) {return(2*x);} }; class Derived :public Base { public: int Bar(char x) {return(int)(-x);} int Bar(int x) {return (x/2);} }; void main(void) { Derived Obj; Base*pObj=&Obj; printf("%d,",pObj->Bar((char)(100))); printf("%d,",pObj->Bar(100)); } A. 100,50 B. -100,200 C. -100,50 D. 100,200 3.有一个二维数组A[10][5],每个数据元素占1个字节,且A[0][0]的存储地址是1000,则A[i][j]的地址是。 A. 1000+10i+j B. 1000+i+j C. 1000+5i+j D. 1000+10i+5j 4.下列不是线性表? A. 队列 B. 栈 C. 关联数组 D. 链表

5. 下列有关在一个处理器(processor)上跑两个线程(thread)的说法中,正确的是。 A. 一个线程可以改变另一个线程的程序计数器(program counter) B. 一个线程既不能读也不能写另一个线程的栈(stack) C. 一个线程可以读写另一个线程的寄存器(register) D. 以上都不对 6.关于双链表的搜索给定元素操作的说法正确的是。 A. 从两个方向搜索双链表,比从一个方向搜索双链表的速度慢 B. 从两个方向搜索双链表,比从一个方向搜索双链表的方差要小 C. 从两个方向搜索双链表,比从一个方向搜索双链表速度要快 D. 以上说法都不正确 7.对n个数字进行排序,期中两两不同的数字的个数为k,n远远大于k,而n的取值区间长度超过了内存的大小,时间复杂度最小可以是。 A. O(nlogk) B. O(nk) C. O(n) D. O(nlogn) 8.一台指针式钟表的时钟和分钟的指向重合的时间间隔是 B 。 A. 720/13分钟 B. 720/11分钟 C. 60分钟 D. 以上都不正确 9.两个大小不同的杯子R和S,R中装着一定量的小米,S中装着一定量的沙子。一名儿童用勺子从S中取出一勺沙子放入R,与小米混合之后,再从R中取出等体积的一勺混合物放入S。假定两勺物品的体积相等,且R和S都没有发生溢出。则以下说法中正确的是。 A. R中的沙子和S中的小米一样多 B. R中的沙子比S中的小米少 C. R中的沙子比S中的小米多 D. 无法判断 10.假定抛出的硬币落地之后正反两面出现的概率分别是1/2。那么抛10次和100次硬币(分别称为T10和T100)相比,以下说法正确的是。 A. T100出现一半的正面比T10出现一半正面的概率更大 B. T100前3次都是正面的概率比T10前3次都是正面的可能性大 C. T100正面次数的方差小于T10出现正面次数的方差 D. T100出现正面的比例比T10出现正面的比例在(0.45,0.55)区间中的可能性更大。 11.某福彩机构推出了一款简单的猜谜游戏:游戏玩家只需交纳n元,赌红或者黑。如果开奖结果与游戏玩家所赌的颜色相同,则玩家除得到交纳的n元赌资外,还可以获得n元作为奖励;否则该玩家失去交纳的n元赌资。为了游戏公平,开奖是红或者黑的概率均为1/2。某游戏玩家想出了一个玩法:开始出100元参与赌博,然后按照如下规则进行游戏,如果输掉,并且赌资充足,就把已经输了的总钱数翻倍作为赌资进行赌博;否则,就停止该游戏。假定该机构赌资无限,而玩家的赌资比较有限,以下关于该玩家退出游戏时的情形的评论中合理的是:。 A. 该玩家的策略可以保证游戏结束时赢钱数的期望为正数 B. 该福彩机构长期会赔钱 C. 该玩家会有一定概率在游戏结束时输钱,但输得不多

2015阿里巴巴秋招市场营销专员在线笔试题

2015阿里巴巴秋招市场营销专员在线笔试题 1、A general told his soldiers, “In the battlefield, heroes are judged on results. You’re either a winner or a loser between two embattled forces. You’re written down in history either as a winner who takes all, or a loser who is standing small. In history books, all the winners are legitimized and justified, so losers are often demonized or criminalized. “ To be proven, the general’s argument has to be supported by which of the following hypothesis? A、In history books, forces considered good and legitimate always win the battle B、uthors of history books have accurate measure of who are good and who are evil C、Those who are good and legitimate in history books are not necessarily truly good and legitimate D、Even in history books, the result of a war is not the only measure for good and evil In history books, those who win are considered good and legitimate 2、某公司市场部共有8名工作人员。 (1)有人会photoshop; (2)有人不会photoshop; (3)市场部主管不会photoshop。这三个命题中只有一个是真的,以下哪项正确地表示了该市场部会使用photoshop的人数?()。 A、8人都会使用 B、8人没人会使用 C、仅有一人会使用 D、不能确定 3、开拓新市场往往比维护已有市场更重要,因为维护已有市场也许是维持已有的市场营销动作而已。而开拓新市场,则需要有创造性和想象力,而且标志着业务的真正进步。据此可知_____。 A、开拓新市场比维护已有市场更难 B、善于开拓新市场的人更善于维护已有市场 C、只有开拓新市场才标志业务的进步 D、缺乏创造性的想象力的人不善于开拓新市场 4、以下哪一个选项不属于营销的目的_____。 A、让受众感知到产品的差异化 B、让受众产生冲动使用我们的产品 C、让受众替我们主动口碑传播 D、让受众替我们打击竞争对手 5、以下哪一项不属于品牌定位的要素_______。 A、符号和权威基础 B、功能利益 C、情感和个性 D、品牌影响力 6、请将下文翻译成英语:不好的建议以及一些陈词滥调式的观点,看似会让人轻松和上进,但其实很凶险。它导致的结果就是我们会花很多时间去清算我们究竟工作了多长时间、我们又为公司做了多少贡献。同样,它还会让一部分给不断给自己施压,要求自己一定要按照“偶像”的路来走,很傻很天真的相信牛人就应该是这样的。这些经验可以供参考,但不要让它们成为你的行事准则。 7、为了降低新用户的获取成本,一个APP计划改变向推广商购买的单个用户获取单价。如果每天获取的新用户在100以内,则单价为0.5美元;如果每天获取的新用户超过100,则单价为0.8美元。之前是如果每天获取的新用户在200以内,则单价为0.6美元;如果每天获取的新用户超过200,则单价为0.7美元。 A、这个APP每天从推广商获得的新用户数量很少超过100个

相关主题