当前位置：搜档网 › 大数据工程师笔试题

大数据工程师笔试题

链表排序

Java：

class Node{

Int value;

Node next;

}

C++:

struct Node{

int nValue;

Node* pNext;

}

请实现如下函数对任意给定链表按照其中的value字段排序

Java:

Node sortList(Node head);

C++:

Node* sortList(Node* pHead);

解答：

编写归并排序迭代器

java：

class MergeIterator implements Iterator{

Public MergeIterator(Iterator a,Iterator b){}

Public boolean hasNext(){}

Public Integer next(){}

}

测试用例：

Class MockIterator implements Iterator{

Int current,step,endValue;

Public MockIterator(int step,int endValue){

this.step=step;

This.endValue=endValue;

This.current=endValue%step;

}

Public boolean hasNext(){return this.current < this.endValue;}

Public Integer next(){return this.current += this.step;}

}

Iterator it=new MergeIterator(new MockIterator(2,10),new MockIterator(2,9)); //输出2 3 4 5 6 7 8 9 10

C++：

Struct Iterator{

Virtual bool hasNext()=0;

Virtual int next()=0;

};

Class MergeIterator : public Iterator{

Public:

MergeIterator(){}

Bool hasNext(){}

Int next(){}

}

测试用例：

Class MockIterator : public Iterator{

Int m_current,m_step,m_endValue;

Public:

MockIterator(int step,int endValue){

m_step=step;

m_endValue=endValue;

m_current=endValue%step;

}

Bool hasNext(){return m_current < m_endValue;} Int next(){ return m_current += m_step;}

};

MockIterator ita(2,10),itb(2,9);

MergeIterator it(&ita,&itb);//输出2 3 4 5 6 7 8 9 10

软考数据库系统工程师试题及答案

软考数据库系统工程师试题及答案 TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-

2012年软考数据库系统工程师试题及答案 1.单个用户使用的数据视图的描述称为( ) A.外模式 B.概念模式 C.内模式 D.存储模式 2.子模式ddl 用来描述( ) A.数据库的总体逻辑结构 B.数据库的局部逻辑结构 C.数据库的物理存储结构 D.数据库的概念结构 3.在dbs中，dbms和os之间的关系是( ) A.相互调用调用os 调用dbms D.并发运行 4.数据库物理存储方式的描述称为( ) A.外模式 B.内模式 C.概念模式 D.逻辑模式 5.在下面给出的内容中，不属于dba职责的是( ) A.定义概念模式 B.修改模式结构

C.编写应用程序 D.编写完整性规则 6.在数据库三级模式间引入二级映象的主要作用是( ) A.提高数据与程序的独立性 B.提高数据与程序的安全性 C.保持数据与程序的一致性 D.提高数据与程序的可移植性、dbms 和dbs 三者之间的关系是( ) 包括dbms和dbs 包括db和dbms 包括db和dbs D.不能相互包括中“第三级存储器”是指( ) A.磁盘和磁带 B.磁带和光盘 C.光盘和磁盘 D.快闪存和磁盘 9.位于用户和操作系统之间的一层数据管理软件是( ) 10.数据库系统中的数据模型通常由( )三部分组成 A.数据结构、数据操作和完整性约束 B.数据定义、数据操作和安全性约束

C.数据结构、数据管理和数据保护 D.数据定义、数据管理和运行控制组织提出的dbtg 报告中的数据模型是( )的主要代表 A.层次模型 B.网状模型 C.关系模型 D.实体联系模型 12.数据库技术的三级模式中，数据的全局逻辑结构用( )来描述 A.子模式 B.用户模式 C.模式 D.存储模式 13.用户涉及的逻辑结构用( )描述 A.模式 B.存储模式 C.概念模式 D.子模式 14.数据库的开发控制，完整性检查，安全性检查等是对数据库的( ) A.设计 B.保护 C.操纵 D.维护 15.( )是控制数据整体结构的人，负责三级结构定义和修改 A .专业用户 B .应用程序员

大数据试题答案与解析_最全

1、当前大数据技术的基础是由（ C）首先提出的。（单选题，本题2分） A：微软 B：百度 C：谷歌 D：阿里巴巴 2、大数据的起源是（C ）。（单选题，本题2分） A：金融 B：电信 C：互联网 D：公共管理 3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（ C）。（单选题，本题2分） A：数据管理人员 B：数据分析员 C：研究科学家 D：软件开发工程师 4、（D ）反映数据的精细化程度，越细化的数据，价值越高。（单选题，本题2分） A：规模 B：活性 C：关联度 D：颗粒度 5、数据清洗的方法不包括（ D）。（单，本题2分）

A：缺失值处理 B：噪声数据清除 C：一致性检查 D：重复数据记录处理 6、智能健康手环的应用开发，体现了（ D）的数据采集技术的应用。（单选题，本题2分） A：统计报表 B：网络爬虫 C：API接口 D：传感器 7、下列关于数据重组的说法中，错误的是（ A）。（单选题，本题2分） A：数据重组是数据的重新生产和重新采集 B：数据重组能够使数据焕发新的光芒 C：数据重组实现的关键在于多源数据融合和数据集成 D：数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建，不包含（ C）。（单选题，本题2分） A：数字城市 B：物联网 C：联网监控 D：云计算大数据的最显著特征是（ A）。（单选题，本题2分） A：数据规模大 B：数据类型多样

C：数据处理速度快 D：数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（B ）。（单选题，本题2分） A：在数据基础上倾向于全体数据而不是抽样数据 B：在分析方法上更注重相关分析而不是因果分析 C：在分析效果上更追究效率而不是绝对精确 D：在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中，错误的是（D ）。（单选题，本题2分） A：数据规模大 B：数据类型多样 C：数据处理速度快 D：数据价值密度高 12、当前社会中，最为突出的大数据环境是（A ）。（单选题，本题2分） A：互联网 B：物联网 C：综合国力 D：自然资源 13、在数据生命周期管理实践中，（ B）是（单选题，本题2分） A：数据存储和备份规 B：数据管理和维护 C：数据价值发觉和利用

数据库工程师试题以及答案

2010年3月计算机等考四级数据库 2010年3月计算机等考四级数据库工程师选择题（1）在数据库应用系统的需求分析阶段，需要考虑数据的安全性需求。下列不属于数据安全性需求分析内容的是 A）分析数据的安全性需求，以确定每个关系表上定义的数据约束能够满足使用要求B）分析全局用户对数据的存取需求，以确定全局数据的安全控制策略 C）分析特殊用户对数据的存取需求，以保证数据库的安全控制策略能够满足其使用要求 D）分析各类用户对数据的存取需求，以确定各类用户能够操作的数据（2）有学生表（学号, 姓名, 性别, 身份证号, 出生日期, 所在系号），在此表上使用如下语句建立索引： CREATE NONCLUSTERED INDEX Idx_Name ON学生表（姓名）; 此索引被称为 A）非聚集散列索引 B）非聚集辅索引 C）非聚集顺序索引 D）非聚集主索引（3）在数据库物理设计阶段，使用聚集文件组织数据可以提高一些查询的效率。下列关于聚集文件和聚集键的描述错误的是 A）聚集文件将不同关系表中有关联关系的记录存储在一起，以减少系统的物理I/O次数 B）聚集键应该选用频繁用于进行自然连接的属性或属性组 C）聚集文件可以提高某些连接查询的速度，但是它可能导致其他类型的查询处理变慢 D）关系表中某个属性的数据重复率越高，越适合作聚集键（4）己知有描述科研项目及负责教师的关系模式：科研项目（项目号, 项目名称, 经费, 负责教师号, 姓名, 职称），该关系模式满足函数依赖集：F=｛项目号→项目名称, 项目号→经费, 项目号→负责教师号, 负责教师号→姓名, 负责教师号→职称｝。下列分解中最合理的符合3NF的关系模式是 A）科研项目（项目号, 项目名称, 经费），教师（教师号, 姓名, 职称） B）科研项目（项目号, 项目名称, 经费），教师（教师号, 姓名, 职称, 项目号） C）科研项目（项目号, 项目名称, 经费, 负责教师号），教师（教师号, 姓名, 职称）D）科研项目（项目号, 项目名称, 经费），项目_教师（项目号, 负责教师号），教师（教师号, 姓名, 职称）（5）在IDEF0图中矩形框代表功能活动。关于连接到矩形框4条边上的箭头的语义，下列说法错误的是 A）左边的箭头表示完成功能活动需要的数据，它强调被活动消耗或变换的内容 B）上边的箭头表示影响这个活动执行的事件或约束，它强调被活动变换的内容 C）右边的箭头表示由这个活动产生的信息，它强调活动变换和处理的结果 D）下边的箭头表示实施该活动的手段或完成活动需要的资源，它强调如何做 6）数据库的运行管理与维护主要由数据库管理员负责，工作内容主要包括日常维护、系统监控与分析、性能优化等。下列关于数据库管理员工作内容的说法错误的是A）数据库的备份和恢复是重要的维护工作，数据库管理员应根据不同的应用要求制定

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

2012年历年数据库系统工程师试题及答案

1.单个用户使用的数据视图的描述称为( ) A.外模式 B.概念模式 C.内模式 D.存储模式 2.子模式ddl 用来描述( ) A.数据库的总体逻辑结构 B.数据库的局部逻辑结构 C.数据库的物理存储结构 D.数据库的概念结构 3.在dbs中，dbms和os之间的关系是( ) A.相互调用 B.dbms调用os C.os 调用dbms D.并发运行 4.数据库物理存储方式的描述称为( ) A.外模式 B.内模式 C.概念模式 D.逻辑模式 5.在下面给出的内容中，不属于dba职责的是( ) A.定义概念模式 B.修改模式结构 C.编写应用程序 D.编写完整性规则

6.在数据库三级模式间引入二级映象的主要作用是( ) A.提高数据与程序的独立性 B.提高数据与程序的安全性 C.保持数据与程序的一致性 D.提高数据与程序的可移植性 7.db、dbms 和dbs 三者之间的关系是( ) A.db 包括dbms和dbs B.dbs包括db和dbms C.dbms包括db和dbs D.不能相互包括 8.dbs中“第三级存储器”是指( ) A.磁盘和磁带 B.磁带和光盘 C.光盘和磁盘 D.快闪存和磁盘 9.位于用户和操作系统之间的一层数据管理软件是( ) A.dbs B.db C.dbms D.mis 10.数据库系统中的数据模型通常由( )三部分组成 A.数据结构、数据操作和完整性约束 B.数据定义、数据操作和安全性约束 C.数据结构、数据管理和数据保护 D.数据定义、数据管理和运行控制

11.codasyl 组织提出的dbtg 报告中的数据模型是( )的主要代表 A.层次模型 B.网状模型 C.关系模型 D.实体联系模型 12.数据库技术的三级模式中，数据的全局逻辑结构用( )来描述 A.子模式 B.用户模式 C.模式 D.存储模式 13.用户涉及的逻辑结构用( )描述 A.模式 B.存储模式 C.概念模式 D.子模式 14.数据库的开发控制，完整性检查，安全性检查等是对数据库的( ) A.设计 B.保护 C.操纵 D.维护 15.( )是控制数据整体结构的人，负责三级结构定义和修改 A .专业用户 B .应用程序员 C.dba

2018上半年数据库系统工程师考试真题

2018 年上半年数据库系统工程师考试真题上午题+下午题 ●计算机运行过程中，遇到突发事件，要求CPU 暂时停止正在运行的程序，转去为突发 (1) ，其处理过程中事件服务，服务完毕，再自动返回原程序继续执行，这个过程称为保存现场的目的是(2) 。（1）A．阻塞 B. 中断 C. 动态绑定 D. 静态绑定（2）A．防止丢失数据 B. 防止对其他部件造成影啊 C. 返回去继续执行原程序 D. 为中断处理程序提供数据 ●流水线的吞吐率是指单位时间流水线处理的任务数，如果各段流水的操作时间不同，则流水线的吞吐率是（）的的倒数。（3）A．最短流水段操作时间 B. 各段流水的操作时间总和 C. 最长流水段操作时间 D. 流水段数乘以最长流水段操作时间 ●计算机中机械硬盘的性能指标不包括 (4) 。（4）A．磁盘转速及容量 B. 盘片数及磁道数 C. 容量及平均寻道时间 D. 磁盘转速及平均寻道时间 ●算术表达式采用后缀式表示时不需要使用括号，使用（）就可以方便地进行求值。a－b （c ＋d 山）（其中，—、＋、＊表示二元算术运算减、加、乘）的后缓式为（），与该表达式等价的语法树为（）。（5）A．队列 B. 数组 C. 栈 D. 广义表（6）A．a b c d -*+ B. a b c d*+ - C.ab-c*d+ D.a b c d+*- （7）A．

B. C. D. ●设有n 阶三对角矩阵 A ，即非零元素都位于主对角线以及与主对角线平行且紧邻的两条对角线上，现对该矩阵进行按行压缩存储，若其压储空间用数组 B 表示， A 的元素下标从0 开始，B 的元素下标从 1 开始。已知 A ［0,0 ］存储在 B ［1］，A［n－1，n－1］存储在 B ［3n-2 ］，那么非零元素 A ［i,j ］（0≤ i ＜n，0≤ j ＜n，│i- j │≤ 1）存储在 B ［（）］（8）A．2i+j-1 B. 2i+j C. 2i+j+1 D. 3i-j+I ●用哈希表存储元素时，需要进行冲突（碰撞）处理，冲突是指(9) 。（9）A．关键字被依次映射到地址编号连续的存储位置 B. 关键字不同的元素被映射到相同的存储位置 C. 关键字相同的元素被映射到不同的存储位置 D. 关键字被映射到哈希表之外的位置 ●对有n 个结点、 e 条边且采用数组表示法（即邻接矩阵存储）的无向图进行深度优先遍历，时间复杂度为（）。 2 （10）A．O(n) B.O(e 2) C.O(n+e) D.O(n*e) ●数字信封技术能够（）。（11）A．保证数据在传输过程中的安全性 B. 隐藏发送者的真实身份 C. 对发送者和接收者的身份进行认证证 D. 防止交易中的抵赖发生 ●在安全通信中，S 将所发送的信息使用(12) 进行数字签名，T 收到该消息后可利用 (13) 验证该消息的真实性。（12）A．S 的公钥 B.S 的私钥 C.T 的公钥 D.T 的私钥（13）A．S 的公钥 B.S 的私钥

数据库工程师简历模板

个人简历姓名：*** 性别：男出生年月：联系电话：135*** 学历：硕士专业：社会学（社会统计与人口分析方向）工作经验：民族：汉毕业学校：***大学住址：*** 电子信箱：*** 自我简介：极强的可塑性：文科（管理学，社会学背景），通过全国校招，成为网站数据分析部第一个校招生，半年后获得特别晋升，成为39个来自***，***，***，***，***的校招生中唯一一个一个获得晋升的应届生，熟练领衔商业模式研究，全站用户留存模型，产品信息模型等，独立支持小商品发展部的业务开展和中文网站的产品使用模型。一年半的数据分析师经验。学习能力强：研究能力强，喜欢用一套逻辑思维去研究各种社会现象，大学期间，曾独自完成高校同性恋人群研究，基督教人群研究等课题，对新知识有极强的兴趣，零基础成为部门ORACLE PL/SQL的高手，对于clementine也有自己的使用心得。在小商品业务发展部建立了业务分析的SPU模式，产品信息模型实现全网站的推广。沟通能力强:作为数据部门，经常承担起需分，产品经理乃至项目经理的角色，协调数据仓库，运营，产品的无缝衔接。求职意向：目标职位：产品经理| 项目经理·项目主管| 数据库管理员·数据库开发工程师| 咨询员| 编辑·记者目标行业：政府·非营利机构| 媒体·出版·文化传播| 互联网·电子商务| 房地产开发·建筑与工程| 专业服务(咨询·财会·法律等)

期望薪资：面谈期望地区：*** 到岗时间：面谈工作经历： –最近的公司名称保密数据分析师需求分析师数据库开发工作职责和业绩：作为部门第一个校园招聘的新人，两年期间，先后负责或者正在负责阿里巴巴搜索线，在线交易市场，网站基础产品（商品信息，类目体系，会员体系）三大部门的数据监控，数据分析产品开发，用户分层，用户研究，用户数据建模，数据挖掘，产品设计的数据参谋，以及数据模型的应用推广。教育培训： –***大学社会学（社会统计与人口分析方向）硕士专业描述与主修课程：重点发展了数据处理能力和社会调查能力，对spss，人口数据分析技术，社会心理学，社会调查方法等课程掌握的非常好熟练使用spss并掌握sas –***大学公共管理专业描述与主修课程：重点学习了管理学的大类课程对管理学人力资源管理经济学等有较好的功底提供个人简历模板，正式使用前请删除本行。

数据分析期末试题及答案

数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解： 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。尝试多种模型后采用曲线估计，得出表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。 x）为横轴，地区平均寿命(y)为纵轴的散点图，上图是以疫苗接种率(x3)的三次方（3 3 由图可知，他们之间呈正线性关系所以可以采用如下的线性回归方法分析。

2.线性回归先用强行进入的方式建立如下线性方程设Y=β0+β1*（Xi1）+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi（i=1.2……22）相互独立，都服从正态分布N（0，σ^2）且假设其等于方差 R值为0.952，大于0.8，表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0：β1=β2=β3=0，H1,：其中至少有一个非零得如下方差分析表上表是方差分析SAS输出结果。由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

2017年上半年数据库系统工程师考试真题(案例分析)

2017年上半年数据库系统工程师考试真题（案例分析）下午试题试题一(共15分〉阅读下列说明和图，回答问题1至问题4，将解答填入答题纸的对应栏内。【说明】某医疗器械公司作为复杂医疗产品的集成商，必须保持高质量部件的及时供应。为了实现这一目标，该公司欲开发一采购系统。系统的主要功能如下: 1.检查库存水平。采购部门每天检查部件库存量，当特定部件的库存量降至其订货店、时，返回低存量部件及库存量。 2.下达采购订单。采购部门针对低存量部件及库存量提交采购请求，向其供应商(通过供应商文件访问供应商数据〉下达采购订单，并存储于采购订单文件中。 3.交运部件。当供应商提交提单并交运部件时，运输和接收(S /R)部门通过执行以下三步过程接收货物: (1)验证装运部件。通过访问采购订单并将其与提单进行比较来验证装运的部件，并将提单信息发给S/R职员。如果收货部件项目出现在采购订单和提单上，则己验证的提单和收货部件项目将被送去检验。否则S/R职员提交的装运错误信息生成装运错误通知发送给供应商。

(2)检验部件质量。通过访问质量标准来检查装运部件的质量，并将己验证的提单发给检验员。如果部件满足所有质量标准，则将其添加到接受的部件列表用于更新部件库存。如果部件未通过检查，则将检验员创建的缺陷装运信息生成缺陷装运通知发送给供应商。 (3)更新部件库存。库管员根据收到的接受的部件列表添加本次采购数量，与原有库存量累加来更新库存部件中的库存量。标记订单采购完成。现采用结构化方法对该采购系统进行分析与设计，获得如图1-1所示的上下文数据流图和图1-2所示的0层数据流圈。图1-1上下文数据流图

数据分析笔试题

数据分析笔试题一、编程题（每小题20分）（四道题任意选择其中三道）有一个计费表表名jifei 字段如下：phone(8位的电话号码)，month（月份），expenses （月消费，费用为0表明该月没有产生费用）下面是该表的一条记录：64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。按照要求写出满足下列条件的sql语句： 1、查找2010年6、7、8月有话费产生但9、10月没有使用并（6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来（截止到10月31日）所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。（A、B 分别代表1—9中任意的一个数字） 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码（结果不能出现重复）二、逻辑思维题（每小题10分）须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡，均是60元的价格成交的。其中一张赚了20%，另一张赔了20%，问他总体是盈利还是亏损，盈/亏多少？ 2、有个农场主雇了两个小工为他种小麦，其中A是一个耕地能手，但不擅长播种；而B 耕地很不熟练，但却是播种的能手。农场主决定种10亩地的小麦，让他俩各包一半，于是A从东头开始耕地，B从西头开始耕。A耕地一亩用20分钟，B却用40分钟，可是B播种的速度却比A快3倍。耕播结束后，庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么？ 4、烧一根不均匀的绳，从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子，问如何用烧绳的方法来计时一个小时十五分钟呢？（绳子分别为A 、B、C、D、E、F 。。。。。来代替）

2015数据库工程师真题下午课件

阅读下列说明和图，回答问题1至问题4，将解答填入答题纸的对应栏内。【说明】某大学为进一步推进无纸化考试，欲开发一考试系统。系统管理员能够创建包括专业方向、课程编号、任课教师等相关考试基础信息，教师和学生进行考试相关的工作。系统与考试有关的主要功能如下。（1）考试设置。教师制定试题（题目和答案），制定考试说明、考试时间和提醒时间等考试信息，录入参加考试的学生信息，并分别进行存储。（2）显示并接收解答。根据教师设定的考试信息，在考试有效时间内向学生显示考试说明和题目，根据设定的考试提醒时间进行提醒，并接收学生的解答。（3）处理解答。根据答案对接收到的解答数据进行处理，然后将解答结果进行存储。（4）生成成绩报告。根据解答结果生成学生个人成绩报告，供学生查看。（5）生成成绩单。对解答结果进行核算后生成课程成绩单供教师查看。（6）发送通知。根据成绩报告数据，创建通知数据并将通知发送给学生；根据成绩单数据，创建通知数据并将通知发送给教师。现采用结构化方法对考试系统进行分析与设计，获得如图1-1所示的上下文数据流图和图1-2所示的0层数据流图。

【问题1】（2分）使用说明中的词语，给出图1-1中的实体E1～E2的名称。【问题2】（4分）使用说明中的词语，给出图1-2中的数据存储D1～D4的名称。【问题3】（4分）根据说明和图中词语，补充图1-2中缺失的数据流及其起点和终点。【问题4】（5分）图1-2所示的数据流图中，功能（6）发送通知包含创建通知并发送给学生或老师。请分解图1-2中加工（6），将分解出的加工和数据流填入答题纸的对应栏内。（注：数据流的起点和终点须使用加工的名称描述）我的答案：看视频读书参考答案：【问题1】 E1：教师 E2：学生【问题2】 D1：试题

数据库系统工程师

[编辑本段] 考试简介以及报考资格数据库系统工程师考试属于全国计算机技术与软件专业技术资格考试（简称计算机软件资格考试）中的一个中级考试。考试不设学历与资历条件，也不论年龄和专业，考生可根据自己的技术水平选择合适的级别合适的资格，但一次考试只能报考一种资格。考试采用笔试形式，考试实行全国统一大纲、统一试题、统一时间、统一标准、统一证书的考试办法。笔试安排在一天之内。 [编辑本段] 报名流程根据《计算机技术与软件专业技术资格（水平）考试实施办法》第八条相关规定：符合《暂行规定》（即《计算机技术与软件专业技术资格（水平）考试暂行规定》）第八条规定的人员，由本人提出申请，按规定携带身份证明到当地考试管理机构报名，领取准考证。凭准考证、身份证明在指定的时间、地点参加考试。各地的报名办法由考生报考所在地的当地考试机构决定。考生相关报考费用标准由当地物价部门核准。考生报名方式主要分为：网上报名与考生本人到指定地点报名两种。注：报名时依据的身份证明包括：居民身份证、军人的证件、护照、户口本等。 [编辑本段] 科目内容考试科目1：信息系统知识 1. 计算机系统知识 1.1 硬件知识 1.1.1 计算机体系结构和主要部件的基本工作原理 ·CPU和存储器的组成、性能、基本工作原理 ·常用I/O设备、通信设备的性能，以及基本工作原理 ·I/O接口的功能、类型和特点 ·CISC/RISC，流水线操作，多处理机，并行处理 1.1.2 存储系统 ·虚拟存储器基本工作原理，多级存储体系 ·RAID类型和特性

1.1.3 安全性、可靠性与系统性能评测基础知识 ·诊断与容错 ·系统可靠性分析评价 ·计算机系统性能评测方法 1.2 数据结构与算法 1.2.1 常用数据结构 ·数组（静态数组、动态数组） ·线性表、链表（单向链表、双向链表、循环链表） ·栈和队列 ·树（二叉树、查找树、平衡树、遍历树、堆）、图、集合的定义、存储和操作 ·Hash（存储位置计算、碰撞处理） 1.2.2 常用算法 ·排序算法、查找算法、数值计算、字符串处理、数据压缩算法、递归算法、图的相关算法 ·算法与数据结构的关系，算法效率，算法设计，算法描述（流程图、伪代码、决策表），算法的复杂性 1.3 软件知识 1.3.1 操作系统知识 ·操作系统的类型、特征、地位、内核（中断控制）、进程、线程概念 ·处理机管理（状态转换、同步与互斥、信号灯、分时轮转、抢占、死锁） ·存储管理（主存保护、动态连接分配、分段、分页、虚存） ·设备管理（I/O控制、假脱机、磁盘调度） ·文件管理（文件目录、文件的结构和组织、存取方法、存取控制、恢复处理、共享和安全） ·作业管理（作业调度、作业控制语言（JCL）、多道程序设计） ·汉字处理，多媒体处理，人机界面 ·网络操作系统和嵌入式操作系统基础知识 ·操作系统的配置 1.3.2 程序设计语言和语言处理程序的知识 ·汇编、编译、解释系统的基础知识和基本工作原理 ·程序设计语言的基本成分：数据、运算、控制和传输，程序调用的实现机制 ·各类程序设计语言的主要特点和适用情况 1.4 计算机网络知识 ·网络体系结构（网络拓扑、OSI/RM、基本的网络协议） ·传输介质，传输技术，传输方法，传输控制 ·常用网络设备和各类通信设备

数据库系统工程师历年真题及答案

1. 计算机系统知识 1.1 硬件知识 1.1.1 计算机体系结构和主要部件的基本工作原理 ·CPU和存储器的组成、性能、基本工作原理 ·常用I/O设备、通信设备的性能，以及基本工作原理 ·I/O接口的功能、类型和特点 ·CISC/RISC，流水线操作，多处理机，并行处理 1.1.2 存储系统 ·虚拟存储器基本工作原理，多级存储体系 ·RAID类型和特性 1.1.3 安全性、可靠性与系统性能评测基础知识 ·诊断与容错 ·系统可靠性分析评价 · 计算机系统性能评测方法 1.2 数据结构与算法 1.2.1 常用数据结构 ·数组（静态数组、动态数组） ·线性表、链表（单向链表、双向链表、循环链表） ·栈和队列 ·树（二叉树、查找树、平衡树、遍历树、堆）、图、集合的定义、存储和操作 ·Hash（存储位置计算、碰撞处理）

1.2.2 常用算法 ·排序算法、查找算法、数值计算、字符串处理、数据压缩算法、递归算法、图的相关算法 ·算法与数据结构的关系，算法效率，算法设计，算法描述（流程图、伪代码、决策表），算法的复杂性 1.3 软件知识 1.3.1 操作系统知识 ·操作系统的类型、特征、地位、内核（中断控制）、进程、线程概念 ·处理机管理（状态转换、同步与互斥、信号灯、分时轮转、抢占、死锁） ·存储管理（主存保护、动态连接分配、分段、分页、虚存） ·设备管理（I/O控制、假脱机、磁盘调度） ·文件管理（文件目录、文件的结构和组织、存取方法、存取控制、恢复处理、共享和安全） ·作业管理（作业调度、作业控制语言（JCL）、多道程序设计） ·汉字处理，多媒体处理，人机界面 ·网络操作系统和嵌入式操作系统基础知识 ·操作系统的配置 1.3.2 程序设计语言和语言处理程序的知识

数据库工程师岗位的基本职责

数据库工程师岗位的基本职责数据库工程师负责生产系统中疑难问题、故障的跟踪解决。以下是小编整理的数据库工程师岗位的基本职责。数据库工程师岗位的基本职责1 职责： 1、负责数据库的日常操作、安装、配置、监控、负载均衡、实时备份、恢复和管理; 2、负责数据库的运行维护及管理等工作; 3、依据业务需求优化数据存储结构; 4、协助项目其他成员设计关键的SQL语句和触发器、存储过程、表等; 5、通过数据库的日常检查，对性能较差的SQL语句提出优化方案; 6、测试数据的装载、迁移。岗位要求： 1、1年以上工作经验(学历必须真实可查询); 2、掌握 Oracle、MySQL 数据库规划设计、安装、部署、排错与优化、维护管理、备份恢复等专业知识与技能; 3、熟悉掌握 Unix/Linux/Windows 等操作系统日常管理维护工具，熟悉基本的shell 编程; 4、熟悉掌握PHP、Perl、Python、Shell 一种或多种脚本语言编程; 5、有Oracle 官方认证如( OCA，OCP，OCM)等优先; 6、具备一定的数据库系统管理规划思路与文档设计能

力。 7、熟悉至少一种开源大数据存储方案(HBASE,cassandra，GPDB)，有spark或者hadoop经验更佳。 8、有中大型应用系统分布式架构设计经验，独立承担过中大型系统存储架构设计和搭建数据库工程师岗位的基本职责2 职责： 1. DB2数据库开发和应用实施，负责数据库维护和优化; 2. 历史数据库与数据仓库数据运维管理，性能分析及应用调优; 3. 数据仓库、数据集市的建模开发和建设维护工作; 4. 数据应用实施项目的维护、管理优化和推广培训工作。岗位要求： 1. 本科及以上学历, 计算机相关专业优先，一年以上工作经验; 2. 熟悉关系型数据库、存储过程开发、脚本语言开发和Linux系统; 3. 独立的思维能力，乐于沟通、协作，具备高度的自我约束能力、学习能力和表达能力，能够承担较大工作压力和责任; 4. 具有大数据处理和分析领域技术规划、架构设计经验者优先; 5. 有金融行业、互联网行业大数据处理经验者优先。

数据分析笔试题全解

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度

2018年软考上半年数据库系统工程师考试真题(下午题)

2018 年上半年数据库系统工程师考试真题（下午题）试题一（共15 分）阅读下列说明和图，回答问题 1 至问题4，将解答填入答题纸的对应栏内。【说明】某医疗护理机构为老人或有护理需求者提供专业护理，现欲开发一基于Web的医疗管理系统，以改善医疗护理效率。该系统的主要功能如下：（1）通用信息查询。客户提交通用信息查询请求，查询通用信息表，返回查询结果。（2）医生聘用。医生提出应聘/ 辞职申请，交由主管进行聘用/ 解聘审批，更新医生表，并给医生反馈聘用/ 解聘结果；删除解聘医生出诊安排。（3）预约处理。医生安排出诊时间，存入医生出诊时间表；根据客户提交的预约查询请求，查询在职医生及其出诊时间等预约所需数据并返回；创建预约，提交预约请求，在预约表中新增预约记录，更新所约医生出诊时间并给医生发送预约通知；给客户反馈预约结果。（4）药品管理。医生提交处方，根据药品名称从药品数据中查询相关药品库存信息，开出药品，更新对应药品的库存以及预约表中的治疗信息；给医生发送“药品已开出”反馈。（5）报告创建。根据主管提交的报表查询（报表类型和时间段），从预约数据、通用信息、药品库存数据、医生以及医生出诊时间中进行查询，生产报表返回给主管。现采用结构化方法对医疗管理系统进行分析与设计，获得如图1-1 所示的上下文数据流图和图1-2 所示的0 层数据流图。

【问题1】（3 分）使用说明中的词语，给出图1-1 中的实体E1～E3 的名称。【问题2】（5 分）使用说明中的词语，给出图1-2 中的数据存储D1～D5的名称。【问题3】（4 分）使用说明和图中的术语，补充图1-2 中缺失的数据流及其起点和终点。【问题4】（3 分）使用说明中的词语，说明“预约处理”可以分解为哪些子加工？并说明建模图1-1 和图1-2 如何保持数据流图平衡？

2016年数据分析面试常见问题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址； 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址； 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：

第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+ N’*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map 等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个

2017年数据库系统工程师试题下午及答案

2017年上半年数据库系统工程师考试下午真题（参考答案） ●阅读下列说明和图，回答问题1至问题4，将解答填入答题纸的对应栏内。【说明】某医疗器械公司作为复杂医疗产品的集成商，必须保持高质量部件的及时供应。为了实现这一目标，该公司欲开发一采购系统。系统的主要功能如下： 1.检查库存水平。采购部门每天检查部件库存量，当特定部件的库存量降至其订货店时，返回低存量部件及库存量。 2.下达采购订单。采购部门针对低存量部件及库存量提交采购请求，向其供应商(通过供应商文件访问供应商数据）下达采购订单，并存储于采购订单文件中。 3.交运部件。当供应商提交提单并交运部件时，运输和接收(S/R)部门通过执行以下三步过程接收货物： (1)验证装运部件。通过访问采购订单并将其与提单进行比较来验证装运的部件，并将提单信息发给S/R职员。如果收货部件项目出现在采购订单和提单上，则己验证的提单和收货部件项目将被送去检验。否则S/R职员提交的装运错误信息生成装运错误通知发送给供应商。(2)检验部件质量。通过访问质量标准来检查装运部件的质量，并将己验证的提单发给检验员。如果部件满足所有质量标准，则将其添加到接受的部件列表用于更新部件库存。如果部件未通过检查，则将检验员创建的缺陷装运信息生成缺陷装运通知发送给供应商。 (3)更新部件库存。库管员根据收到的接受的部件列表添加本次采购数量，与原有库存量累加来更新库存部件中的库存量。标记订单采购完成。现采用结构化方法对该采购系统进行分析与设计，获得如图1-1所示的上下文数据流图和图1-2所示的0层数据流图。

米圣经答案：E1：供应商E2：采购部E3：检验员E4：库管员E5：S/R 职员

中级数据库系统工程师下午试题分类模拟题含答案4

中级数据库系统工程师下午试题分类模拟题4 试题一 [说明] 某房屋租赁公司欲建立一个房屋租赁服务系统，统一管理房主和租赁者的信息，从而快速地提供租赁服务。该系统具有以下功能： 1．登记房主信息。对于每名房主，系统需登记其姓名、住址和联系电话，并将这些信息写入房主信息文件。 2．登记房屋信息。所有在系统中登记的房屋都有一个唯一的识别号（对于新增加的房屋，系统会自动为其分配一个识别号）。除此之外，还需登记该房屋的地址、房型（如平房、带阳台的楼房、独立式住宅等）、最多能够容纳的房客数、租金及房屋状态（待租赁、已出租）。这些信息都保存在房屋信息文件中。一名房主可以在系统中登记多个待租赁的房屋。 3．登记租赁者信息。所有想通过该系统租赁房屋的租赁者，必须首先在系统中登记个人信息，包括：姓名、住址、电话号码、出生年月和性别。这些信息都保存在租赁者信息文件中。 4．租赁房屋。已经登记在系统中的租赁者，可以得到一份系统提供的待租赁房屋列表。一旦租赁者从中找到合适的房屋，就可以提出看房请求。系统会安排租赁者与房主见面。对于每次看房，系统会生成一条看房记录并将其写入看房记录文件中。 5．收取手续费。房主登记完房屋后，系统会生成一份费用单，房主根据费用单交纳相应的费用。 6．变更房屋状态。当租赁者与房主达成租房或退房协议后，房主向系统提交变更房屋状态的请求。系统将根据房主的请求，修改房屋信息文件。数据流图1-1给出了该系统的顶层数据流图。 1、【问题1】使用[【说明】中给出的词汇，将数据流图1-1中(1)～(4)处的数据流补充完整。试题二阅读下列说明，回答下列问题。 [说明] 某大型集团公司的数据库的部分关系模式如下：员工表：EMP(Eno, Ename, Age, Sex, Title)，各属性分别表示员工工号、姓名、年龄、性别和职称级别，其中性别取值为“男”“女”；公司表：COMPANY(Cno, Cname, City)，各属性分别表示公司编号、名称和所在城市；工作表：WORKS(Eno, Cno, Salary)，各属性分别表示职工工号、工作的公司编号和工资。有关关系模式的属性及相关说明如下： 2允许一个员工在多家公司工作，使用身份证号作为工号值。 3工资不能低于1500元。根据以上描述，回答下列问题： 2、请将下面创建工作关系的SQL语句的空缺部分补充完整，要求指定关系的主码、外码，以及工资