大数据研发工程师面试

大数据研发工程师面试经验页提供了该职位近年来在全国各城市、企业的大数据研发工程师面试问题、面试难度、面试感受等信息。
2024-06-01 10:00:00 更新

大数据研发工程师面试概况

基于用户贡献的7大数据研发工程师面试经验统计分析得出,结果仅供参考。

面试难度

icon
“有难度”

面试感受

icon
“体验很好”

面试来源

社会招聘
40.0%
网络招聘
20.0%
校园招聘
20.0%
内部推荐
20.0%

大数据研发工程师面试经验

系统基于用户发布大数据研发工程师面试经验的内容丰富度、发布时间等维度,经过综合计算并自动排序后予以展示。
默认排序
只看精选
面试难度
面试感受
考察的都是基础的算法知识,没有准备好。
匿名用户
面试了职位:大数据研发工程师
未通过感觉没戏
考察基于数据结构的算法题目。
2 年前 发布
大数据研发工程师_张江高科面试
匿名用户
面试了职位:大数据研发工程师
未通过感觉没戏
雨下的很大,到了给HR打电话,好不容易找到四楼,然后在休息室进行等待,10分钟后,面试官来了,开始聊技术,面试官感觉工作很多,很忙,然后就聊技术,聊完让回去等消息,觉的面试状态不是很好,结果真没戏。
2 年前 发布
1
java大数据研发过程
匿名用户
面试了职位:大数据研发工程师
确定通过确定通过
去了先做一份题,题目都过时了,然后会有项目小组长下来问你问题,主要是针对简历上面的项目。问了hadoop,flume什么的,然后会有领导下来聊天,第三天就发了offer,但是入职办了半个月。
2 年前 发布
2
自己回答失误重重。
匿名用户
面试了职位:大数据研发工程师
确定通过感觉靠谱
自己回答失误重重,面试的方式很棒。
2 年前 发布
面试官很专业。
匿名用户
面试了职位:大数据研发工程师
确定通过感觉靠谱
面试官很专业,问了一道简单的算法题,但就是这样的题就能看出你的能力,等待面试结果,希望可以加入。
2 年前 发布
祖龙娱乐sp一面,时长73分钟
匿名用户
面试了职位:大数据研发工程师
确定通过感觉靠谱
在电脑前苦等半小时,终于面试官上线了,一看,一下两个人,我去,心理压力好大,赶紧放松放松心情后来下线时,一度以为自己挂了,但是过了一个多小时之后,看了一下状态,面试一轮通过,可能是面试官看我前面的问题答得还可以让我过吧。只是这问题量着实有点多。希望尽快约下轮面试。...查看更多
2 年前 发布
1
面试过程太敷衍,不尊重候选人,简直让费时间
匿名用户
面试了职位:大数据研发工程师
未通过未通过
公司规模较小,离家近所以就去了,约的晚上7点面试,提前20分钟到面试地点,前台让填一个问卷,然后一道二叉树找最小值的题目,分分钟搞定。然后等了半个多小时,可能是晚饭时间(ps:晚饭时间约人面试干啥,别人时间不要钱啊)。 终于面试官来了,看起来比较年轻,可能和我差不多大。然后自我介绍,最近项目介绍,然后就没问题了,spark Hadoop 啥的其他简历上的细节都不过问,就问我有什么问题要问。我就懵逼了,第一次碰到这样的面试官。我就随便问了些岗位的情况,团队的规模等等。之后就让稍等,5分钟后hr让走人。 工作难找,也面试了不少大大小小的公司,最右是唯一一家面试体验极差的公司。是我能力太差,还是说最右的要求比百度搜狗还要高。最右还是我比较喜欢的APP,面试结束后立马卸载了。 ...查看更多
2 年前 发布

大数据研发工程师常见面试问题

1自我介绍; 2你自己搭过大数据集群吗? 那你说说搭建hadoop集群的3个xml文件; core-site.xml hdfs-site.xml mapred-site.xml 心想这简单,赶紧将3个xml说出来,并简单说了下里面都包括啥 3 正常的hadoop集群工作都会启动哪些进程? 当时回答是:namenode,datanode ,secondarynode , 4.他们的作用分别是什么? nameNode主节点 负责维护整个Hdfs文件系统的目录树,以及每个文件所对应的block块信息(元数据) DataNode从节点负责存储具体的文件数据,并且每个block可以在多个datanode上存储多个副本 secondary nameNode 相当于一个备用的naneNode, 当nameNode死机之后,可以将secondary nameNode 的数据备份到nameNode上面 ,但不能备份完整数据,它有两大功能,1 镜像备份,2 日志与镜像定期合并 5 你能详细介绍一下secondaryNode 的具体作用吗? 当然可以,这个问题我可是仔细研究过,哈哈 secondary nameNode会经常向namenode发送请求,是否满足check。 当条件满足时,secondary nameNode将进行checkPoint。 这时nameNode 滚动当前正在写的edits,将刚刚滚动掉的和之前edits文件进行合并。 secondary nameNode下载edis文件,然后将edits文件和自身保存的fsimage文件在内存中进行合并, 然后写入磁盘并上传新的fsimage到nameNode,这时nameNode将旧的fsimage用新的替换掉。 6看来你掌握的还不错啊,HDFS的块默认是保存几份?一个块多大? 默认保存是3份,一个块是128M。 7 之前的64M 是从哪个版本变换的? hadoop 1.0 默认是64M, hadoop 2.0 由64M 改为128M 8 那假设现在是128M,那我在工作中想把它调为256M,那我需要调整什么,才能改变块的大小? 主要是磁盘的存储决定 块的大小,块组成的文件的大小取决于磁盘的传输速率,调整磁盘,可以改变块的大小。 9 Hdfs的读写过程你了解吗? 简单讲讲? 那我就说说写过程吧, 1、客户端跟nameNode 通信,请求上传文件,nameNode检查文件,父目录是否存在,并向客户端返回是否可以上传文件 2、客户端请求第一个block块该上传到哪个datanode服务器上,nameNode查询从节点之后,返回对应的danaNode 服务器 A,B,C等。 3、客户端请求nameNode服务器,采取就近原则,选择A服务器上传数据(本质上是个RPC调用,建立PipeLine),A收到 请求后,A调B,B调C,将每个pipline建立连接,然后逐级返回给客户端 4 客户端开始往A上传第一个block,以Package为单位,A收到一个Package,就会传给B,B传给C,A每传一个package就会 放入一个应答队列,等待应答。 5、当第一个block传输完成后,客户端再次请求namenode上传第二个block。 10 挺好,那你说一下MapReduce的工作原理? 1、客户端启动一个job,然后向jobTracker请求一个jobID 2、 然后将运行所需要的资源文件上传到HDFS上,包括Mapreduce程序打包的jar包,配置文件,以及计算的输入划分信息等 3、 这些文件全部存储在JobTracker专门创建的jobID文件夹中(jar文件会有10个副本,输入划分信息对应着jobTracker应 该启动多少个Map任务) 4、JobTracker将这些资源文件放入作业队列中,调度器根据调度算法对作业文件进行调度,根据输入划分信息划分Map任务 并将map任务分配给TaskTracker执行。 5、taskTracker每隔一段时间发送给jobTracker一个心跳,告诉它自己的运行情况,这个心跳中包含map任务完成的进度等。 6.当最后一个任务完成后,jobTracker会将该任务设为成功,返回给客户端。客户端得到结果,得知任务完成便显示 消息给用户。 11 你在具体讲一下map中的一些步骤,例如partition,sort,combiner,shuffle等等。 好的,sort 主要是排序,combiner是合并,partition是分片等, 首先Mapper根据文件进行分区,sort将Mapper产生的结果按照key进行排序,combiner将key相同的记录进行 合并,partition是吧数据均衡的分配个Reducer. shuffle是Mapper将结果传给Reduce,在这期间容易发生数据倾斜等。 12 那这个数据倾斜一般是在Mapper端发生的还是Reduce中发生的? Mapper将数据处理完传给Reduce,当Reduce进行处理时,因为一部分key的数据量过大,导致其他分区已经执行完成 而数据量过大的key执行时间过长,所以数据倾斜是发生在Reduce端的。 13,对,那发生数据倾斜是因为这个key分布不均匀,那你会怎么优化呢? 因为研究生期间研究的课题就是关于Spark的并行大数据清洗,所以对MapReduce和Spark发生数据倾斜的过程和解决方法 比较熟悉,可以在Mapper期间将大数据量相同的key进行分散,通过添加N以内的随机数前缀,对数据较多的Key进行子扩展,先进行局部操作,再去除随机数之后进行聚合操作,避免在进行Shuffle操作时出现数据倾斜问题。 14 那Mapper端进行combiner之后,除了速度会提升,那从Mapper端到Reduece端的数据量会怎么变? 数据量会减少,因为combiner之后,会将相同的key进行一次聚合,数据量会在这时候减少一部分 15 map 输出的数据如何超出他的那个小文件内存之后,那他是落地到磁盘还是落地到HDFS中? 落地到磁盘中,因为map,reduce操作,就是一次次的I/O请求; 16 Map到Reduce默认的分区机制是什么? 这个是根据那个hash进行计算 对map中的key做hash,对reduce个数取模; 17 hadoop的调优主要针对配置文件的调优你知道哪几种? 思考了一下, 1、因为Mapreduce运算时是在磁盘中进行的,所以 通过修改磁盘I/O,也就是设置和的预读缓冲区大小 来提高hadoop里面大文件顺序读的性能。以此来提高I/O性能。 2、通过修改三个配置文件的参数如 core-site.xml,mapred-site.xml,hdfs-site.xml等 例如 修改core 文件里面的buffer.size,来修改读写缓冲区的大小,还有hdfs文件里面的block.size修改块的大小等 都可以进行调优 18 好的,给你出个题,现在有1G的数据文件,里面有四个字段,分别是id,name,age,class,然后要按照class来分组, id来排序,口述一下mapreduce的过程是怎么实现的?这里面会有几个map? 思考了一下, 1、首先1G文件,那默认一个块是128M,所以可以分为8个块,对应的就是8个Mapper 2、然后定义一个对象,将四个属性封装到对象中,实现序列化和反序列化 3、定义一个类继承partitioner类,调用对象中的class属性设置分组, 4 在map端对文件进行读取,然后通过Split来进行分割,调用对象的id作为key,然后进行局部sort排序,在combiner局部聚合 后通过reduce来进行整体聚合。 说完之后感觉对着吧,果然,听见面试官说嗯嗯,好。觉得差不多对啦 19 嗯嗯,好,说说yarn吧,它有什么优势,能解决什么问题? yarn集群主要分为主节点ResourceManage,从节点 NodeManage ResourceManage负责资源的分配,将集群的资源分配给 各个应用使用,资源分配的基本单元是Container,NodeManage则是一个计算节点的管理者,负责启动应用的 所需的Conbiner,并对内部资源进行监控等。 yarn一般和mapreduce进行结合,主要是对mapreduce中的资源计算进行维护等。 答完之后,心想别问yarn吧,这块看得不是很深,哈哈,果然,面试官问了一个问题后就跳过了 20 说说Spark吧,Spark为啥比Mapreduce运行块,原因都有哪些? 1 spark是基于内存计算,mapreduce是基于磁盘运算,所以速度快 2 spark拥有高效的调度算法,是基于DAG,形成一系列的有向无环图 3 spark 是通过RDD算子来运算的,它拥有两种操作,一种转换操作,一种动作操作,可以将先运算的结果存储在 内存中,随后在计算出来 4 spark 还拥有容错机制Linage 21 什么是RDD? RDD就是弹性分布式数据集,可以理解为一种数据结构,拥有多种不同的RDD算子 22 你都知道哪些RDD算子? 比如转换操作,有map().fliter() flatMap(),distinct()等 动作操作 有 collect ,reduce 等 23. 你知道reduceBykey 和groupBykey有啥区别吗? reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge, 有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小, 从而减小传输,保证reduce端能够更快的进行结果计算。 groupByKey会对每一个RDD中的value值进行聚合形成一个序列(Iterator),此操作发生在reduce端, 所以势必会将所有的数据通过网络进行传输,造成不必要的浪费。同时如果数据量十分大, 可能还会造成OutOfMemoryError。 24.现在有一个业务,当SparkStreaming在消费kafka里面的数据,然后消费了一段时间之后,程序挂了,当 下一次程序启动时如何保证SparkStraming能继续消费kafka之前的位置? 听到这个问题时,我就偷笑啦,幸亏上次海康威视问过我,我就好好看了一下 可以依靠checkPoint机制来保证,每次SparkStreaming消费kafka数据后,将消费的kafka offsets更新到checkpoint,当 程序挂机或升级时,就可以用过读取checkpoint 的记录来接着上次的位置进行读取,实现数据的零丢失。 25,除了这种方式还有什么方式? 还可以在sparkStreaming中另外启动一个预写日志,这将同步保存所有收到的kafka数据导hdfs中,以便发生故障时, 恢复到上次的位置和之前的数据。 26,你说说Spark的广播变量? 听到这个问题后,一脸懵逼,不会拉。我都猜想 面试官肯定在想,小样,我还难不倒你拉。 然后我就让面试官给我讲了一下。 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时, 需要使用广播变量。广播变量只能在Driver端定义,不能在Executor端定义,在Driver端可以修改广播 变量的值,在Executor端无法修改广播变量的值 27 那你知道累加器吗? 之前看过一点,累机器相当于统筹大变量,常用于计数,统计。累加器常常被作为rdd的map filter操作的副产品等。 28.你说说spark中 job,stage,task,分别代表什么? Job简单讲就是提交给spark的任务。 Stage是每一个job处理过程要分为的几个阶段。 Task是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。 29.嗯嗯 好,说说Spark的工作机制? 我去,咋问的都是大问题啊,幸亏之前复习过。。 用户在客户端提交job作业后,会由driver运行main方法并创建SparkContext上下文。执行RDD算子,形成DAG图, 然后将DAG图交给DAGScheduler来处理。DAGScheduler按照RDD之间的依赖关系划分stage,输入task Scheduler, task Scheduler会将stage划分为task set分发到各个节点的executer中执行,executor以多线程的方式执行,每个线程 负责一个任务,任务结束后,根据不同类型的任务返回不同的结果。 30 你了解zookeeper吗? zookeeper 是一个分布式协调服务,zookeeper集群包括 leader 和 follow 31 说说zookeeper的选举过程,比如现在有五台机器,ABCDE依次启动起来,那么哪台是leader? 记得不太清楚了,就大概说了一下。 1.首先更新logicalclock并提议自己为leader并广播出去 2.进入本轮投票的循环 3.从recvqueue队列中获取一个投票信息,如果为空则检查是否要重发自己的投票或者重连,否则判断投票信息中的选举状态: 就回答到这,后来下来百度了一下。 32 hive了解吗? Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能 33.说说内部表和外部表的区别? 内部表的数据是由Hive自身管理的,外部表的数据是由HDFS管理的; 删除内部表会删除元数据和存储的数据;删除外部表只删除元数据不删除存储的数据 34,你知道UDF吗? UDF就是Hive提供的内置函数无法满足业务处理需要时,可以考虑使用用户自定义函数。 35 一张大表,一张小表,你写join in时,哪个表放左边,哪个表放右边? 小表放前,大表放后,左查询,根据小表为主进行查询。 36 问一下kafka的问题吧,kafka是怎么进行数据备份的? 哇,面试官 你是要把大数据里面的每个组件分别问一下,深呼一口气,思考了一下 然后巴拉巴拉 备份机制是Kafka0.8版本之后出的,一个备份数量为n的集群允许n-1个节点失败。在所有备份节点中, 有一个节点作为lead节点,这个节点保存了其它备份节点列表,并维持各个备份间的状体同步。 37.消费者是从leader中拿数据,还是从follow中拿数据? 不太会,备份机制这块没咋深入了解过。 kafka是由follower周期性或者尝试去pull(拉)过来(其实这个过程与consumer消费过程非常相似), 写是都往leader上写,但是读并不是任意flower上读都行,读也只在leader上读,flower只是数据的一个备份, 保证leader被挂掉后顶上来,并不往外提供服务。 38.那换个问题吧。说说kafka的ISR机制? kafka 为了保证数据的一致性使用了isr 机制, 1. leader会维护一个与其基本保持同步的Replica列表,该列表称为ISR(in-sync Replica),每个Partition都会有一个ISR, 而且是由leader动态维护 2. 如果一个flower比一个leader落后太多,或者超过一定时间未发起数据复制请求,则leader将其重ISR中移除 3. 当ISR中所有Replica都向Leader发送ACK时,leader才commit 39.kafka如何保证数据的不重复和不丢失? 答案上面已经回到了,面试官又问一遍。。可能是看我kafka这块了解不是很深入。想再虐虐我。 40.kafka里面存的数据格式都是什么样的? topic主题,然后主题进行分区 topic 分为partition , partition里面包含Message。 41.kafka中存的一个是数据文件,一个是索引文件,说说这个? 。。。。。不太会。。。哇,kafka被虐惨啦 42.kafka 是如何清理过期数据的? kafka的日志实际上是以日志的方式默认保存在/kafka-logs文件夹中的,默认7天清理机制, 日志的真正清理时间。当删除的条件满足以后,日志将被“删除”,但是这里的删除其实只是将 该日志进行了“delete”标注,文件只是无法被索引到了而已。但是文件本身,仍然是存在的,只有当过了log.segment.delete.delay.ms 这个时间以后,文件才会被真正的从文件系统中删除。 43.一条message中包含哪些信息? 包含 header,body。 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成。 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。 当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、 压缩格式等等); 如果magic的值为0,那么不存在attributes属性body是由N个字节构成的一个消息体,包含了具体的key/value消息 44.嗯,行,你知道mysql的最左原则吗? 终于把kafka过去啦。。心累 最左原则:顾名思义,就是最左优先,比如现在有一张表,里面建了三个字段ABC,对A进行主键,BC建立索引,就相当于 创建了多个索引,A索引,(A,B)组合索引,(A,B,C)组合索引,那查询时,会根据查询最频繁的 放到最左边。 嗯 好,我的问题问完了,让我同事问问你。 已经问了40分钟纯问题啦,,再换个面试官,好的,可以 45,刚才我的同事问的都是大数据相关的,那我们问点java相关的。 终于问java啦,下面的java问题每个都回答出来了,就不写答案啦 46.说说抽象类和接口? 47,集合了解吧,说说集合有几大类,分别介绍一下? 48,hashMap顶层实现了解过吗?具体讲讲 49,说说hashMap在1.8之后优化的环节 50. HashMap 和 hashTable的区别? 51.另一个线程安全的是啥? 52.说说ConcurrentHashMap的底层实现 53.java实现多线程的方式有几种? 54.讲讲 synchronized,Lock,ReetrantLock之间的区别 55.java的线程大概有几种状态? 56.sleep 和 wait方法的区别? 57.说说volatile关键字 58.说说JVM内存区域分为几大块,分别讲一下 59.说说sql的事务隔离级别 60.说说mysql的存储引擎 61 给你出个sql 题 student(sid,sname,sex,class) course(cid,cname,teacher) grade(cid,sid,score) 1,sex 改为age,非空,默认值为0 2 统计035号课程分数大于036号课程分数的学生ID 3 统计所有003班学生各门功课的课程名称和平均分
匿名用户
面试了职位:大数据研发工程师
确定通过感觉靠谱
...查看更多
2019-08-05 发布
来自祖龙娱乐的面试
没有问题。
匿名用户
面试了职位:大数据研发工程师
未通过未通过
提醒大家不要让费时间。
2019-05-10 发布
来自最右APP-小川科技的面试
写一个算法,新增一个链表节点。
匿名用户
面试了职位:大数据研发工程师
未通过感觉没戏
用代码说话。
2015-01-28 发布
来自新浪微博的面试

大数据研发工程师相似职位面试经验

面试:ETL工程师。整体感觉不错,难度大概中等水平,希望能等到好结果。
天狼星机械表家教
面试了职位:ETL工程师
确定通过感觉靠谱
请简要介绍一下你自己。 我是XXX,具有相关经验的ETL工程师。我在[以前的公司]工作过,负责开发和维护ETL流程,将数据从多个源导入数据仓库并进行转换。我精通ETL相关工具,熟悉SQL和数据仓库设计原则。我对数据质量有很高的关注,以确保我们的数据分析可靠性。ETL代表提取(Extract)、转换(Transform)和加载(Load)。这是一种数据集成过程,用于从不同的数据源提取数据,对数据进行清洗、转换和处理,最后将数据加载到目标数据库或数据仓库中。ETL工程师的任务是确保数据的准确性、完整性和一致性。当然。在以前的公司,我们有一个项目,需要从多个销售数据源中提取数据,然后将其合并到一个数据仓库中。我编写了一系列ETL作业,用于数据清洗和转换,包括处理缺失值、标准化日期格式、合并重复记录等。最终,我们成功将数据整合在一起,以便分析和报告。我非常注重数据质量。在ETL过程中,我会实施数据验证规则,例如检查数据完整性、唯一性和准确性。我还会创建日志和警报系统,以便及时发现和处理任何数据质量问题。我精通SQL,可以编写复杂的查询来处理和转换数据。我熟悉多种数据库管理系统,包括SQL SERVER等,并且可以优化查询以提高性能。我认为团队合作非常重要。我乐于与数据分析师、数据库管理员和其他团队成员合作,以确保ETL流程满足他们的需求。我善于沟通,并随时提供支持和解决问题。我希望继续深化我的数据工程技能,学习最新的数据处理技术和工具。我也考虑获得相关的认证,以提升自己的职业发展。...查看更多
2023-10-10 发布
ETL工程师面试一般,共3轮面试
8425
面试了职位:ETL工程师
确定通过感觉靠谱
一面-1.27 业务面腾讯会议大概30min左右(过去时间有大半个月了可能有所遗漏)1、自我介绍2、介绍一下之前实习所做的业务内容3、为什么不想留在实习公司而选择来找其他机会4、最常使用什么软件,对这个软件有什么看法5、优点&缺点6、有啥想问我的面试官是个声音很温柔的小姐姐,因为上段实习时间很长所以对产品有一些自己的看法,所以能借这次面试的机会和其他领域的产品前辈交流一下,感谢聊得很开心且收获很大!二面-1.29 COO总监面腾讯会议 聊了大概45min-1个小时时间1、自我介绍2、你是学计算机的,那你学的最好的一个科目是什么3、如果一个疾病的检测试纸准确率是95%,现在我测出来的结果是阳性,那我有没有得这个病?-我回:我认为需要确定这个疾病所在的环境(比如说日常生活中很常接触到or极少接触到)-面试官:那如果是100个人做这个检测,有多少个人的检测结果会是错的,那我得这个病的几率是多大4、同样是问题3拓展一下,如果你在路上看见一个人,他做事很有条理且按部就班,那么他可能是以下哪种职业:A农民、B图书管理员、C飞行员5、你认为你是个勤奋的人么?6、你认为你是个聪明的人么?7、三个优点、三个缺点8、你有什么想问我的么?这次面试真的让我收获很大很大,也让我充分认识到了一个足够优秀的产品总监是什么样的。即使之前有过其他公司的面试,但很多总监面就是聊聊兴趣啥的就过了,这一次的面试真的让我有一种“自信→紧张→无助→豁然开朗→被充分答疑解惑”的感觉,也让我更加清晰了未来努力的方向,不论最后面试结果怎么样我都 非常非常非常敬佩且感谢这位老师!三面-2.8 HR面微信语音大概30min左右1、之前的实习情况,负责了啥业务2、为什么不想继续在实习公司工作了3、有没有投类似实习公司的行业的工作,为什么4、对工作节奏有没有了解5、期望薪资等结果ing第一次写面经,有疑问可以评论or留言,持续更新~2.9晚更新 HR:您的面试未能通过(与期望薪酬有较大的差距) sad 😥2.14更新 argue了一下拿了offer...查看更多
2022-06-27 发布
面试:ETL工程师。给人感觉很亲切,整体难度中等,对结果有把握。
石开
面试了职位:ETL工程师
确定通过感觉靠谱
面试一共两轮:一面(先英文,后中文)1挑一个你最有成就感或者最能反应水平项目介绍2项目中提到Hadoop,说下Hadoop包括哪些3项目中提到Kafka,kafka生产端怎样发送数据4项目中提到了SQL引擎,这块主要是在做什么5是否有接触过SPARK?中文1你最近的coding主要都包括哪些?2是否熟悉敏捷开发?如何与客户沟通需求保证功能满足客户期望?3你们的devops流程大概怎样的?怎么保证功能?4你刚才在devops提到了微服务,你们的微服务框架是什么?5了解kubernate和docker的关系吗?平时业务有过哪些kubernate操作?6用Java手写一个单例模式和冒泡排序。写完问了你这个是升序输出还是降续二面全部英文,包括寒暄和coding过程中的随意交谈:1. 见面寒暄打招呼2. 面试官英语介绍我要面的项目组的情况和做的内容,然后问我有什么想了解的。我就问了关注的数据是否仅限span>于金融或者银行方向还是社交媒体这种也会涉及,再一个就是是HSBC独立的项目还是跟政府span>or其他银行存在合作?3. 看到CV里的项目提到用了Netty,你们是怎么使用的简单介绍一下?4. 你刚提到你们的项目是一个集群模式,那具体是怎么运行和搭建的呢?5. 现场Coding,提供一个自定义的LinkedList,但里面存在着一些bug,你的工作是根据JUnit的测试要求,找出这个自定义集合span>内的bug。同时屏幕会共享给面试官,每一步操作和debug的思路面试官都会看到。主要看发现和定位问题的思路。中间面试官随时根据你的coding过程问你为什么要这么做。6. 根据CV提问,你们项目是怎么使用SpringBoot的,大概讲讲都做了什么?7. 我看你提到了Jenkins,你是基于这个开发还是只是用于持续集成?你对持续集成的理解是什么?...查看更多
2023-09-15 发布
【ETL工程师】面经分享
8066
面试了职位:ETL工程师
确定通过确定通过
ETL开发岗位题都是数据库相关,最终是群面,7、8个人的样子,气势挺足的。面试官中有大领导,不要表现的太过狂妄,我前面那个人居然说ETL的一切都懂都会,结果人家直接丢给我一个问题:“你前面的人非常自信,声称在这一领域达到精通程度,任何问题都难不倒他,你怎么看?”说实话,听到这个问题,我大吃一惊,不过内心还是狂喜,尽管只有一丝。这简直就是送分题。面对这个问题,首先,我们要谦虚,但不能太掉份,要做到不卑不亢,这是态度。第二,面对这种显而易见的陷阱,我们要做到让自己看起来比前面那位自信兄更加适合这个岗位。这个问题的难点在于如何清晰表达自信,并不陷入攀比和盲目鄙视的陷阱之中。我的回答是:“我上一份工作中最大的收获是得到一位前辈的指教,这位前辈在这一领域可以说是专家的级别,但我从未听到过他说过类似的话。”这第一句话就是将“我”与“前面的人”的比较,转化成“我的前辈”和“前面的人”的比较,悄无声息将前面的人狂妄的嘴脸揭露。我的第二句话是:“ETL领域的问题多种多样,就算是这个工具的厂家也未必敢保证解决一切问题,我同样也不敢保证,但我有信心接受一切问题的挑战,并在工作中快速解决它。我说完了。”当我说完,那些领导的脸上立刻露出欣慰的笑容……第二天我就收到了offer....查看更多
2 年前 发布
【ETL工程师】面经分享
Fireglade
面试了职位:ETL工程师
确定通过确定通过
面的岗位是tableau developer,一共三面吧。一面和二面聊了聊之前做过的项目内容,然后现场出了一些情景应用题,包括tableau自身的题和sql的题,说实话不是很难,基本你之前工作做过一段时间tableau应该都能秒答。sql毕竟也不是主要因素,出了个开窗函数的题电话现场写,也挺简单的。然后就是问了问我的职业规划啥的。还有就是聊了聊jd上没要求但是我简历上写的python方面的内容。三面应该是老板面还是主管面,随便聊了聊大学,然后职业规划,为啥选择花旗之类的常见流程题,就结束了。整体来说面试不算难,流程推进也挺快的。而且面试官给我感觉印象很好,已接到offer并准备入职。...查看更多
2 年前 发布
说明:大数据研发工程师面试经验内容由看准用户自行上传,仅代表内容发布者个人观点。看准网对相关内容的展示并不代表认同其观点。请用户在使用相关信息或依据相关信息作出决策前自行进一步核实此类信息。
寻找更多岗位洞察

小程序

看准APP

公众号

看准公众号

APP

看准APP