数说故事-大数据工程师去到先做题两道linux命令题,1、查看磁盘空间的命令、查看目录空间的命令,2、只写一行命令,kill掉所有进程名带datastory的进程,提示(xargs,通道);然后java:1.简述一下线程安全怎么做,2.jvm内存模型,GC(参数,算法)让你设计一个master/slave架构的分布式系统/框架,简述一下master和slave的职责,并简述master实际环境会出现什么问题,怎么避免挑一个你熟悉的分布式组件,包括单不限于(hadoop,spark,hive),简述一下其进程/线程的运行模式(机制)(ps: 这里我猜是让你简述任务执行调度流程,我简单写了spark的任务调度流程和presto的查询执行流程),一个HBase的问题,每天有一亿条请求日志,给了你格式,问你类似怎么设计rowkey之类的问题。
做完之后就是技术面,一共3个人,先是一个普通开发来面的,大概2,3年左右的工作经验,然后是一个架构师左右的来面,最后一个是个负责人的样子。后面的问题都有点重复了,这边的技术栈都是java体系的,基本没其他语言,包括写spark也是java来写的,用es比较多。如果你的主语言不是java的话可能不太适合。俺是写python为主的,spark开发都是scala,java只懂语法,常用框架不熟,没实际开发过,所以最后说不太合适,拒绝了。
面试感受:一般;面试难度:有难度;面试来源:社会招聘