面试:招商银行宁波分行面试:数据挖掘。细节还是很不错的,难度层层递进,应该没有通过。1.自我介绍2.描述一个项目(生存分析)首先是数据清洗的过程。2.1缺失值填充,除了均值、众数还有哪些方法?应用场景分别是什么?答:固定值、均值、中位数、众数、前后数,knn取均值,随机森林(缺失变量做响应变量,其它变量+标签做自变量,用非缺失训练,预测缺失值)等。2.2分类变量,类型过多,要考虑合并,证据权重是什么意思?有提到信息增益和基尼指数。答:计算方式:事件百分比除以非事件百分比,取对数。证据权重衡量与总体分布的差异,相近意味着对于分类变量的两个子类来说,分布情况相同,预测能力相似。与卡方检验的思想类似,比较子类分布与总体分布的差异,差异接近的合并。分箱可以减小过拟合。2.3不平衡样本的处理,欠采样和过采样的方法都有哪些3.特征工程的一般步骤:3.1构造特征的思路3.2特征筛选的方法4.最后做出来的效果怎么样,有哪些评价指标。5.在项目中遇到过什么困难?以及怎么解决的。答:过拟合问题。纳入模型中的CT图像特征会比较多,需要进一步的处理。最后,说我专业背景与岗位比较契合,但是缺少业务上面的东西,所以就没怎么问业务问题。总结,项目深挖,细枝末节都要准备到位!
1轮面试:视频面试
面试感受:很好
面试难度:非常困难
面试来源:校园招聘