百度数据科学岗社招一面
1.介绍一个算法相关的项目,然后就结合项目问问题(我讲了一个Spark SQL 相关的机器学习项目)
2.SQL的特征如何提取的?
3.如何屏蔽SQL中where条件的差异?
4.TFIDF原理,在实际中作用?为什么要用IDF?
5.连通子图的作用?说一下原理,为什么要用连通子图算法不用其他的聚类算法?
6.随机森林干嘛用的?它的原理?为什么效果好?
7.随机森林是怎么做决策的?
8.随机森林的样本和特征是如何选取的?
9.评价指标是什么?解释一下 precision 和 recall 的含义,有啥不同?
10.现场写一道SQL,10分钟完成
给了一个学生表和成绩表(原题记得不清了)
学生表:学生ID, 学生名称,学生班级
成绩表
课程名称,学生ID, 学生班级, 分数
要求:写出每科排名前3个的学生姓名,学生班级,学生总成绩
主要是考查开窗函数,但是计算排名前三的学生总成绩蒙住了,忘了还可以 sum() over(partition by 课程名称 )
11.面试官介绍团队,主要是搜索领域的数据分析方向,侧重做机器学习和深度学习。
我的工作方向是做数据开发和数仓,注重工程实现和算法落地,侧重算法使用,不深究理论,对于算法的原理层面掌握不扎实,回答的比较勉强
应该挂了
总结:
1.SQL没写出来有点遗憾
2.算法基础原理掌握的确实不扎实,项目中的算法的原理应该要吃透
3.岗位的侧重点不在工程化,勿内耗