当前位置: 首页 > article >正文

百度数据科学岗社招一面

1.介绍一个算法相关的项目,然后就结合项目问问题(我讲了一个Spark SQL 相关的机器学习项目)

2.SQL的特征如何提取的?

3.如何屏蔽SQL中where条件的差异?

4.TFIDF原理,在实际中作用?为什么要用IDF?

5.连通子图的作用?说一下原理,为什么要用连通子图算法不用其他的聚类算法?

6.随机森林干嘛用的?它的原理?为什么效果好?

7.随机森林是怎么做决策的?

8.随机森林的样本和特征是如何选取的?

9.评价指标是什么?解释一下 precision 和 recall 的含义,有啥不同?

10.现场写一道SQL,10分钟完成

给了一个学生表和成绩表(原题记得不清了)

学生表:学生ID, 学生名称,学生班级

成绩表

课程名称,学生ID, 学生班级, 分数

要求:写出每科排名前3个的学生姓名,学生班级,学生总成绩

主要是考查开窗函数,但是计算排名前三的学生总成绩蒙住了,忘了还可以 sum() over(partition by 课程名称 )  

11.面试官介绍团队,主要是搜索领域的数据分析方向,侧重做机器学习和深度学习。

我的工作方向是做数据开发和数仓,注重工程实现和算法落地,侧重算法使用,不深究理论,对于算法的原理层面掌握不扎实,回答的比较勉强

应该挂了

总结:

1.SQL没写出来有点遗憾

2.算法基础原理掌握的确实不扎实,项目中的算法的原理应该要吃透

3.岗位的侧重点不在工程化,勿内耗


http://www.kler.cn/a/320538.html

相关文章:

  • 极品飞车6里的赛道简介
  • RabbitMQ高级篇
  • EFCore HasDefaultValueSql
  • 数据在内存的存储
  • 稀疏矩阵:BM25;稠密矩阵:RoBERTa - wwm - ext顺序
  • pytorch学习笔记二:用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍
  • VM+Ubuntu16.04硬盘扩容
  • Python类里引用其他类
  • c++ day06
  • 【深度学习】(7)--神经网络之保存最优模型
  • 自动驾驶,被逼着上市?
  • 【Python机器学习】NLP信息提取——提取人物/事物关系
  • WPS文字 分栏注意项
  • Java项目实战II基于Java+Spring Boot+MySQL的汽车销售网站(文档+源码+数据库)
  • PyTorch开源的深度学习框架
  • 2、electron vue3 怎么创建子窗口,并给子窗口路由传参
  • 【Linux系统编程】第二十二弹---操作系统核心概念:进程创建与终止机制详解
  • LInux操作系统安装Jenkins
  • MFC-基础架构
  • 实验二十:ds1302时钟实验
  • 【MYSQL】聚合查询、分组查询、联合查询
  • CSS开发全攻略
  • 后端开发面试题7(附答案)
  • 概率论与数理统计复习笔记
  • 本地电脑基于nginx的https单向认证和双向认证(自制证书+nginx配置)保姆级