当前位置：首页 > article >正文

百度数据科学岗社招一面

article 2025/1/13 10:28:07

1.介绍一个算法相关的项目，然后就结合项目问问题（我讲了一个Spark SQL 相关的机器学习项目）

2.SQL的特征如何提取的？

3.如何屏蔽SQL中where条件的差异？

4.TFIDF原理，在实际中作用？为什么要用IDF？

5.连通子图的作用？说一下原理，为什么要用连通子图算法不用其他的聚类算法？

6.随机森林干嘛用的？它的原理？为什么效果好？

7.随机森林是怎么做决策的？

8.随机森林的样本和特征是如何选取的？

9.评价指标是什么？解释一下 precision 和 recall 的含义，有啥不同？

10.现场写一道SQL，10分钟完成

给了一个学生表和成绩表（原题记得不清了）

学生表：学生ID，学生名称，学生班级

成绩表

课程名称，学生ID，学生班级，分数

要求：写出每科排名前3个的学生姓名，学生班级，学生总成绩

主要是考查开窗函数，但是计算排名前三的学生总成绩蒙住了，忘了还可以 sum() over(partition by 课程名称 )

11.面试官介绍团队，主要是搜索领域的数据分析方向，侧重做机器学习和深度学习。

我的工作方向是做数据开发和数仓，注重工程实现和算法落地，侧重算法使用，不深究理论，对于算法的原理层面掌握不扎实，回答的比较勉强

应该挂了

总结：

1.SQL没写出来有点遗憾

2.算法基础原理掌握的确实不扎实，项目中的算法的原理应该要吃透

3.岗位的侧重点不在工程化，勿内耗

查看全文

http://www.kler.cn/a/320538.html

极品飞车6里的赛道简介

RabbitMQ高级篇

EFCore HasDefaultValueSql

数据在内存的存储

稀疏矩阵：BM25；稠密矩阵：RoBERTa - wwm - ext顺序

pytorch学习笔记二：用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍

VM+Ubuntu16.04硬盘扩容

Python类里引用其他类

c++ day06

【深度学习】（7）--神经网络之保存最优模型

自动驾驶，被逼着上市？

【Python机器学习】NLP信息提取——提取人物/事物关系

WPS文字分栏注意项

Java项目实战II基于Java+Spring Boot+MySQL的汽车销售网站(文档+源码+数据库)

PyTorch开源的深度学习框架

2、electron vue3 怎么创建子窗口，并给子窗口路由传参

【Linux系统编程】第二十二弹---操作系统核心概念：进程创建与终止机制详解

LInux操作系统安装Jenkins

MFC-基础架构

实验二十：ds1302时钟实验

【MYSQL】聚合查询、分组查询、联合查询

CSS开发全攻略

后端开发面试题7（附答案）

概率论与数理统计复习笔记

本地电脑基于nginx的https单向认证和双向认证(自制证书+nginx配置)保姆级

相关文章：