当前位置: 首页 > article >正文

【NLP算法面经】本科双非,头条+腾讯 NLP 详细面经(★附面题整理★)

【NLP算法面经】本科双非,头条+腾讯 NLP 详细面经(★附面题整理★)


🌟 嗨,你好,我是 青松 !

🌈 自小刺头深草里,而今渐觉出蓬蒿。


NLP Github 项目推荐:

  • 【AI 藏经阁】:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • 【AI 算法面经】:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • 【大模型(LLMs)面试笔记】:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题,适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间,不错过金三银四涨薪窗口,迅速收获心仪的Offer 🎉🎉🎉


文章目录

    • 写在前面
    • 字节跳动
        • 1面: 60分钟
        • 2面: 60分钟
        • 3面:20分钟
        • HR面: 20分钟
    • 腾讯:校招日常实习
        • 1面: 25分钟
        • 2面:60分钟+8小时下来做题。。。
        • 3面,GM面:30分钟
        • HR面
    • 随便唠唠
  • 大模型(LLMs)高频面题全面整理(🌟2025 Offer 必备🌟)
    • 一、大模型进阶面
      • [💯 DeepSeek篇](https://t.zsxq.com/YmHO4)
      • [💯 大模型编辑篇](https://t.zsxq.com/YmHO4)
      • [💯 大模型压缩篇](https://t.zsxq.com/YmHO4)
      • [💯 分布式训练篇](https://t.zsxq.com/YmHO4)
    • 二、大模型微调面
      • [💯 有监督微调(SFT)篇](https://t.zsxq.com/YmHO4)
      • [💯 高效微调篇](https://t.zsxq.com/YmHO4)
      • [💯 提示学习篇](https://t.zsxq.com/YmHO4)
      • [💯 人类对齐训练(RLHF)篇](https://t.zsxq.com/YmHO4)
      • [💯 Prompt 工程篇](https://t.zsxq.com/YmHO4)
    • 三、大模型(LLMs)基础面
      • [💯 大模型(LLMs)架构篇](https://t.zsxq.com/YmHO4)
      • [💯 注意力机制(Attention)篇](https://t.zsxq.com/YmHO4)
      • [💯 Transformer 理论篇](https://t.zsxq.com/YmHO4)
    • 四、NLP 任务实战面
      • [💯 文本分类篇](https://t.zsxq.com/YmHO4)
      • [💯 命名实体识别(NER)篇](https://t.zsxq.com/YmHO4)
      • [💯 关系抽取篇](https://t.zsxq.com/YmHO4)
      • [💯 检索增强生成(RAG)篇](https://t.zsxq.com/YmHO4)
    • 五、NLP 基础面
      • [💯 分词(Tokenizer)篇](https://t.zsxq.com/YmHO4)
      • [💯 词嵌入(Word2Vec)篇](https://t.zsxq.com/YmHO4)
      • [💯 卷积神经网络(CNN)篇](https://t.zsxq.com/YmHO4)
      • [💯 循环神经网络(RNN)篇](https://t.zsxq.com/YmHO4)
      • 💯 长短期记忆网络(LSTM)篇
      • [💯 BERT 模型篇](https://t.zsxq.com/YmHO4)
      • [💯 BERT 变体篇](https://t.zsxq.com/YmHO4)
      • [💯 BERT 实战篇](https://t.zsxq.com/YmHO4)
    • 六、深度学习面
      • [💯 激活函数篇](https://t.zsxq.com/YmHO4)
      • [💯 优化器篇](https://t.zsxq.com/YmHO4)
      • [💯 正则化篇](https://t.zsxq.com/YmHO4)
      • [💯 归一化篇](https://t.zsxq.com/YmHO4)
      • [💯 参数初始化篇](https://t.zsxq.com/YmHO4)
      • [💯 过拟合篇](https://t.zsxq.com/YmHO4)
      • [💯 集成学习篇](https://t.zsxq.com/YmHO4)
      • [💯 模型评估篇](https://t.zsxq.com/YmHO4)


写在前面

先说一下背景:本科双非,硕士211,没论文,一段半年的大厂NLP实习,3个TOP5 NLP比赛,1个两位数的数据挖掘比赛。

字节跳动

1面: 60分钟
  • 实习,难点,收获,怎么解决

  • XGBOOST ,LGB,GBDT 的区别

  • 一阶优化器,二阶优化器

  • Attention怎么做,self-attention怎么做

  • Transformer细节,Bert细节(多头和缩放)

  • 过拟合怎么解决

  • 标签平滑怎么做的

  • 交叉熵,相对熵

  • Bagging, boosting , 偏差,方差关系

  • CRF理论与代码实现细节

  • CRF与HMM关系,区别

  • 维特比,beam-search 时间复杂度,区别

「编程题」:编辑距离,完全二叉树的节点个数 (都是很经典的leetcode原题)

2面: 60分钟
  • 实习,竞赛,问了30分钟

  • 开源代码阅读情况

  • XGBOOST ,LGB 生长策略,分类策略

  • BERT细节

  • 少样本情况怎么缓解

「编程题」:15分钟 写一个k-means,没写完时间不够

3面:20分钟
  • 聊人生,说前两面反馈给的好,就不问问题了。
HR面: 20分钟
  • 讲一件你觉得很有难度的事,怎么解决的。

  • 来段英语口语。

剩下时间就是问问题时间了。

从开始面试到拿到offer花了3天,字节效率极高。其中1,2面试连续面的,然后太晚了,不然估计3面也会连续面。

腾讯:校招日常实习

1面: 25分钟
  • 实习,竞赛

  • 优化器,系统的讲一下

  • 实际场景下做softmax容易出现一些问题,怎么解决(面试的时候没明白什么意思,面试结束后询问,他是说实际场景做softmax很容易出现下溢问题,这个可以用每个维度减去一个固定值就可以了)

  • 过拟合解决方法,正则项为什么能减缓过拟合

  • 权重衰减等价于哪个正则项

  • 传统机器学习方法了解哪些

「编程题」:打家劫舍II

2面:60分钟+8小时下来做题。。。
  • 实习,问得巨细,怎么和测试沟通,怎么和需求沟通,团队有几人,负责啥,难点是啥,你做了啥

「编程题」:leetcode-887,super egg drop,提前不知道这题是leetcode题,自己一直在硬做,后来给实习同事分享,同事告诉我是leetcode题很难得一道题。这题难的一*,面试里面剩余30分钟没做出来(基本属于刚理解题意),下来之后做了2个小时想出一个暴力解,被打回,第二天,想了3个小时,想到二分解法,被打回,又想了3个小时,想到数学解法。。。过了。(三种解法都对的, 不过面试官要求给出具体的策略和步骤,数学法比较直接可以直接给出,其他两种需要输出最优路径)。太菜了。。。。

3面,GM面:30分钟

比较水,没问技术问题,全程实习竞赛。

HR面

就问了啥时候能去,能去多久这种问题

腾讯流程很长,从官网投递简历,到拿到offer,全程花了20多天。导师和HR很热情,面试完了就在交流了。

随便唠唠

难度上,总体感觉面的两个岗位,除了腾讯二面的编程题,其他都不是很难(可能是只是实习面试的原因),两家没有奇奇怪怪的问题,面试体验都很好,知识点范围基本都在面经百度第一页能找到。不过感觉自己比较幸运,遇到的字节面试官出的题都很常规,我同学面头条出的题,遇到了取数对弈,螺丝螺母匹配等烧脑问题。


大模型(LLMs)高频面题全面整理(🌟2025 Offer 必备🌟)

​全面总结了【大模型面试】的高频面题和答案解析,答案尽量保证通俗易懂且有一定深度。

适合大模型初学者和正在准备面试的小伙伴。

希望也能帮助你快速完成面试准备,先人一步顺利拿到高薪 Offer 🎉🎉🎉

一、大模型进阶面

💯 DeepSeek篇

【大模型进阶面 之 DeepSeek篇】 你必须要会的高频面题 查看答案

  • 一、概念篇
    • Deepseek-V3的主要特点有哪些?
    • DeepSeek-V3在推理速度方面表现出色的原因有哪些?
  • 二、模型结构篇
    • MLA
      • 什么是多头潜在注意力(MLA)?
      • MLA的计算流程是什么样的?
      • 训练时MLA需要配置哪些超参?
      • MLA相对于MHA有哪些改进?
    • MoE
      • 什么是MoE?
      • DeepSeekMoE包含哪两种专家类型?
      • Share 专家和Router 专家的作用是什么?
      • 讲一下DeepSeekMoE的计算流程?
      • DeepSeekMoE是如何实现负载均衡的?
    • MTP
      • 什么是Multi-Token Prediction(MTP)?
      • Multi-Token Prediction(MTP)有何作用?
      • 讲一下Multi-Token Prediction(MTP)的预测流程?
  • 三、预训练篇
    • Prefix-Suffix-Middle (PSM)数据格式是什么样的?
    • DeepSeek预训练数据为何使用Prefix-Suffix-Middle (PSM)格式?
    • 介绍一下Byte-level BPE?
    • DeepSeek是如何进行长上下文扩展的?
    • DeepSeek的使用YaRN进行长上下文扩展有哪两个阶段?
    • DeepSeek预训练追求极致的训练效率的做法有哪些?
    • 批量级负载均衡(Batch-Wise Load Balance)和顺序级负载均衡(Sequence-Wise Load Balance)有何区别?
    • 使用MTP为何在提高计算效率的同时还能提升效果?
  • **四、有监督微调篇
    • DeepSeek的SFT有哪几种数据?
    • DeepSeek是如何构造Reasoning Data数据的?
    • DeepSeek两种不同类型的SFT数据,区别是什么?
    • DeepSeek在SFT训练时是如何加速训练过程的?
  • 五、强化学习篇
    • DeepSeek有哪两种奖励模型?
    • Rule-Based RM和Model-Based RM的区别是什么?
    • Rule-Based RM用在什么地方?有何作用?
    • Model-Based RM用在什么地方?有何作用?
    • DeepSeek是如何降低奖励欺诈风险的?
    • DeepSeek为何使用Group Relative Policy Optimization(GRPO)?
    • DeepSeek为何放弃Critic模型来估计状态的价值?
    • DeepSeek是如何进行Self-Rewarding的?
    • DeepSeek-V3从DeepSeek-R1中蒸馏知识有哪些影响?

点击查看答案

💯 大模型编辑篇

【大模型进阶面 之 模型魔改篇】 你必须要会的高频面题 查看答案

  • 模型编辑(Model Editing)核心目标是什么?
  • 对比重新预训练和微调,模型编辑的优势和适用场景是什么?
  • 如何用模型编辑修正大语言模型中的知识错误?
  • 如何量化评估模型编辑的五大性质?
  • 模型编辑局部性如何避免“牵一发而动全身”的问题?
  • 知识缓存法(如SERAC)的工作原理是什么?
  • 附加参数法(如T-Patcher)如何在不改变原始模型架构的情况下实现编辑?
  • 知识缓存法和附加参数法的优缺点有何优缺点?
  • ROME方法如何通过因果跟踪实验定位知识存储位置?
  • 元学习法(如MEND)如何实现“学习如何编辑”?
  • 元学习法的双层优化框架如何设计?
  • More …

点击查看答案

💯 大模型压缩篇

【大模型进阶面 之 模型压缩篇】 你必须要会的高频面题 查看答案

  • 💯 为什么需要对大模型进行压缩和加速?
  • 💯 什么是低秩分解?
  • 💯 什么是奇异值分解(SVD)?
  • 💯 权值共享为什么有效?
  • 💯 什么是模型量化?
  • 💯 什么是混合精度分解?
  • 💯 什么是基于反馈的知识蒸馏?
  • 💯 什么是基于特征的知识蒸馏?
  • 💯 模型蒸馏的损失函数是什么?
  • 💯 描述一下剪枝的基本步骤?
  • More …

点击查看答案

💯 分布式训练篇

【大模型进阶面 之 分布式训练篇】 你必须要会的高频面题 查看答案

  • PS架构和Ring-AllReduce架构有何不同?
  • 什么是张量并行,如何使用集群计算超大矩阵?
  • 讲一讲谷歌的GPipe算法?
  • 讲一讲微软的PipeDream算法?
  • ZeRO1、ZeRO2、ZeRO3分别做了哪些优化?
  • 用DeepSpeed进行训练时主要配置哪些参数?
  • More …

点击查看答案

二、大模型微调面

💯 有监督微调(SFT)篇

【大模型微调面 之 SFT篇】 你必须要会的高频面题 查看答案

  • 💯 从零训练一个大模型有哪几个核心步骤?
  • 💯 为什么要对LLM做有监督微调(SFT)?
  • 💯 如何将一个基础模型训练成一个行业模型?
  • 💯 如何准备SFT阶段的训练数据?
  • 💯 如何自动生成指令构建SFT的训练数据?
  • 💯 LM做有监督微调(SFT)变傻了怎么办?
  • 💯 有监督微调(SFT)和人工偏好对齐(RLHF)有何区别?
  • More …

点击查看答案

💯 高效微调篇

【大模型微调面 之 PEFT篇】 你必须要会的高频面题 查看答案

  • 💯 全量微调与参数高效微调的区别是什么?
  • 💯 什么是轻度微调?轻度微调有哪些常用方法?
  • 💯 什么是BitFit微调?
  • 💯 分层微调如何设置学习率?
  • 💯 什么是适配器微调?适配器微调有哪些优势?
  • 💯 讲一讲IA3微调?
  • 💯 提示学习(Prompting) 代表方法有哪些?
  • 💯 指令微调(Instruct-tuning) 和 提示学习(Prompting)的区别是什么?
  • 💯 详细说明LoRA的工作原理及其优势?
  • 💯 LoRA存在低秩瓶颈问题,ReLoRA和AdaLoRA分别通过哪些方法改进?
  • 💯 动态秩分配(如AdaLoRA)如何根据层的重要性调整秩?
  • More …

点击查看答案

💯 提示学习篇

【大模型微调面 之 提示学习篇】 你必须要会的高频面题 查看答案

  • 💯 提示学习(Prompting) 代表方法有哪些?
  • 💯 前缀微调(Prefix-tining)的核心思想?
  • 💯 提示微调(Prompt-tuning)的核心思想?
  • 💯 P-tuning 的动机是什么?
  • 💯 P-tuning v2 进行了哪些改进?
  • 💯 提示微调(Prompt-tuning)与 Prefix-tuning 区别是什么?
  • 💯 提示微调(Prompt-tuning)与 fine-tuning 区别是什么?
  • More …

点击查看答案

💯 人类对齐训练(RLHF)篇

【大模型微调面 之 RLHF篇】 你必须要会的高频面题 查看答案

  • 💯 RLHF有哪几个核心流程?
  • 💯 RLHF与SFT的本质区别是什么?为什么不能只用SFT?
  • 💯 什么是人类偏好对齐中的"对齐税"(Alignment Tax)?如何缓解?
  • 💯 在强化学习中,基于值函数的和基于策略的的优化方法有何区别?
  • 💯 什么是近端策略优化(PPO)?
  • 💯 RLHF中的PPO主要分哪些步骤?
  • 💯 PPO中的重要性采样(Importance Sampling)如何修正策略差异?
  • 💯 DPO如何通过隐式奖励建模规避强化学习阶段?
  • 💯 DPO vs PPO:训练效率与性能上限的对比分析?
  • 💯 RLHF训练数据的格式是什么样的?
  • 💯 如何选择人类偏好对齐训练算法?
  • More …

点击查看答案

💯 Prompt 工程篇

【大模型微调面 之 提示工程篇】 你必须要会的高频面题 查看答案

  • 💯 Prompt工程与传统微调的区别是什么?
  • 💯 如何规范编写Prompt?
  • 💯 上下文学习三种形式(零样本、单样本、少样本)的区别?
  • 💯 如何通过预训练数据分布和模型规模优化上下文学习效果?
  • 💯 思维链(CoT)的核心思想是什么?
  • 💯 按部就班(如 Zero-Shot CoT、Auto-CoT)、三思后行(如 ToT、GoT)、集思广益(如 Self-Consistency)三种 CoT 模式有何异同?
  • More …

点击查看答案

三、大模型(LLMs)基础面

💯 大模型(LLMs)架构篇

【大模型基础面 之 LLM架构篇】 你必须要会的高频面题 查看答案

  • 💯 LLM架构对Transformer都有哪些优化?
  • 💯 什么是正弦(Sinusoidal)位置编码?
  • 💯 什么是旋转位置编码(RoPE)?
  • 💯 RoPE相对正弦位置编码有哪些优势?
  • 💯 RoPE如何进行外推?
  • 💯 如何进行位置线性内插(Position Interpolation)?
  • 💯 NTK-Aware Scaled RoPE 和位置线性内插的区别是什么?
  • 💯 PreNorm和PostNorm有何不同?
  • 💯 为什么PreNorm通常能提升训练稳定性?
  • 💯 为何使用 RMSNorm 代替 LayerNorm?
  • 💯 LLM使用SwiGLU相对于ReLU有什么好处?
  • 💯 SwiGLU的参数量是否会显著增加?如何优化?
  • More …

点击查看答案

💯 注意力机制(Attention)篇

【大模型基础面 之 注意力机制篇】 你必须要会的高频面题 查看答案

  • 💯 为什么要引入 Attention 机制?
  • 💯 Soft Attention 是什么?
  • 💯 Hard Attention 是什么?
  • 💯 Self-Attention 是什么?
  • 💯 多查询注意力(Multi-Query Attention)是什么?
  • 💯 分组查询注意力(Grouped Query Attention)是什么?
  • 💯 分页注意力(Paged Attention)是什么?
  • 💯 闪存注意力(Flash Attention)是什么?
  • More …

点击查看答案

💯 Transformer 理论篇

【大模型基础面 之 提示工程Transformer篇】 你必须要会的高频面题 查看答案

  • 💯 Transformer 整体结构是怎么样的?
  • 💯 Transformer的输入中为什么要添加位置编码?
  • 💯 Transformer的位置编码是如何计算的?
  • 💯 Position encoding为什么选择相加而不是拼接呢?
  • 💯 多头注意力相对于单头注意力有什么优势?
  • 💯 Transformer中自注意力模块的计算过程?
  • 💯 什么是缩放点积注意力,为什么要除以根号d_k?
  • 💯 批归一化和层归一化的区别?
  • 💯 Layer Normalization 有哪几个可训练参数?
  • 💯 Transformer 中有几种 Mask?
  • More …

点击查看答案

四、NLP 任务实战面

💯 文本分类篇

【NLP 任务实战面 之 文本分类篇】 你必须要会的高频面题 查看答案

  • 如何用检索的方式做文本分类?
  • 如何用Prompt的方式做文本分类?
  • 使用LLM做文本分类任务为何需要做标签词映射(Verbalizer)?
  • 文本分类任务中有哪些难点?
  • 如何解决样本不均衡的问题?
  • 如果类别会变化如何设计文本分类架构?
  • More …

点击查看答案

💯 命名实体识别(NER)篇

【NLP 任务实战面 之 实体识别篇】 你必须要会的高频面题 查看答案

  • 实体识别中有哪些难点?
  • CRF为什么比Softmax更适合NER?
  • 如何使用指针标注方式做NER任务?
  • 如何使用多头标注方式做NER任务?
  • 如何使用片段排列方式做NER任务?
  • 实体识别有哪些常用的解码方式?
  • 如何解决实体嵌套问题?
  • 实体识别的数据是如何进行标注的?
  • 如何解决超长实体识别问题?
  • More …

点击查看答案

💯 关系抽取篇

【NLP 任务实战面 之 关系抽取篇】 你必须要会的高频面题 查看答案

  • 常见关系抽取流程的步骤是怎样的?
  • 如何抽取重叠关系和复杂关系?
  • 介绍下基于共享参数的联合抽取方法?
  • 介绍下基于联合解码的联合抽取方法?
  • 关系抽取的端到端方法和流水线方法各有什么优缺点?
  • 在进行跨句子甚至跨段落的关系抽取时,会遇到哪些特有的挑战?

点击查看答案

💯 检索增强生成(RAG)篇

【NLP 任务实战面 之 RAG篇】 你必须要会的高频面题 查看答案

  • 用户问题总是召回不准确,在用户理解阶段可以做哪些优化?
  • 文档问答中,如何构建索引,提升对用户问题的泛化能力?
  • 如何合并多路检索的结果,对它们做排序?
  • BM25检索器总是召回无关的知识,最可能的原因是什么?
  • 如何构建重排序模型的微调数据?
  • More …

点击查看答案

五、NLP 基础面

💯 分词(Tokenizer)篇

【NLP 基础面 之 分词篇】 你必须要会的高频面题 查看答案

  • 💯 如何处理超出词表的单词(OVV)?
  • 💯 BPE 分词器是如何训练的?
  • 💯 WordPiece 分词器是如何训练的?
  • 💯 Unigram 分词器是如何训练的?
  • More …

点击查看答案

💯 词嵌入(Word2Vec)篇

【NLP 基础面 之 词嵌入篇】 你必须要会的高频面题 查看答案

  • 基于计数的表示方法存在哪些问题?
  • CBOW 和 Skip-gram 哪个模型的词嵌入更好?
  • Word2Vec的词向量存在哪些问题?
  • 为什么说Word2vec的词向量是静态的?
  • Word2Vec如何优化从中间层到输出层的计算?
  • 负采样方法的关键思想的关键思想是什么?
  • More …

点击查看答案

💯 卷积神经网络(CNN)篇

【NLP 基础面 之 CNN篇】 你必须要会的高频面题 查看答案

  • 卷积核是否越大越好?
  • 1×1 卷积的作用?
  • 为何较大的batch size 能够提高 CNN 的泛化能力?
  • 如何减少卷积层参数量?
  • SAME 与 VALID 的区别?
  • More …

点击查看答案

💯 循环神经网络(RNN)篇

【NLP 基础面 之 RNN篇】 你必须要会的高频面题 查看答案

  • RNN的输入输出分别是什么?
  • RNN是如何进行参数学习(反向传播)的?
  • 用RNN训练语言模型时如何计算损失?
  • RNN不能很好学习长期依赖的原因是什么?
  • 怎么解决RNN的梯度爆炸问题?
  • More …

点击查看答案

💯 长短期记忆网络(LSTM)篇

【NLP 基础面 之 LSTM篇】 你必须要会的高频面题 查看答案

  • LSTM 如何缓解 RNN 梯度消失的问题?
  • LSTM中记忆单元的作用是什么?
  • LSTM有几个门,分别起什么作用?
  • LSTM的前向计算如何进行加速?
  • LSTM中的tanh和sigmoid分别用在什么地方?为什么?
  • More …

点击查看答案

💯 BERT 模型篇

【NLP 基础面 之 BERT模型篇】 你必须要会的高频面题 查看答案

  • 为什么说BERT是双向的编码语言模型?
  • BERT 是如何区分一词多义的?
  • BERT的输入包含哪几种嵌入?
  • BERT的三个Embedding直接相加会对语义有影响吗?
  • BERT模型输入长度超过512如何解决?
  • 什么是 80-10-10 规则,它解决了什么问题?
  • BERT 嵌入与 Word2Vec 嵌入有何不同?
  • More …

点击查看答案

💯 BERT 变体篇

【NLP 基础面 之 BERT变体篇】 你必须要会的高频面题 查看答案

  • ALBERT 使用的参数缩减技术是什么?
  • RoBERTa 与 BERT 有什么不同?
  • 在 ELECTRA 中,什么是替换标记检测任务?
  • 如何在 SpanBERT 中掩盖标记?
  • Transformer-XL 是怎么实现对长文本建模的?
  • More …

点击查看答案

💯 BERT 实战篇

【NLP 基础面 之 BERT实战篇】 你必须要会的高频面题 查看答案

  • BERT为什么不适用于自然语言生成任务(NLG)?
  • 在问答任务中,如何计算答案的起始索引和结束索引?
  • 如何将 BERT 应用于命名实体识别任务?
  • 如何进行继续预训练?
  • Bert 未登录词如何处理?
  • BERT在输入层如何引入额外特征?
  • More …

点击查看答案

六、深度学习面

💯 激活函数篇

【深度学习面 之 激活函数篇】 你必须要会的高频面题 查看答案

  • 💯 为什么激活函数需要非线性函数?
  • 💯 sigmoid 函数有什么缺点?
  • 💯 tanh 函数作为激活函数有什么缺点?
  • 💯 为什么选 relu 函数作为激活函数?
  • 💯 为什么tanh收敛速度比sigmoid快?
  • 💯 LLM使用SwiGLU相对于ReLU有什么好处?
  • 💯 SwiGLU的参数量是否会显著增加?如何优化?
  • More …

点击查看答案

💯 优化器篇

【深度学习面 之 优化器篇】 你必须要会的高频面题 查看答案

  • 💯 SGD是如何实现的?
  • 💯 Momentum 是什么?
  • 💯 Adagrad 是什么?
  • 💯 RMSProp是什么?
  • 💯 Adam 是什么?
  • 💯 批量梯度下降(BGD)、随机梯度下降(SGD)与小批量随机梯度下降(Mini-Batch GD)的区别?
  • More …

点击查看答案

💯 正则化篇

【深度学习面 之 正则化篇】 你必须要会的高频面题 查看答案

  • 💯 权重衰减的目的?
  • 💯 L1 与 L2 的异同?
  • 💯 为什么 L1 正则化 可以产生稀疏值,而 L2 不会?
  • 💯 为什么Dropout可以解决过拟合问题?
  • 💯 Dropout 在训练和测试阶段的区别是什么?
  • 💯 如何选择合适的 Dropout 率?
  • 💯 Dropout 和其他正则化方法(如 L1、L2 正则化)有何不同?
  • More …

点击查看答案

💯 归一化篇

【深度学习面 之 归一化篇】 你必须要会的高频面题 查看答案

  • 💯 为什么归一化能提高求最优解速度?
  • 💯 Batch Normalization 是什么?
  • 💯 Layer Normalization 是什么?
  • 💯 批归一化和组归一化的比较?
  • 💯 批归一化和权重归一化的比较?
  • 💯 批归一化和层归一化的比较?
  • More …

点击查看答案

💯 参数初始化篇

【深度学习面 之 参数初始化篇】 你必须要会的高频面题 查看答案

  • 💯 什么是内部协变量偏移?
  • 💯 神经网络参数初始化的目的?
  • 💯 为什么不能将所有神经网络参数初始化为0?
  • 💯 什么是Xavier初始化?
  • 💯 什么是He初始化?
  • More …

点击查看答案

💯 过拟合篇

【深度学习面 之 过拟合篇】 你必须要会的高频面题 查看答案

  • 💯 过拟合与欠拟合的区别是什么?
  • 💯 解决欠拟合的方法有哪些?
  • 💯 防止过拟合的方法主要有哪些?
  • 💯 什么是Dropout?
  • 💯 为什么Dropout可以解决过拟合问题?
  • More …

点击查看答案

💯 集成学习篇

【深度学习面 之 集成学习篇】 你必须要会的高频面题 查看答案

  • 集成学习与传统单一模型相比有哪些本质区别?
  • GBDT与 XGBoost 的核心差异是什么?
  • 为什么XGBoost要引入二阶泰勒展开?对模型性能有何影响?
  • Bagging的并行训练机制如何提升模型稳定性?
  • 对比Bagging与Dropout在神经网络中的异同?
  • Stacking中为什么要用K折预测生成元特征?
  • 如何避免Stacking中信息泄露问题?
  • 对比Boosting/Bagging/Stacking三大范式的核心差异(目标、训练方式、基学习器关系)?
  • More …

点击查看答案

💯 模型评估篇

【深度学习面 之 模型评估篇】 你必须要会的高频面题 查看答案

  • 💯 混淆矩阵有何作用?
  • 💯 什么是 F1-Score?
  • 💯 什么是 Macro F1?
  • 💯 什么是 Micro F1?
  • 💯 什么是 Weight F1?
  • 💯 Macro 和 Micro 有什么区别?
  • 💯 ROC 曲线主要有什么作用?
  • 💯 P-R 曲线有何作用?
  • More …

点击查看答案


http://www.kler.cn/a/559538.html

相关文章:

  • SOME/IP--协议英文原文讲解10
  • c++———————————————c++11
  • 小型字符级语言模型的改进方向和策略
  • Opengl常用缓冲对象功能介绍及使用示例(C++实现)
  • 嵌入式工业级显示器在环保垃圾柜设备中发挥着至关重要的作用
  • Android14 Camera框架中Jpeg流buffer大小的计算
  • 2025年第一期 | CCF ODC《开源战略动态月报》
  • AI前端开发与远程工作模式下的效率革命:ScriptEcho赋能高效协作
  • 第10篇:组件生命周期与钩子函数
  • 15-最后一个单词的长度
  • 全面汇总windows进程通信(三)
  • Transformer Decoder 详解
  • ThinkPHP(TP)如何做安全加固,防webshell、防篡改、防劫持、TP漏洞防护
  • 【Gin-Web】Bluebell社区项目梳理4:帖子相关接口开发及实现
  • Unity 中导入的VRM模型渲染为VRoid风格
  • 【每日八股】Redis篇(二):数据结构
  • Deepin(Linux)安装MySQL指南
  • Nginx学习笔记:常用命令端口占用报错解决Nginx核心配置文件解读
  • <02.23>Leetcode100
  • Linux-Ansible自动化运维