当前位置: 首页 > article >正文

Kaggler日志--Day7

进度24/12/17

昨日复盘:
尝试自己爬取了两个学校的就业信息数据,比较简单但是顺通了爬虫流程
看别人的代码:AQX的。

今日进度:
分析理解昨天代码的过程,统计问题

过程理解

EDA部分

对于不同变量类型判别的举例说明:

初步划分数值型和类别型时:

  • 离散型数值变量
OverallQual: Rates the overall material and finish of the house
       10	Very Excellent
       9	Excellent
       8	Very Good
       7	Good
       6	Above Average
       5	Average
       4	Below Average
       3	Fair
       2	Poor
       1	Very Poor
# 个人感觉这就相当于已经进行顺序编码的类型变量!!!

填补空缺时划分顺序特征、一般类别特征和数值特征时:

对于不同类型变量使用的可视化图表及作用的理解

ked、skewed等概念

多变量分析要点及可视化方式

多重共线性multicollinearity

箱线图与离群点、skewed
空缺值填补策略

分组时分组依据怎么选?

特征工程
CV的应用

这里的交叉验证CV貌似只是在网格化搜索优化超参数模型的过程中使用,并没有用在最终的模型评估中,没太理解这样的用意,CV不是一种非常好的模型评估手段吗?为什么最后评估的时候不用CV

是不是因为val用来评估模型时也不能参与到训练中???

最后用来多种评估方法也有CV但是:
如果使用数据集合S来进行超参数搜索,是不是就不能再直接在S上进行CV评估,这也算一种数据泄露吧

集成建模
融合Blending

http://www.kler.cn/a/444240.html

相关文章:

  • Android详解——ConstraintLayout约束布局
  • 胡九道:经典传承(贵宾酒)
  • 深度学习之超分辨率算法——SRGAN
  • 【已解决】启动此实时调试器时未使用必需的安全权限。要调试该进程,必须以管理员身份运行此实时调试器。是否调试该进程?
  • 【Linux网络编程】第十二弹---构建与优化HTTP请求处理:从HttpRequest到HttpServer的实战
  • C++特殊类设计(单例模式等)
  • 无刷电机的概念
  • 【数据集】车内视角拍摄道路路面缺陷数据集1075张3类标签YOLO+VOC格式
  • 前端大数字精度丢失?Choerodon UI 大数字解决方案:精确性与灵活性的结合!
  • WebGIS开发中WKT和GeoJSON互相转换
  • 彻底解决idea不识别.gitignore
  • 框架问题学习
  • Chrome 浏览器原生功能截长屏
  • Linux shell脚本练习(七)
  • (2024年最新)Linux(Ubuntu) 中配置静态IP(包含解决每次重启后配置文件失效问题)
  • js常用方法之: 加减乘除运算
  • 联合索引的使用
  • YOLOv8目标检测——详细记录使用ONNX Runtime进行推理部署C++/Python实现
  • elasticsearch 7.6.2版本即使使用wildcard模糊查询,也毫无过滤效果分析
  • 实操给桌面机器人加上超拟人音色
  • 【21天学习AI底层概念】day8 适合新手免费训练 AI 模型的网站和平台
  • Redis篇-15--数据结构篇7--Sorted Set内存模型(有序集合,跳跃表skip list,压缩列表ziplist)
  • 使用VLC 搭建 RTSP 服务器
  • 监控易平台:提升IDC 数据中心运维效率与质量
  • RestTemplate实时接收Chunked编码传输的HTTP Response
  • GPT-Omni 与 Mini-Omni2:创新与性能的结合