Kaggler日志--Day7
进度24/12/17
昨日复盘:
尝试自己爬取了两个学校的就业信息数据,比较简单但是顺通了爬虫流程
看别人的代码:AQX的。
今日进度:
分析理解昨天代码的过程,统计问题
过程理解
EDA部分
对于不同变量类型判别的举例说明:
初步划分数值型和类别型时:
- 离散型数值变量
OverallQual: Rates the overall material and finish of the house
10 Very Excellent
9 Excellent
8 Very Good
7 Good
6 Above Average
5 Average
4 Below Average
3 Fair
2 Poor
1 Very Poor
# 个人感觉这就相当于已经进行顺序编码的类型变量!!!
填补空缺时划分顺序特征、一般类别特征和数值特征时:
对于不同类型变量使用的可视化图表及作用的理解
ked、skewed
等概念
多变量分析要点及可视化方式
多重共线性multicollinearity
箱线图与离群点、skewed
空缺值填补策略
分组时分组依据怎么选?
特征工程
CV的应用
这里的交叉验证CV
貌似只是在网格化搜索优化超参数模型的过程中使用,并没有用在最终的模型评估中,没太理解这样的用意,CV不是一种非常好的模型评估手段吗?为什么最后评估的时候不用CV
是不是因为val用来评估模型时也不能参与到训练中???
最后用来多种评估方法也有CV但是:
如果使用数据集合S来进行超参数搜索,是不是就不能再直接在S上进行CV评估,这也算一种数据泄露吧