当前位置: 首页 > article >正文

kaggle-ISIC 2024 - 使用 3D-TBP 检测皮肤癌-学习笔记

问题描述:
通过从 3D 全身照片 (TBP) 中裁剪出单个病变来识别经组织学确诊的皮肤癌病例
数据集描述:
图像+临床文本信息
评价指标:
pAUC,用于保证敏感性高于指定阈值下的AUC

主流方法分析(文本)
基于CatBoost、LGBM 和 XGBoost三者的组合,为每个算法创建了 XX个变体,总共XX个模型,进行集成学习。
CatBoost在传统梯度提升决策树(GBDT)基础上,引入了一系列关键技术创新,以提升处理类别型特征和缺失值的能力,以及整体模型性能,排序学习、目标导向的编码和缺失值处理。
LightGBM基于XGBoost基础上改进,基于Histogram(直方图)的决策树算法,单边梯度采样,互斥特征捆绑等
XGBoost,是基于预排序方法的决策树算法。这种构建决策树的算法基本思想是:首先,对所有特征都按照特征的数值进行预排序。其次,在遍历分割点的时候寻找一个特征上的最好分割点。最后,在找到一个特征的最好分割点后,将数据分裂成左右子节点。
参考超参数

lgbm_params = {
    'objective':        'binary',
    'verbosity':        -1,
    'n_estimators':     300,
    'early_stopping_rounds': 50,
    'metric': 'custom',
    'boosting_type':    'gbdt',
    'lambda_l1':        0.08758718919397321, 
    'lambda_l2':        0.0039689175176025465, 
    'learning_rate':    0.03231007103195577, 
    'max_depth':        4, 
    'num_leaves':       128, 
    'colsample_bytree': 0.8329551585827726, 
    'colsample_bynode': 0.4025961355653304, 
    'bagging_fraction': 0.7738954452473223, 
    'bagging_freq':     4, 
    'min_data_in_leaf': 85, 
    'scale_pos_weight': 2.7984184778875543,
    "device": "gpu"
}
cb_params = {
    'loss_function':     'Logloss',
    'iterations':        300,
    'early_stopping_rounds': 50,
    'verbose':           False,
    'max_depth':         7, 
    'learning_rate':     0.06936242010150652, 
    'scale_pos_weight':  2.6149345838209532, 
    'l2_leaf_reg':       6.216113851699493,
    'min_data_in_leaf':  24,
    'cat_features':      cat_cols,
    "task_type": "CPU",
}
xgb_params = {
    'enable_categorical':       True,
    'tree_method':              'hist',
    'disable_default_eval_metric': 1,
    'n_estimators':             300,
    'early_stopping_rounds':    50,
    'learning_rate':            0.08501257473292347, 
    'lambda':                   8.879624125465703, 
    'alpha':                    0.6779926606782505, 
    'max_depth':                6, 
    'subsample':                0.6012681388711075, 
    'colsample_bytree':         0.8437772277074493, 
    'colsample_bylevel':        0.5476090898823716, 
    'colsample_bynode':         0.9928601203635129, 
    'scale_pos_weight':         3.29440313334688,
    "device":                   "cuda",
}

主流方法分析(图像),深度学习算法提取特征,将图像特征与文本特征一并送入提升树模型

  1. EVA02-small (eva02_small_patch14_336.mim_in22k_ft_in1k) 和EdgeNeXt (edgenext_base.in21k_ft_in1k)
  2. eva02_small,deit3_small,beitv2_base,convnextv2_tiny,swinv2_small, resnext50, convnextv2_nano
  3. swin_tiny,convnextv2_base,convnextv2_large,coatnet_rmlp_1

http://www.kler.cn/a/523824.html

相关文章:

  • mysql_init和mysql_real_connect的形象化认识
  • C语言中string.h头文件功能介绍
  • 将ollama迁移到其他盘(eg:F盘)
  • 2025年美赛B题-结合Logistic阻滞增长模型和SIR传染病模型研究旅游可持续性-成品论文
  • RocketMQ 中如何实现消息的可靠传递?
  • 联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署
  • go 循环处理无限极数据
  • 【llm对话系统】大模型 RAG 之回答生成:融合检索信息,生成精准答案
  • HTML表单深度解析:GET 和 POST 提交方法
  • linux监控脚本+自动触发邮件发送
  • 【AI】【本地部署】OpenWebUI的升级并移植旧有用户信息
  • 面向对象编程 vs 面向过程编程
  • React第二十七章(Suspense)
  • mysql 学习5 mysql图形化界面DataGrip下载 安装 使用
  • MIMIC-IV数据部署(博主较忙,缓慢更新)
  • 装机爱好者的纯净工具箱
  • 算法- Z字形变换
  • Java实现FIFO缓存策略实战
  • 为什么应用程序是特定于操作系统的?[计算机原理]
  • MFC 创建Ribbon样式窗口
  • NLP模型大对比:Transformer(Bert) > RNN > n-gram
  • Linux 常用命令——系统设置篇(保姆级说明)
  • 2024.12.28测试 总结
  • Redisson分布式限流的使用及原理
  • mybatis(104/134)
  • Ubuntu x64下交叉编译ffmpeg、sdl2到目标架构为aarch64架构的系统(生成ffmpeg、ffprobe、ffplay)