[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu,并保证端口未被使用
1.5B在eval时候两个任务一个gpu是可以的。
7B+在eval belebele时会OOM,所以分配时脚本不同。
eval_fast.py:
import subprocess
import argparse
import os
import socket
# 参数列表
task_name_list = [
"flores_mt_en_to_id",
"flores_mt_en_to_vi",
"flores_mt_en_to_th",
"flores_mt_en_to_ms",
"flores_mt_id_to_en",
"flores_mt_vi_to_en",
"flores_mt_th_to_en",
"flores_mt_ms_to_en",
"ceval",
"mmlu",
"arc_challenge",
"arc_easy",
"hellaswag",
"belebele",
]
# 解析命令行参数
parser = argparse.ArgumentParser(description="Run evaluation")
parser.add_argument("--model_names", type=