论文略读: Scaling laws with vocabulary: larger model deserve larger vocabularies
- 更大的模型应该配备更大的词表,且在给定算力的情况下,最优的词表大小是有上限的
- 在一开始,增加词表大小可以提高tokenization的效率,即用更短的词元表示文本,从而提高模型性能。
- 逐渐增加词表大小的时候,分词效率提高的收益会逐渐减少
- 同时此时低频词汇变多,这些词汇逐渐开始欠拟合
参考内容:NeurIPS 2024 | 大模型的词表大小,同样适用于Scaling Law