大模型的命名

Posted by 付辉 on Thursday, January 2, 2025 共577字

「DeepSeek-R1-Distill-Qwen-1.5B」模型后面加的1.5B是什么意思?

第一次接触大模型的时候,总是从模型的名字开始的,而名字后面加的1.5B让我很迷惑,Billion 表示十亿,Million表示百万,那这个1.5B的数据量是指什么?

XL-Net模型是在一个包含39B个词库的庞大数据集上进行训练的,这些词库来自图书、维基百科和网络等文本

从上面的描述中可以了解到:39B可以指代训练模型的数据大小。但模型模型后面跟的1.5B应该不是这个意思,按照基础的认知,训练模型需要海量的数据,而1.5B的数据量应该不能代表海量。我继续寻找

GPT-3模型是一个功能更强大的从左到右的Transformer,拥有高达175B个参数,它以相同的标准语言建模为目标,在来自Common Crawl的超过1万亿个单词的庞大数据集上进行训练。

175B表示参数的大小,这应该就是后缀1.5B的含义,它表示模型参数的大小,而非训练数据的大小。那1.5B又是如何计算的呢?

BERT-base模型的配置可以表示为L=12、A=12、H=768,它的网络参数总数可达1.1亿个。其中,编码器的层数用L表示,注意力头的数量用A表示,隐藏神经元的数量用H表示

很显然,BERT模型可以基于这三个参数计算出来。怎么计算出来的呢,我求助了DeepSeek给出答案,答案很烧脑。

计算过程