BERT默认的词汇表大小为30522个单词,这是因为在进行预训练时,该数值是根据英文维基百科语料库的token数目设定的。
代码示例: 在Python中,BERT的默认词汇表大小可以通过以下代码获取:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
vocab_size = len(tokenizer.vocab)
其中,len(tokenizer.vocab)
返回的就是BERT的默认词汇表大小。
上一篇:BERT的令牌与嵌入