在使用 Bert Tokenizer 中新增 token 时,需要使用 add_tokens 函数而不是 add_token。add_token 函数只能用于新增单个 token,如果想新增多个 token,需要使用 add_tokens 函数。示例代码如下:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
tokenizer.add_tokens(['new_token_1', 'new_token_2'])
encoded_input = tokenizer("This is a new_token_1")
print(encoded_input)
在这个例子中,我们使用 add_tokens 函数向 tokenizer 添加了两个新的 token。然后,我们使用修改后的 tokenizer 对一个字符串进行编码,输出编码结果,以检查新增 token 是否生效。