BertTokenizer是BERT模型中的一个工具类,用于将输入文本转化为模型所需的标记。它并不像词嵌入一样从单词中获取其含义。因此BertTokenizer与词嵌入是不同的概念。
以下是使用BertTokenizer进行文本处理的代码示例:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "This is an example."
# 将文本转化为模型所需的标记
inputs = tokenizer(text, return_tensors='pt')
# 输出标记的张量表示
print(inputs["input_ids"])
这段代码中,我们创建了一个BertTokenizer实例,将待处理的文本输入到tokenizer()方法中,将文本转换成了张量表示。