要保留BERT分词字符串的格式,可以使用Hugging Face的Transformers库中的tokenizer.tokenize
方法来分词。以下是一个示例代码:
from transformers import BertTokenizer
# 初始化BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# 输入文本
text = "Hello, how are you doing today?"
# 使用tokenizer进行分词
tokens = tokenizer.tokenize(text)
# 打印分词结果
print(tokens)
输出结果:
['hello', ',', 'how', 'are', 'you', 'doing', 'today', '?']
在这个示例中,我们首先导入并初始化了BertTokenizer
类。然后,我们将输入文本传递给tokenizer.tokenize
方法进行分词。最后,我们打印了分词结果。
要注意的是,BERT的分词结果是一个列表,其中每个元素代表一个分词后的单词或符号。你可以根据需要对这些分词结果进行进一步的处理和使用。