BERT模型在命名实体识别(NER)任务中可以使用汇聚输出(pooled output)和序列输出(sequence output)两种不同的解决方法。
下面是一个使用汇聚输出的BERT模型在NER任务中的示例代码:
import torch
from transformers import BertTokenizer, BertForTokenClassification
# 加载预训练的BERT模型和分词器
model_name = 'bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForTokenClassification.from_pretrained(model_name)
# 输入文本
text = "我爱北京天安门。"
# 分词并添加特殊标记
tokens = tokenizer.tokenize(text)
tokens = ['[CLS]'] + tokens + ['[SEP]']
# 将标记转换为对应的索引
input_ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor([input_ids])
# 获取汇聚输出([CLS]标记对应的向量)
outputs = model(input_ids)
pooled_output = outputs[1]
# 根据需要进行分类操作
# ...
下面是一个使用序列输出的BERT模型在NER任务中的示例代码:
import torch
from transformers import BertTokenizer, BertForTokenClassification
# 加载预训练的BERT模型和分词器
model_name = 'bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForTokenClassification.from_pretrained(model_name)
# 输入文本
text = "我爱北京天安门。"
# 分词并添加特殊标记
tokens = tokenizer.tokenize(text)
tokens = ['[CLS]'] + tokens + ['[SEP]']
# 将标记转换为对应的索引
input_ids = tokenizer.convert_tokens_to_ids(tokens)
input_ids = torch.tensor([input_ids])
# 获取序列输出(每个标记对应的向量序列)
outputs = model(input_ids)
sequence_output = outputs[0]
# 根据需要进行分类操作
# ...
以上代码示例了如何使用BERT模型在NER任务中进行汇聚输出和序列输出的处理。根据具体的任务需求,选择适合的方法进行特征提取和分类操作。