要使用BERT嵌入来计算语义相似度,可以按照以下步骤进行:
pip install transformers
from transformers import BertTokenizer, BertModel
# 加载预训练的BERT模型和tokenizer
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
text1 = "I love coding"
text2 = "I enjoy programming"
# 对文本进行tokenize和编码
inputs = tokenizer([text1, text2], return_tensors='pt', padding=True, truncation=True)
# 使用BERT模型获取嵌入
outputs = model(**inputs)
embeddings = outputs.last_hidden_state
import torch.nn.functional as F
# 计算两个嵌入向量之间的余弦相似度
similarity = F.cosine_similarity(embeddings[0], embeddings[1]).item()
print("Similarity:", similarity)
以上就是使用BERT嵌入计算语义相似度的解决方法,包含了代码示例。请注意,这只是一个简单的示例,实际应用中可能需要进行更多的预处理和后处理步骤。
下一篇:BERT权重计算