BertTokenizer中的“padding参数需要进一步澄清。
创始人
2024-11-30 23:00:18
0

在使用Bert Tokenizer时,可以使用padding参数来指定如何进行填充。padding有两个可选项:“max_length”和“longest”,默认值为“max_length”。

如果padding为“max_length”,则在序列的末尾添加0,以使所有序列的长度相同。其中,序列的最大长度是通过tokenizer.encode_plus()函数中设置的max_length参数指定的。

代码示例:

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "Hello, welcome to my world."
encoded_dict = tokenizer.encode_plus(text, padding='max_length', max_length=10, return_tensors='pt')

print(encoded_dict['input_ids'])
#outputs: tensor([[ 101, 7592, 1010, 6160, 2000, 2026, 2088, 1012,    0,    0]])

如果padding为“longest”,则将所有序列填充到最长序列的长度,并将短序列前置0以使它们达到相同长度。

代码示例:

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
texts = ["Hello, welcome to my world.", "This is your world."]
encoded_dict = tokenizer.batch_encode_plus(texts, padding='longest', return_tensors='pt')

print(encoded_dict['input_ids'])
#outputs: tensor([[  101,  7592,  1010,  6160,  2000,  2026,  2088,  1012,     0,     0],
#                  [  101,  2023,  2003,  2115,  2088,  1012,     0,     0,     0,     0]])

相关内容

热门资讯

软件辅助挂!顺欣茶楼辅助视频(... 软件辅助挂!顺欣茶楼辅助视频(辅助)真是是有辅助神器(有挂规律)顺欣茶楼辅助视频脚本下载中分为三种模...
方法辅助挂!潘潘讲故事app辅... 方法辅助挂!潘潘讲故事app辅助(辅助)真是是有辅助挂(真实有挂)1、点击下载安装,潘潘讲故事app...
记者获悉!小程序蜀山西川血战辅... 记者获悉!小程序蜀山西川血战辅助(辅助)切实存在有辅助工具(有挂详情)小薇(辅助器软件下载)致您一封...
2026版规律!广东雀神智能插... 2026版规律!广东雀神智能插件辅助(辅助)一贯确实有辅助技巧(有挂透视)1)广东雀神智能插件辅助有...
2026版辅助挂!九九联盟后台... 2026版辅助挂!九九联盟后台可以操作吗(辅助)总是是有辅助方法(有挂透明挂)九九联盟后台可以操作吗...
方法辅助挂!黑科技辅助软件免费... 方法辅助挂!黑科技辅助软件免费(辅助)切实是真的有辅助工具(有挂秘籍)一、黑科技辅助软件免费可以开透...
此事备受玩家关注!雀神广东麻将... 此事备受玩家关注!雀神广东麻将透视视频(辅助)竟然存在有辅助攻略(讲解有挂)1、金币登录送、破产送、...
无独有偶!潮友会pp下载辅助器... 无独有偶!潮友会pp下载辅助器(辅助)好像真的是有辅助app(有挂秘籍)1、下载好潮友会pp下载辅助...
2026版方法!广东雀神祈福真... 2026版方法!广东雀神祈福真的有用吗(辅助)好像是有辅助技巧(有挂工具)1、进入到广东雀神祈福真的...
网友热议!欢聚水鱼神器(辅助)... 网友热议!欢聚水鱼神器(辅助)确实真的是有辅助工具(有挂秘笈)欢聚水鱼神器能透视中分为三种模型:欢聚...