使用transformers的tokenizer
使用transformers的tokenizer
单句子的分词和编码
1 | from transformers import BertTokenizer |
结果
1 | Original sequence: A Titan RTX has 24GB of VRAM |
多句子的分词和编码需要填充
1 | # Transformer's tokenizer - attention_mask |
输出
1 | Sequence a: This is a short sequence. |
多个分句组成一个句子,说明句子所属哪个子句
1 | from transformers import BertTokenizer |
结果
1 | Sequence a: This is a short sequence. |
可以看到“[CLS] This is a short sequence. [SEP]”属于第一分句,剩下的属于第二分句。
https://blog.csdn.net/yosemite1998/article/details/122306758 Pytorch Transformer Tokenizer常见输入输出实战详解
202311221847