Токенизатор — это программа, которая разбивает входной текст на токены (минимальные единицы), понятные языковой модели. Модель не работает с буквами или словами напрямую — она работает с токенами.
Токенизатор использует алгоритм (чаще всего BPE — Byte Pair Encoding), который разбивает текст на частотные фрагменты. Частые слова становятся одним токеном, редкие — разбиваются на части.
Примеры разбиения (GPT-4):
Используйте онлайн-токенизаторы: OpenAI Tokenizer или tiktokenizer.vercel.app.