Токенизатор (Tokenizer)

Программа, которая разбивает текст на токены — минимальные единицы, с которыми работает языковая модель.

Токенизатор — это программа, которая разбивает входной текст на токены (минимальные единицы), понятные языковой модели. Модель не работает с буквами или словами напрямую — она работает с токенами.

Как это работает

Токенизатор использует алгоритм (чаще всего BPE — Byte Pair Encoding), который разбивает текст на частотные фрагменты. Частые слова становятся одним токеном, редкие — разбиваются на части.

Примеры разбиения (GPT-4):

  • «Привет» → 1 токен
  • «промптинг» → 2 токена: «промпт» + «инг»
  • «Трансформер» → 2-3 токена

Почему это важно

  • Стоимость: API моделей тарифицируется за токены, а не за символы
  • Лимиты: контекстное окно измеряется в токенах
  • Русский язык: требует примерно в 2-3 раза больше токенов, чем английский для того же текста

Как проверить

Используйте онлайн-токенизаторы: OpenAI Tokenizer или tiktokenizer.vercel.app.

Связанные термины

  • Токены — результат работы токенизатора
  • BPE (Byte Pair Encoding) — самый популярный алгоритм токенизации
  • Контекстное окно — максимальное количество токенов в запросе + ответе