Синтетические данные — это данные, созданные искусственно (чаще всего с помощью AI), а не собранные из реального мира. Они используются для обучения, тестирования и улучшения AI-моделей, когда реальных данных недостаточно или их сложно получить.
| Задача | Реальные данные | Синтетические данные |
|---|---|---|
| Обучение чат-бота | Сбор тысяч реальных диалогов | Генерация диалогов моделью |
| Тестирование модели | Ручная разметка ответов | Автоматическая генерация тестов |
| Обучение на редких случаях | Мало примеров в реальности | Генерация нужного количества примеров |
| Конфиденциальные данные | Нельзя использовать настоящие данные | Генерация похожих, но вымышленных данных |
Преимущества:
Риски: