Saiga — это семейство русскоязычных языковых моделей, созданных командой IlyaGPT (Илья Гусев и соавторы) на основе открытых архитектур LLaMA и Mistral. Это лучшие открытые русскоязычные модели на сегодняшний день, и именно их я использую в большинстве локальных деплойментов.
История создания
Проект Saiga стартовал в 2023 году как ответ на острую нехватку качественных открытых русскоязычных языковых моделей. На тот момент существующие модели либо были закрытыми (GigaChat), либо плохо знали русский язык (зарубежные open-source).
Название «Сайга» — русская антилопа, животное быстрое и адаптированное к суровым условиям. Метафора точная: модель быстрая, эффективная и заточена под российский контекст.
Хронология версий
- Saiga-7B (2023) — первая версия на базе LLaMA-2, положила начало проекту
- Saiga-Mistral (2023) — переход на Mistral-7B, значительный рост качества
- Saiga 2 (2024) — улучшенный датасет, лучшее следование инструкциям
- Saiga-LLaMA-3 (2024) — на базе LLaMA-3, топовое качество среди open-source RU
- Saiga-70B (2024) — большая модель для сложных задач
Семейство моделей
Техническая архитектура
Базовая архитектура
Saiga использует трансформерную архитектуру с авторегрессионным декодированием. В зависимости от версии базой служит LLaMA-2, LLaMA-3 или Mistral, с добавлением:
- RoPE (Rotary Position Embedding) — позиционное кодирование, позволяющее работать с длинным контекстом
- Grouped Query Attention (GQA) — эффективное внимание, снижающее потребление памяти
- SwiGLU активация — в слоях Feed-Forward
- RMSNorm — нормализация, работающая быстрее LayerNorm
Метод обучения: LoRA + RLHF
Дообучение базовой модели проводится в несколько этапов:
- SFT (Supervised Fine-Tuning) — обучение на русскоязычных диалогах с использованием LoRA
- RLHF / DPO (Direct Preference Optimization) — выравнивание по предпочтениям людей
- Оценка на бенчмарках — MERA, ruMMLU и другие русскоязычные бенчмарки
Датасет обучения
Датасет для Saiga формировался из нескольких источников:
- Переведённые и адаптированные диалоги (ShareGPT-ru)
- Оригинальные русскоязычные диалоги, размеченные вручную
- Синтетические данные, сгенерированные GPT-4 и Claude
- Специализированные домены: юридический, медицинский, технический
Развёртывание с Ollama
Производительность
На типичном сервере с NVIDIA RTX 3090 (24GB VRAM):
- Saiga-7B: ~50–80 токенов/сек
- Saiga-13B: ~25–40 токенов/сек
- Saiga-7B на CPU: ~5–15 токенов/сек (llama.cpp)
Когда использовать Saiga
- Работа с конфиденциальными данными (нельзя отправлять в облако)
- Высокие объёмы запросов (нет платы за токены)
- Специализированные задачи с дообучением на своих данных
- Требования к локализации и пониманию российского контекста
Я развертываю Saiga для клиентов «под ключ»: от подбора железа до настройки API и мониторинга. Подробнее о услуге →