Saiga: полная история и технические характеристики русскоязычной LLM

LLM

Saiga — это семейство русскоязычных языковых моделей, созданных командой IlyaGPT (Илья Гусев и соавторы) на основе открытых архитектур LLaMA и Mistral. Это лучшие открытые русскоязычные модели на сегодняшний день, и именно их я использую в большинстве локальных деплойментов.

История создания

Проект Saiga стартовал в 2023 году как ответ на острую нехватку качественных открытых русскоязычных языковых моделей. На тот момент существующие модели либо были закрытыми (GigaChat), либо плохо знали русский язык (зарубежные open-source).

Название «Сайга» — русская антилопа, животное быстрое и адаптированное к суровым условиям. Метафора точная: модель быстрая, эффективная и заточена под российский контекст.

Хронология версий

Saiga-7B (2023) — первая версия на базе LLaMA-2, положила начало проекту
Saiga-Mistral (2023) — переход на Mistral-7B, значительный рост качества
Saiga 2 (2024) — улучшенный датасет, лучшее следование инструкциям
Saiga-LLaMA-3 (2024) — на базе LLaMA-3, топовое качество среди open-source RU
Saiga-70B (2024) — большая модель для сложных задач

Семейство моделей

Базовая. CPU-дружелюбная, ~8GB RAM. Для простых задач и тестирования.

13B

Оптимальный баланс. ~16GB RAM. Рекомендую для большинства продакшн-кейсов.

70B

Максимальное качество. ~48GB VRAM. Для критичных задач где важна точность.

Техническая архитектура

Базовая архитектура

Saiga использует трансформерную архитектуру с авторегрессионным декодированием. В зависимости от версии базой служит LLaMA-2, LLaMA-3 или Mistral, с добавлением:

RoPE (Rotary Position Embedding) — позиционное кодирование, позволяющее работать с длинным контекстом
Grouped Query Attention (GQA) — эффективное внимание, снижающее потребление памяти
SwiGLU активация — в слоях Feed-Forward
RMSNorm — нормализация, работающая быстрее LayerNorm

Метод обучения: LoRA + RLHF

Дообучение базовой модели проводится в несколько этапов:

SFT (Supervised Fine-Tuning) — обучение на русскоязычных диалогах с использованием LoRA
RLHF / DPO (Direct Preference Optimization) — выравнивание по предпочтениям людей
Оценка на бенчмарках — MERA, ruMMLU и другие русскоязычные бенчмарки

Датасет обучения

Датасет для Saiga формировался из нескольких источников:

Переведённые и адаптированные диалоги (ShareGPT-ru)
Оригинальные русскоязычные диалоги, размеченные вручную
Синтетические данные, сгенерированные GPT-4 и Claude
Специализированные домены: юридический, медицинский, технический

Развёртывание с Ollama

# Установка Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Запуск Saiga-7B
ollama run saiga:7b

# Или через API
curl http://localhost:11434/api/generate \
  -d '{"model": "saiga:7b", "prompt": "Привет! Расскажи о себе."}'

Производительность

На типичном сервере с NVIDIA RTX 3090 (24GB VRAM):

Saiga-7B: ~50–80 токенов/сек
Saiga-13B: ~25–40 токенов/сек
Saiga-7B на CPU: ~5–15 токенов/сек (llama.cpp)

Когда использовать Saiga

Работа с конфиденциальными данными (нельзя отправлять в облако)
Высокие объёмы запросов (нет платы за токены)
Специализированные задачи с дообучением на своих данных
Требования к локализации и пониманию российского контекста

Я развертываю Saiga для клиентов «под ключ»: от подбора железа до настройки API и мониторинга. Подробнее о услуге →