LLM

Saiga — это семейство русскоязычных языковых моделей, созданных командой IlyaGPT (Илья Гусев и соавторы) на основе открытых архитектур LLaMA и Mistral. Это лучшие открытые русскоязычные модели на сегодняшний день, и именно их я использую в большинстве локальных деплойментов.

История создания

Проект Saiga стартовал в 2023 году как ответ на острую нехватку качественных открытых русскоязычных языковых моделей. На тот момент существующие модели либо были закрытыми (GigaChat), либо плохо знали русский язык (зарубежные open-source).

Название «Сайга» — русская антилопа, животное быстрое и адаптированное к суровым условиям. Метафора точная: модель быстрая, эффективная и заточена под российский контекст.

Хронология версий

  • Saiga-7B (2023) — первая версия на базе LLaMA-2, положила начало проекту
  • Saiga-Mistral (2023) — переход на Mistral-7B, значительный рост качества
  • Saiga 2 (2024) — улучшенный датасет, лучшее следование инструкциям
  • Saiga-LLaMA-3 (2024) — на базе LLaMA-3, топовое качество среди open-source RU
  • Saiga-70B (2024) — большая модель для сложных задач

Семейство моделей

7B
Базовая. CPU-дружелюбная, ~8GB RAM. Для простых задач и тестирования.
13B
Оптимальный баланс. ~16GB RAM. Рекомендую для большинства продакшн-кейсов.
70B
Максимальное качество. ~48GB VRAM. Для критичных задач где важна точность.

Техническая архитектура

Базовая архитектура

Saiga использует трансформерную архитектуру с авторегрессионным декодированием. В зависимости от версии базой служит LLaMA-2, LLaMA-3 или Mistral, с добавлением:

  • RoPE (Rotary Position Embedding) — позиционное кодирование, позволяющее работать с длинным контекстом
  • Grouped Query Attention (GQA) — эффективное внимание, снижающее потребление памяти
  • SwiGLU активация — в слоях Feed-Forward
  • RMSNorm — нормализация, работающая быстрее LayerNorm

Метод обучения: LoRA + RLHF

Дообучение базовой модели проводится в несколько этапов:

  1. SFT (Supervised Fine-Tuning) — обучение на русскоязычных диалогах с использованием LoRA
  2. RLHF / DPO (Direct Preference Optimization) — выравнивание по предпочтениям людей
  3. Оценка на бенчмарках — MERA, ruMMLU и другие русскоязычные бенчмарки

Датасет обучения

Датасет для Saiga формировался из нескольких источников:

  • Переведённые и адаптированные диалоги (ShareGPT-ru)
  • Оригинальные русскоязычные диалоги, размеченные вручную
  • Синтетические данные, сгенерированные GPT-4 и Claude
  • Специализированные домены: юридический, медицинский, технический

Развёртывание с Ollama

# Установка Ollama curl -fsSL https://ollama.com/install.sh | sh # Запуск Saiga-7B ollama run saiga:7b # Или через API curl http://localhost:11434/api/generate \ -d '{"model": "saiga:7b", "prompt": "Привет! Расскажи о себе."}'

Производительность

На типичном сервере с NVIDIA RTX 3090 (24GB VRAM):

  • Saiga-7B: ~50–80 токенов/сек
  • Saiga-13B: ~25–40 токенов/сек
  • Saiga-7B на CPU: ~5–15 токенов/сек (llama.cpp)

Когда использовать Saiga

  • Работа с конфиденциальными данными (нельзя отправлять в облако)
  • Высокие объёмы запросов (нет платы за токены)
  • Специализированные задачи с дообучением на своих данных
  • Требования к локализации и пониманию российского контекста

Я развертываю Saiga для клиентов «под ключ»: от подбора железа до настройки API и мониторинга. Подробнее о услуге →

← All Articles Нормативные требования к использованию … →