Рекомендация. Яндекс AI Studio проходит квалификацию как failover-резерв для DeepSeek:
модель deepseek-v4-flash — это тот же DeepSeek V4 Flash, что и наш боевой
deepseek-chat, размещённый в РФ-контуре. Карта замены: chat-плечо →
deepseek-v4-flash + reasoning_effort:"none";
reasoner-плечо → он же с включённым reasoning (при наших промптах ≤ 17 тыс. знаков — уверенно).
Как основную замену не рекомендую: ×26 по деньгам при том же качестве.
Yandex AI Studio (aistudio.yandex.ru) — единая платформа: свои модели (YandexGPT, Alice AI) и хостинг открытых (DeepSeek, Qwen, gpt-oss) в одном OpenAI-совместимом API. Ключевое для нас: у Яндекса официально хостится DeepSeek V4 Flash с контекстом 1 млн токенов.
| Модель | URI (базовый инстанс) | Контекст | Вход, ₽/1k | Выход, ₽/1k | Комментарий |
|---|---|---|---|---|---|
| DeepSeek V4 Flash | deepseek-v4-flash | 1M | 0,30 | 0,50 | = наш боевой deepseek-chat; кэш-вход 0,075 ₽ |
| YandexGPT Pro 5.1 | yandexgpt-5.1 | 32k | 0,80 | 0,80 | быстрая, дисциплинированная |
| YandexGPT Pro 5 | yandexgpt-5-pro | 32k | 1,20 | 1,20 | дороже 5.1 без видимых преимуществ |
| YandexGPT Lite 5 | yandexgpt-5-lite | 32k | 0,20 | 0,20 | слабая: валит контракт и семантику |
| Alice AI LLM | aliceai-llm | 128k | 0,50 | 1,20 | json-режим нестабилен (битый JSON) |
| Alice AI LLM Flash | aliceai-llm-flash | 64k | 0,10 | 0,20 | самая дешёвая; та же болезнь json |
| Qwen3 235B | qwen3-235b-a22b-fp8 | 256k | 0,50 | 0,50 | сильная синтетика, шумный счёт |
| Qwen3.6 35B | qwen3.6-35b-a3b | 256k | 0,20 | 0,30 | лучшее качество/цена среди «не-DeepSeek» |
| gpt-oss-120b | gpt-oss-120b | 128k | 0,30 | 0,30 | reasoning не отключается; тонет в длинном контексте |
| gpt-oss-20b | gpt-oss-20b | 128k | 0,10 | 0,10 | то же, дешевле |
Цены — синхронный режим, с НДС, прайс от 03.07.2026. Полный URI: gpt://<folder_id>/<модель>/latest. Async-режим в прайсе — только для моделей Яндекса (≈ −50%), открытые модели не заявлены. Для сравнения эталон: DeepSeek API $0,14/$0,28 за 1 млн токенов ≈ 0,011/0,022 ₽ за 1k (с 15.07.2026 в пиковые часы ×2).
Всё, что использует наш llm.py и site_parser._call_deepseek, проверено вызов-в-вызов.
| Что нужно нашему коду | Эталон DeepSeek | Яндекс AI Studio | Статус |
|---|---|---|---|
| Endpoint chat completions | api.deepseek.com/chat/completions | llm.api.cloud.yandex.net/v1/chat/completions | меняется одной константой |
| Авторизация Bearer <key> | да | да (+ вариант Api-Key) | совместимо |
| Имя модели | deepseek-chat | gpt://<folder>/deepseek-v4-flash/latest | строка конфига |
| response_format: json_object | да | да — приняли все 10 моделей | совместимо |
| temperature, max_tokens | да | да | совместимо |
| Формат ответа: choices / message.content / usage | да | идентичный OpenAI-формат | совместимо |
| Аналог reasoner-плеча (R1) | deepseek-reasoner | V4 Flash думает по умолчанию: поле reasoning_content отдельно от content | см. нюанс |
| Управление размышлениями | выбором модели | reasoning_effort: none / low / medium / high — «none» полностью выключает (проверено: 6 токенов вместо 60) | даже гибче |
deepseek-v4-flash у Яндекса рассуждает (на classify-промпте — 60 с и 9,6 тыс. знаков размышлений, платных). Для замены chat-плеча обязательно слать reasoning_effort:"none" — тогда поведение и латентность совпадают с боевым deepseek-chat. Наш парсер читает только content, так что reasoning_content ничего не ломает.Пять настоящих промптов, собранных боевым кодом (classify двух живых сайтов клиентов, decide_strategy, креативы для e-com и услуг), прогнаны через оба API в один момент времени. Ответы судились вслепую (судья не знал, где чей ответ) по двум линзам: «контракт» (буква промпта) и «директолог» (пригодность к запуску). 12 вердиктов.
| Пара | Победитель | Счёт по линзам | Суть различия |
|---|---|---|---|
| classify · лендинг (lampatron.ru) | Эталон | 6:4 · 6:3 | Яндекс выдумал 7 URL категорий (в бою — 404); эталон вместо этого 7 раз задублировал реальный URL. Оба дефекта стохастические: по 1 разу из 3 повторов. |
| classify · магазин (best-magazin.com) | Эталон | 9:8 · 8,6:8 | Оба чистые, ноль галлюцинаций; эталон чуть консистентнее по полям commerce_type / avg_check_source. |
| decide_strategy · reasoner-плечо | Ничья | 8,5:8 Я · 8:7 Э | Яндекс аккуратнее по букве промпта, эталон грамотнее по стратегии обучения кампаний. |
| decide_strategy · chat-плечо | Эталон | 9:8,5 · 8:7 | Оба валидны; у Яндекса мелкий промах («расширить гео на МО», когда МО уже в гео). |
| Креативы · e-commerce | Яндекс | 9:4 · 8,5:4,5 | Эталон превысил лимит 81 символ во всех 3 текстах (84/96/89) — Директ такие отклонит; Яндекс уложился (76–78) с той же конкретикой. |
| Креативы · услуги | Яндекс | 9:6,5 · 8,5:6,5 | Эталон нарушил запрет «!» («Закажите!»); Яндекс чисто по всем лимитам и запретам. |
Те же реальные промпты — по всей линейке. Проверка машинная: валидность JSON, ключи схемы, enum-поля, лимиты символов, галлюцинации URL.
| Модель | classify (13,4k знаков) | decide_strategy | креативы |
|---|---|---|---|
| DeepSeek V4 Flash | чисто 60,1 с* | чисто 22,2 с* | чисто 32,3 с* |
| YandexGPT Pro 5.1 | чисто 3,8 с | чисто 2,8 с | texts пуст 1,8 с |
| YandexGPT Pro 5 | чисто 12,3 с | чисто 6,5 с | чисто 4,1 с |
| YandexGPT Lite 5 | 2 дубля URL 7,8 с | чисто 4,3 с | 1 из 7 заголовков 1,1 с |
| Alice AI LLM | 4 дубля URL 6,2 с | чисто 4,7 с | пустой ответ 0,6 с |
| Alice AI LLM Flash | чисто 5,1 с | чисто 2,7 с | чисто 2,1 с |
| Qwen3 235B | чисто 24,0 с | чисто 21,0 с | чисто 9,4 с |
| Qwen3.6 35B | 4 дубля URL 5,3 с | чисто 4,2 с | чисто 2,1 с |
| gpt-oss-120b | чисто 17,4 с | чисто 8,9 с | чисто 22,6 с |
| gpt-oss-20b | чисто 19,4 с | чисто 12,1 с | 2 заголовка >56 16,2 с |
* — с включённым по умолчанию reasoning; с reasoning_effort:"none" classify занимает ~13 с (как у эталона 8–9 с).
Секунд на ответ, один замер. Синие бары — модели без размышлений; помечено ★ — reasoning включён по умолчанию и тратит время+токены.
Пять авторских тестов с машинным скорингом, каждый бьёт в реальную болячку пайплайна: Т1 — строгий JSON-контракт с ловушками (null против «по запросу»), Т2 — лимиты символов 56/81, Т3 — извлечение фактов из шумного текста с ловушкой-партнёром, Т4 — числовая честность (посчитай CPL/CR, не выдумай LTV), Т5 — кластеризация 24 ключей (коммерческие/инфо/конкуренты/мусор). Два независимых прогона.
| Модель | Т1 контракт | Т2 лимиты | Т3 извлечение | Т4 числа | Т5 семантика | Σ |
|---|
В ячейках — счёт второго прогона (0–1); если первый прогон отличался — он в скобках. Т5 — доля верно разложенных ключей из 24 (после исправления одной ошибки в моём же эталоне: «кондиционеры хабаровск купить» для московского бизнеса — мусор, обе DeepSeek-модели разложили это правильнее меня).
Каталог магазина света с 9 фактами, рассеянными по позициям 10–90% текста, на пяти длинах: 6k → 300k знаков (2,8k → 120k токенов). Две задачи разной когнитивной цены: достать факты (retrieval) и агрегировать по всему тексту (посчитать все торшеры, найти самый дорогой товар бренда).
Все модели (включая 20-миллиардную) достают 9/9 рассеянных фактов на всех длинах вплоть до 300 тыс. знаков — recall 1.0 по всей матрице (единственный сбой: Alice AI потеряла 1 факт на самой короткой длине, что говорит о шуме, а не о длине). Наши промпты — до 17 тыс. знаков: запас по длине ×17.
«Сколько торшеров в каталоге»: count модели ÷ истина, %. Выше 100 — пересчёт, ниже — недосчёт. Один замер на точку — оцениваем тренд, не отдельные значения. Разрывы линии — модель не донесла ответ.
| Модель | 6k | 24k | 72k | 160k | 300k |
|---|---|---|---|---|---|
| Эталон deepseek-chat | 3/3 | 10/11 | 20/33 | 44/83 | 30/140 |
| Я-DeepSeek (reasoning выкл.) | 3/3 | 9/11 | 20/33 | 40/83 | 50/140 |
| Я-DeepSeek (reasoning вкл.) | 3/3 | 11/11 | 32/33 | нет ответа | нет ответа |
| Qwen3 235B | 4/3 | 20/11 | 40/33 | 128/83 | 84/140 |
| Qwen3.6 35B | 3/3 | 14/11 | 48/33 | 58/83 | 103/140 |
| Alice AI LLM | 3/3 | нет ответа | 44/33 | 246/83 | 147/140 |
| YandexGPT Pro 5.1 | 3/3 | нет ответа | 34/33 | — | — |
| gpt-oss-120b / 20b | 3/3 | 24k и дальше: ответа нет — размышления съедают бюджет вывода (130–190 с на попытку) | |||
«—» — длина не влезает в контекст модели (32k токенов у YandexGPT). Вторая агрегационная задача («самый дорогой Maytoni из 170») на 160k+ не решается ни одной моделью, включая эталон.
Промпт 13,4 тыс. знаков ≈ 3,5–4,8 тыс. токенов входа. Для V4 Flash взят режим failover (reasoning выкл., выход ~0,8k токенов).
111 оплаченных вызовов: 12 (пары эталон/Яндекс на реальных промптах, собранных боевым кодом пайплайна с живых сайтов) + 30 (матрица 10 моделей × 3 промпта) + 110 синтетики в двух прогонах (55×2) + 46 деградация-retrieval + 46 деградация-агрегация + повторы стабильности (3+3). Судейство пар — вслепую, 12 вердиктов (6 пар × линзы «контракт»/«директолог»), порядок A/B рандомизирован по парам. Машинные проверки: схема/enum/лимиты/URL-граундинг/дедуп — кодом, не мнением. Первичные данные всех прогонов сохранены в исследовательском архиве проекта. Один замер на точку в деградации — выводы по трендам, отдельные клетки не считать точными.
© 2026 «Купи Слова» · kupislova.ru — сертифицированное агентство Яндекс.Директа. Исследование выполнено для платформы автоматической рекламы КДирект (kdirect.ru) · 3 июля 2026. Методика и прикладной ИИ-анализ: Claude (Anthropic). При использовании материалов ссылка на источник обязательна.