КДирект.kdirect.ru — платформа автоматической рекламы в Яндекс.Директе исследование агентства «Купи Слова»
Исследование · LLM-инфраструктура

Квалификация LLM-ресурсов Яндекс AI Studio

3 июля 2026 · грант 10 000 ₽ (израсходовано ≈ 1 045 ₽) · эталон — прямой DeepSeek API (боевой провайдер пайплайна)
111 боевых вызовов в 4 прогонах · 10 моделей Яндекса · слепое судейство 12 вердиктов
01Вердикт и рекомендация
02Что это за ресурс: модели, цены, квоты
03Совместимость API (drop-in чек-лист)
04Тест 1 — реальные промпты пайплайна против эталона
05Тест 2 — все 10 моделей на реальных промптах
06Тест 3 — синтетика: 5 тестов × 11 моделей × 2 прогона
07Тест 4 — когнитивная деградация от длины промпта
08Экономика, риски, что дальше

01Вердикт и рекомендация

Совместимость
Drop-in
OpenAI-совместимый endpoint, json_object, Bearer-ключ. Все 111 вызовов — без единой ошибки API. Правки llm.py — 3 строки конфига.
Качество DeepSeek V4 Flash
Паритет
Слепые судьи: 7:5 в пользу эталона (разница — в профиле ошибок, не в классе). Синтетика: 5/5 — лучше эталона (4.63/5).
Цена против эталона
× 26
Classify-вызов: 0,07 ₽ у эталона против ≈ 1,84 ₽ у Яндекса (reasoning выкл.). Как основной провайдер — нерентабельно, как резерв — копейки.

Рекомендация. Яндекс AI Studio проходит квалификацию как failover-резерв для DeepSeek: модель deepseek-v4-flash — это тот же DeepSeek V4 Flash, что и наш боевой deepseek-chat, размещённый в РФ-контуре. Карта замены: chat-плечо → deepseek-v4-flash + reasoning_effort:"none"; reasoner-плечо → он же с включённым reasoning (при наших промптах ≤ 17 тыс. знаков — уверенно). Как основную замену не рекомендую: ×26 по деньгам при том же качестве.

02Что это за ресурс: модели, цены, квоты

Yandex AI Studio (aistudio.yandex.ru) — единая платформа: свои модели (YandexGPT, Alice AI) и хостинг открытых (DeepSeek, Qwen, gpt-oss) в одном OpenAI-совместимом API. Ключевое для нас: у Яндекса официально хостится DeepSeek V4 Flash с контекстом 1 млн токенов.

МодельURI (базовый инстанс)КонтекстВход, ₽/1kВыход, ₽/1kКомментарий
DeepSeek V4 Flashdeepseek-v4-flash1M0,300,50= наш боевой deepseek-chat; кэш-вход 0,075 ₽
YandexGPT Pro 5.1yandexgpt-5.132k0,800,80быстрая, дисциплинированная
YandexGPT Pro 5yandexgpt-5-pro32k1,201,20дороже 5.1 без видимых преимуществ
YandexGPT Lite 5yandexgpt-5-lite32k0,200,20слабая: валит контракт и семантику
Alice AI LLMaliceai-llm128k0,501,20json-режим нестабилен (битый JSON)
Alice AI LLM Flashaliceai-llm-flash64k0,100,20самая дешёвая; та же болезнь json
Qwen3 235Bqwen3-235b-a22b-fp8256k0,500,50сильная синтетика, шумный счёт
Qwen3.6 35Bqwen3.6-35b-a3b256k0,200,30лучшее качество/цена среди «не-DeepSeek»
gpt-oss-120bgpt-oss-120b128k0,300,30reasoning не отключается; тонет в длинном контексте
gpt-oss-20bgpt-oss-20b128k0,100,10то же, дешевле

Цены — синхронный режим, с НДС, прайс от 03.07.2026. Полный URI: gpt://<folder_id>/<модель>/latest. Async-режим в прайсе — только для моделей Яндекса (≈ −50%), открытые модели не заявлены. Для сравнения эталон: DeepSeek API $0,14/$0,28 за 1 млн токенов ≈ 0,011/0,022 ₽ за 1k (с 15.07.2026 в пиковые часы ×2).

Квоты и организационные факты

03Совместимость API — drop-in чек-лист

Всё, что использует наш llm.py и site_parser._call_deepseek, проверено вызов-в-вызов.

Что нужно нашему кодуЭталон DeepSeekЯндекс AI StudioСтатус
Endpoint chat completionsapi.deepseek.com/chat/completionsllm.api.cloud.yandex.net/v1/chat/completionsменяется одной константой
Авторизация Bearer <key>дада (+ вариант Api-Key)совместимо
Имя моделиdeepseek-chatgpt://<folder>/deepseek-v4-flash/latestстрока конфига
response_format: json_objectдада — приняли все 10 моделейсовместимо
temperature, max_tokensдадасовместимо
Формат ответа: choices / message.content / usageдаидентичный OpenAI-форматсовместимо
Аналог reasoner-плеча (R1)deepseek-reasonerV4 Flash думает по умолчанию: поле reasoning_content отдельно от contentсм. нюанс
Управление размышлениямивыбором моделиreasoning_effort: none / low / medium / high — «none» полностью выключает (проверено: 6 токенов вместо 60)даже гибче
Единственный нюанс: по умолчанию deepseek-v4-flash у Яндекса рассуждает (на classify-промпте — 60 с и 9,6 тыс. знаков размышлений, платных). Для замены chat-плеча обязательно слать reasoning_effort:"none" — тогда поведение и латентность совпадают с боевым deepseek-chat. Наш парсер читает только content, так что reasoning_content ничего не ломает.

04Тест 1 — реальные промпты пайплайна против эталона

Пять настоящих промптов, собранных боевым кодом (classify двух живых сайтов клиентов, decide_strategy, креативы для e-com и услуг), прогнаны через оба API в один момент времени. Ответы судились вслепую (судья не знал, где чей ответ) по двум линзам: «контракт» (буква промпта) и «директолог» (пригодность к запуску). 12 вердиктов.

ПараПобедительСчёт по линзамСуть различия
classify · лендинг (lampatron.ru)Эталон6:4 · 6:3Яндекс выдумал 7 URL категорий (в бою — 404); эталон вместо этого 7 раз задублировал реальный URL. Оба дефекта стохастические: по 1 разу из 3 повторов.
classify · магазин (best-magazin.com)Эталон9:8 · 8,6:8Оба чистые, ноль галлюцинаций; эталон чуть консистентнее по полям commerce_type / avg_check_source.
decide_strategy · reasoner-плечоНичья8,5:8 Я · 8:7 ЭЯндекс аккуратнее по букве промпта, эталон грамотнее по стратегии обучения кампаний.
decide_strategy · chat-плечоЭталон9:8,5 · 8:7Оба валидны; у Яндекса мелкий промах («расширить гео на МО», когда МО уже в гео).
Креативы · e-commerceЯндекс9:4 · 8,5:4,5Эталон превысил лимит 81 символ во всех 3 текстах (84/96/89) — Директ такие отклонит; Яндекс уложился (76–78) с той же конкретикой.
Креативы · услугиЯндекс9:6,5 · 8,5:6,5Эталон нарушил запрет «!» («Закажите!»); Яндекс чисто по всем лимитам и запретам.
Итог 7:5 — это паритет с разными профилями ошибок. Яндекс-DeepSeek дисциплинированнее в лимитах и запретах креативов (там он разгромно лучше), эталон надёжнее держится за источник в извлечении URL. Для нашего пайплайна оба режима сбоя лечатся одной дешёвой пост-проверкой: валидировать URL из classify по списку ссылок промпта (рекомендация №1 этого отчёта — полезно даже без всякого Яндекса).

05Тест 2 — все 10 моделей Яндекса на реальных промптах

Те же реальные промпты — по всей линейке. Проверка машинная: валидность JSON, ключи схемы, enum-поля, лимиты символов, галлюцинации URL.

Модельclassify (13,4k знаков)decide_strategyкреативы
DeepSeek V4 Flashчисто 60,1 с*чисто 22,2 с*чисто 32,3 с*
YandexGPT Pro 5.1чисто 3,8 счисто 2,8 сtexts пуст 1,8 с
YandexGPT Pro 5чисто 12,3 счисто 6,5 счисто 4,1 с
YandexGPT Lite 52 дубля URL 7,8 счисто 4,3 с1 из 7 заголовков 1,1 с
Alice AI LLM4 дубля URL 6,2 счисто 4,7 спустой ответ 0,6 с
Alice AI LLM Flashчисто 5,1 счисто 2,7 счисто 2,1 с
Qwen3 235Bчисто 24,0 счисто 21,0 счисто 9,4 с
Qwen3.6 35B4 дубля URL 5,3 счисто 4,2 счисто 2,1 с
gpt-oss-120bчисто 17,4 счисто 8,9 счисто 22,6 с
gpt-oss-20bчисто 19,4 счисто 12,1 с2 заголовка >56 16,2 с

* — с включённым по умолчанию reasoning; с reasoning_effort:"none" classify занимает ~13 с (как у эталона 8–9 с).

Латентность classify-вызова (реальный промпт 13,4 тыс. знаков)

Секунд на ответ, один замер. Синие бары — модели без размышлений; помечено ★ — reasoning включён по умолчанию и тратит время+токены.

06Тест 3 — синтетика: контракт, лимиты, извлечение, честность, семантика

Пять авторских тестов с машинным скорингом, каждый бьёт в реальную болячку пайплайна: Т1 — строгий JSON-контракт с ловушками (null против «по запросу»), Т2 — лимиты символов 56/81, Т3 — извлечение фактов из шумного текста с ловушкой-партнёром, Т4 — числовая честность (посчитай CPL/CR, не выдумай LTV), Т5 — кластеризация 24 ключей (коммерческие/инфо/конкуренты/мусор). Два независимых прогона.

МодельТ1 контрактТ2 лимитыТ3 извлечениеТ4 числаТ5 семантикаΣ

В ячейках — счёт второго прогона (0–1); если первый прогон отличался — он в скобках. Т5 — доля верно разложенных ключей из 24 (после исправления одной ошибки в моём же эталоне: «кондиционеры хабаровск купить» для московского бизнеса — мусор, обе DeepSeek-модели разложили это правильнее меня).

Главное: Яндекс-DeepSeek V4 Flash — единственная модель с идеальным счётом в обоих прогонах (25/25), включая тест лимитов, который эталонный deepseek-chat стабильно заваливает (0,5 и 0,625). Семантику (Т5) топ-модели решают одинаково: 24/24 у обеих DeepSeek, YandexGPT 5.1/Pro, Qwen3 235B, gpt-oss-120b.
Антирекомендация: у Alice AI (обе) и YandexGPT Lite 5 json-режим ломается на ровном месте — на части промптов конструкция response_format: json_object выдаёт битый JSON вида {": … (плавающе: тот же вызов может пройти). gpt-oss-120b дважды завалил Т2: ответ уходит в размышления, content пустой. Эти модели в пайплайн не брать.

07Тест 4 — когнитивная деградация от роста промпта

Каталог магазина света с 9 фактами, рассеянными по позициям 10–90% текста, на пяти длинах: 6k → 300k знаков (2,8k → 120k токенов). Две задачи разной когнитивной цены: достать факты (retrieval) и агрегировать по всему тексту (посчитать все торшеры, найти самый дорогой товар бренда).

Retrieval: деградации нет ни у кого

Все модели (включая 20-миллиардную) достают 9/9 рассеянных фактов на всех длинах вплоть до 300 тыс. знаков — recall 1.0 по всей матрице (единственный сбой: Alice AI потеряла 1 факт на самой короткой длине, что говорит о шуме, а не о длине). Наши промпты — до 17 тыс. знаков: запас по длине ×17.

Агрегация: деградируют все, включая эталон

Точность подсчёта позиций по каталогу (100% = точный счёт)

«Сколько торшеров в каталоге»: count модели ÷ истина, %. Выше 100 — пересчёт, ниже — недосчёт. Один замер на точку — оцениваем тренд, не отдельные значения. Разрывы линии — модель не донесла ответ.

Модель6k24k72k160k300k
Эталон deepseek-chat3/310/1120/3344/8330/140
Я-DeepSeek (reasoning выкл.)3/39/1120/3340/8350/140
Я-DeepSeek (reasoning вкл.)3/311/1132/33нет ответанет ответа
Qwen3 235B4/320/1140/33128/8384/140
Qwen3.6 35B3/314/1148/3358/83103/140
Alice AI LLM3/3нет ответа44/33246/83147/140
YandexGPT Pro 5.13/3нет ответа34/33
gpt-oss-120b / 20b3/324k и дальше: ответа нет — размышления съедают бюджет вывода (130–190 с на попытку)

«—» — длина не влезает в контекст модели (32k токенов у YandexGPT). Вторая агрегационная задача («самый дорогой Maytoni из 170») на 160k+ не решается ни одной моделью, включая эталон.

Вывод по деградации. Порог «умных» операций над длинным контекстом — ~70–100 тыс. знаков у всех, дальше счёт врёт на 30–80% или ответ не приходит вовсе. Включённый reasoning отодвигает порог (V4 Flash с ним — единственный точный счёт до 72k), но за пределами сам становится точкой отказа. Практический регламент для kdirect: до ~70k знаков контексту можно доверять агрегацию; больше — только retrieval, агрегацию считать кодом. Характерно: обе DeepSeek-модели недосчитывают, Qwen — пересчитывает; направление ошибки — свойство семейства.

08Экономика, риски, что дальше

Стоимость одного classify-вызова, ₽ (реальные токены этого теста)

Промпт 13,4 тыс. знаков ≈ 3,5–4,8 тыс. токенов входа. Для V4 Flash взят режим failover (reasoning выкл., выход ~0,8k токенов).

Проектный план внедрения failover (справочно)

Методика (для воспроизводимости)

111 оплаченных вызовов: 12 (пары эталон/Яндекс на реальных промптах, собранных боевым кодом пайплайна с живых сайтов) + 30 (матрица 10 моделей × 3 промпта) + 110 синтетики в двух прогонах (55×2) + 46 деградация-retrieval + 46 деградация-агрегация + повторы стабильности (3+3). Судейство пар — вслепую, 12 вердиктов (6 пар × линзы «контракт»/«директолог»), порядок A/B рандомизирован по парам. Машинные проверки: схема/enum/лимиты/URL-граундинг/дедуп — кодом, не мнением. Первичные данные всех прогонов сохранены в исследовательском архиве проекта. Один замер на точку в деградации — выводы по трендам, отдельные клетки не считать точными.

© 2026 «Купи Слова» · kupislova.ru — сертифицированное агентство Яндекс.Директа. Исследование выполнено для платформы автоматической рекламы КДирект (kdirect.ru) · 3 июля 2026. Методика и прикладной ИИ-анализ: Claude (Anthropic). При использовании материалов ссылка на источник обязательна.