КДирект.kdirect.ru — платформа автоматической рекламы в Яндекс.Директе исследование агентства «Купи Слова»

Исследование · LLM-инфраструктура

Квалификация LLM-ресурсов Яндекс AI Studio

3 июля 2026 · грант 10 000 ₽ (израсходовано ≈ 1 045 ₽) · эталон — прямой DeepSeek API (боевой провайдер пайплайна)
111 боевых вызовов в 4 прогонах · 10 моделей Яндекса · слепое судейство 12 вердиктов

01Вердикт и рекомендация

02Что это за ресурс: модели, цены, квоты

03Совместимость API (drop-in чек-лист)

04Тест 1 — реальные промпты пайплайна против эталона

05Тест 2 — все 10 моделей на реальных промптах

06Тест 3 — синтетика: 5 тестов × 11 моделей × 2 прогона

07Тест 4 — когнитивная деградация от длины промпта

08Экономика, риски, что дальше

01Вердикт и рекомендация

Совместимость

Drop-in

OpenAI-совместимый endpoint, json_object, Bearer-ключ. Все 111 вызовов — без единой ошибки API. Правки llm.py — 3 строки конфига.

Качество DeepSeek V4 Flash

Паритет

Слепые судьи: 7:5 в пользу эталона (разница — в профиле ошибок, не в классе). Синтетика: 5/5 — лучше эталона (4.63/5).

Цена против эталона

× 26

Classify-вызов: 0,07 ₽ у эталона против ≈ 1,84 ₽ у Яндекса (reasoning выкл.). Как основной провайдер — нерентабельно, как резерв — копейки.

Рекомендация. Яндекс AI Studio проходит квалификацию как failover-резерв для DeepSeek: модель deepseek-v4-flash — это тот же DeepSeek V4 Flash, что и наш боевой deepseek-chat, размещённый в РФ-контуре. Карта замены: chat-плечо → deepseek-v4-flash + reasoning_effort:"none"; reasoner-плечо → он же с включённым reasoning (при наших промптах ≤ 17 тыс. знаков — уверенно). Как основную замену не рекомендую: ×26 по деньгам при том же качестве.

02Что это за ресурс: модели, цены, квоты

Yandex AI Studio (aistudio.yandex.ru) — единая платформа: свои модели (YandexGPT, Alice AI) и хостинг открытых (DeepSeek, Qwen, gpt-oss) в одном OpenAI-совместимом API. Ключевое для нас: у Яндекса официально хостится DeepSeek V4 Flash с контекстом 1 млн токенов.

Модель	URI (базовый инстанс)	Контекст	Вход, ₽/1k	Выход, ₽/1k	Комментарий
DeepSeek V4 Flash	deepseek-v4-flash	1M	0,30	0,50	= наш боевой deepseek-chat; кэш-вход 0,075 ₽
YandexGPT Pro 5.1	yandexgpt-5.1	32k	0,80	0,80	быстрая, дисциплинированная
YandexGPT Pro 5	yandexgpt-5-pro	32k	1,20	1,20	дороже 5.1 без видимых преимуществ
YandexGPT Lite 5	yandexgpt-5-lite	32k	0,20	0,20	слабая: валит контракт и семантику
Alice AI LLM	aliceai-llm	128k	0,50	1,20	json-режим нестабилен (битый JSON)
Alice AI LLM Flash	aliceai-llm-flash	64k	0,10	0,20	самая дешёвая; та же болезнь json
Qwen3 235B	qwen3-235b-a22b-fp8	256k	0,50	0,50	сильная синтетика, шумный счёт
Qwen3.6 35B	qwen3.6-35b-a3b	256k	0,20	0,30	лучшее качество/цена среди «не-DeepSeek»
gpt-oss-120b	gpt-oss-120b	128k	0,30	0,30	reasoning не отключается; тонет в длинном контексте
gpt-oss-20b	gpt-oss-20b	128k	0,10	0,10	то же, дешевле

Цены — синхронный режим, с НДС, прайс от 03.07.2026. Полный URI: gpt://<folder_id>/<модель>/latest. Async-режим в прайсе — только для моделей Яндекса (≈ −50%), открытые модели не заявлены. Для сравнения эталон: DeepSeek API $0,14/$0,28 за 1 млн токенов ≈ 0,011/0,022 ₽ за 1k (с 15.07.2026 в пиковые часы ×2).

Квоты и организационные факты

10 одновременных синхронных генераций на облако (наш пайплайн параллелит keywords_for_intent — при failover надо держать ≤ 8). Асинхронный режим: 10 rps / 5 000 запросов в час. Квоты поднимаются тикетом в поддержку.
Жизненный цикл моделей: URI смертны. DeepSeek V3.2 отключён 28.06.2026 («переключена в пользу V4 Flash»), эндпойнт вернёт 400. Автопереключения нет — следить за рассылкой/changelog.
Логирование: запросы хранятся обезличенно, чувствительное маскируется; логирование можно отключить заголовком (для клиентских данных — стоит).
Доступ: API-ключ AI Studio, авторизация и Api-Key, и Bearer (проверено живьём). На модели действует SLA сервиса.
Дополнительно на платформе (не тестировалось): embeddings, structured output по JSON-схеме, function calling, batch-режим, дообучение, выделенные инстансы, Realtime/речь, YandexART.

03Совместимость API — drop-in чек-лист

Всё, что использует наш llm.py и site_parser._call_deepseek, проверено вызов-в-вызов.

Что нужно нашему коду	Эталон DeepSeek	Яндекс AI Studio	Статус
Endpoint chat completions	api.deepseek.com/chat/completions	llm.api.cloud.yandex.net/v1/chat/completions	меняется одной константой
Авторизация Bearer <key>	да	да (+ вариант Api-Key)	совместимо
Имя модели	deepseek-chat	gpt://<folder>/deepseek-v4-flash/latest	строка конфига
response_format: json_object	да	да — приняли все 10 моделей	совместимо
temperature, max_tokens	да	да	совместимо
Формат ответа: choices / message.content / usage	да	идентичный OpenAI-формат	совместимо
Аналог reasoner-плеча (R1)	deepseek-reasoner	V4 Flash думает по умолчанию: поле reasoning_content отдельно от content	см. нюанс
Управление размышлениями	выбором модели	reasoning_effort: none / low / medium / high — «none» полностью выключает (проверено: 6 токенов вместо 60)	даже гибче

Единственный нюанс: по умолчанию deepseek-v4-flash у Яндекса рассуждает (на classify-промпте — 60 с и 9,6 тыс. знаков размышлений, платных). Для замены chat-плеча обязательно слать reasoning_effort:"none" — тогда поведение и латентность совпадают с боевым deepseek-chat. Наш парсер читает только content, так что reasoning_content ничего не ломает.

04Тест 1 — реальные промпты пайплайна против эталона

Пять настоящих промптов, собранных боевым кодом (classify двух живых сайтов клиентов, decide_strategy, креативы для e-com и услуг), прогнаны через оба API в один момент времени. Ответы судились вслепую (судья не знал, где чей ответ) по двум линзам: «контракт» (буква промпта) и «директолог» (пригодность к запуску). 12 вердиктов.

Пара	Победитель	Счёт по линзам	Суть различия
classify · лендинг (lampatron.ru)	Эталон	6:4 · 6:3	Яндекс выдумал 7 URL категорий (в бою — 404); эталон вместо этого 7 раз задублировал реальный URL. Оба дефекта стохастические: по 1 разу из 3 повторов.
classify · магазин (best-magazin.com)	Эталон	9:8 · 8,6:8	Оба чистые, ноль галлюцинаций; эталон чуть консистентнее по полям commerce_type / avg_check_source.
decide_strategy · reasoner-плечо	Ничья	8,5:8 Я · 8:7 Э	Яндекс аккуратнее по букве промпта, эталон грамотнее по стратегии обучения кампаний.
decide_strategy · chat-плечо	Эталон	9:8,5 · 8:7	Оба валидны; у Яндекса мелкий промах («расширить гео на МО», когда МО уже в гео).
Креативы · e-commerce	Яндекс	9:4 · 8,5:4,5	Эталон превысил лимит 81 символ во всех 3 текстах (84/96/89) — Директ такие отклонит; Яндекс уложился (76–78) с той же конкретикой.
Креативы · услуги	Яндекс	9:6,5 · 8,5:6,5	Эталон нарушил запрет «!» («Закажите!»); Яндекс чисто по всем лимитам и запретам.

Итог 7:5 — это паритет с разными профилями ошибок. Яндекс-DeepSeek дисциплинированнее в лимитах и запретах креативов (там он разгромно лучше), эталон надёжнее держится за источник в извлечении URL. Для нашего пайплайна оба режима сбоя лечатся одной дешёвой пост-проверкой: валидировать URL из classify по списку ссылок промпта (рекомендация №1 этого отчёта — полезно даже без всякого Яндекса).

05Тест 2 — все 10 моделей Яндекса на реальных промптах

Те же реальные промпты — по всей линейке. Проверка машинная: валидность JSON, ключи схемы, enum-поля, лимиты символов, галлюцинации URL.

Модель	classify (13,4k знаков)	decide_strategy	креативы
DeepSeek V4 Flash	чисто 60,1 с*	чисто 22,2 с*	чисто 32,3 с*
YandexGPT Pro 5.1	чисто 3,8 с	чисто 2,8 с	texts пуст 1,8 с
YandexGPT Pro 5	чисто 12,3 с	чисто 6,5 с	чисто 4,1 с
YandexGPT Lite 5	2 дубля URL 7,8 с	чисто 4,3 с	1 из 7 заголовков 1,1 с
Alice AI LLM	4 дубля URL 6,2 с	чисто 4,7 с	пустой ответ 0,6 с
Alice AI LLM Flash	чисто 5,1 с	чисто 2,7 с	чисто 2,1 с
Qwen3 235B	чисто 24,0 с	чисто 21,0 с	чисто 9,4 с
Qwen3.6 35B	4 дубля URL 5,3 с	чисто 4,2 с	чисто 2,1 с
gpt-oss-120b	чисто 17,4 с	чисто 8,9 с	чисто 22,6 с
gpt-oss-20b	чисто 19,4 с	чисто 12,1 с	2 заголовка >56 16,2 с

* — с включённым по умолчанию reasoning; с reasoning_effort:"none" classify занимает ~13 с (как у эталона 8–9 с).

Латентность classify-вызова (реальный промпт 13,4 тыс. знаков)

Секунд на ответ, один замер. Синие бары — модели без размышлений; помечено ★ — reasoning включён по умолчанию и тратит время+токены.

06Тест 3 — синтетика: контракт, лимиты, извлечение, честность, семантика

Пять авторских тестов с машинным скорингом, каждый бьёт в реальную болячку пайплайна: Т1 — строгий JSON-контракт с ловушками (null против «по запросу»), Т2 — лимиты символов 56/81, Т3 — извлечение фактов из шумного текста с ловушкой-партнёром, Т4 — числовая честность (посчитай CPL/CR, не выдумай LTV), Т5 — кластеризация 24 ключей (коммерческие/инфо/конкуренты/мусор). Два независимых прогона.

Модель	Т1 контракт	Т2 лимиты	Т3 извлечение	Т4 числа	Т5 семантика	Σ

В ячейках — счёт второго прогона (0–1); если первый прогон отличался — он в скобках. Т5 — доля верно разложенных ключей из 24 (после исправления одной ошибки в моём же эталоне: «кондиционеры хабаровск купить» для московского бизнеса — мусор, обе DeepSeek-модели разложили это правильнее меня).

Главное: Яндекс-DeepSeek V4 Flash — единственная модель с идеальным счётом в обоих прогонах (25/25), включая тест лимитов, который эталонный deepseek-chat стабильно заваливает (0,5 и 0,625). Семантику (Т5) топ-модели решают одинаково: 24/24 у обеих DeepSeek, YandexGPT 5.1/Pro, Qwen3 235B, gpt-oss-120b.

Антирекомендация: у Alice AI (обе) и YandexGPT Lite 5 json-режим ломается на ровном месте — на части промптов конструкция response_format: json_object выдаёт битый JSON вида {": … (плавающе: тот же вызов может пройти). gpt-oss-120b дважды завалил Т2: ответ уходит в размышления, content пустой. Эти модели в пайплайн не брать.

07Тест 4 — когнитивная деградация от роста промпта

Каталог магазина света с 9 фактами, рассеянными по позициям 10–90% текста, на пяти длинах: 6k → 300k знаков (2,8k → 120k токенов). Две задачи разной когнитивной цены: достать факты (retrieval) и агрегировать по всему тексту (посчитать все торшеры, найти самый дорогой товар бренда).

Retrieval: деградации нет ни у кого

Все модели (включая 20-миллиардную) достают 9/9 рассеянных фактов на всех длинах вплоть до 300 тыс. знаков — recall 1.0 по всей матрице (единственный сбой: Alice AI потеряла 1 факт на самой короткой длине, что говорит о шуме, а не о длине). Наши промпты — до 17 тыс. знаков: запас по длине ×17.

Агрегация: деградируют все, включая эталон

Точность подсчёта позиций по каталогу (100% = точный счёт)

«Сколько торшеров в каталоге»: count модели ÷ истина, %. Выше 100 — пересчёт, ниже — недосчёт. Один замер на точку — оцениваем тренд, не отдельные значения. Разрывы линии — модель не донесла ответ.

Модель	6k	24k	72k	160k	300k
Эталон deepseek-chat	3/3	10/11	20/33	44/83	30/140
Я-DeepSeek (reasoning выкл.)	3/3	9/11	20/33	40/83	50/140
Я-DeepSeek (reasoning вкл.)	3/3	11/11	32/33	нет ответа	нет ответа
Qwen3 235B	4/3	20/11	40/33	128/83	84/140
Qwen3.6 35B	3/3	14/11	48/33	58/83	103/140
Alice AI LLM	3/3	нет ответа	44/33	246/83	147/140
YandexGPT Pro 5.1	3/3	нет ответа	34/33	—	—
gpt-oss-120b / 20b	3/3	24k и дальше: ответа нет — размышления съедают бюджет вывода (130–190 с на попытку)

«—» — длина не влезает в контекст модели (32k токенов у YandexGPT). Вторая агрегационная задача («самый дорогой Maytoni из 170») на 160k+ не решается ни одной моделью, включая эталон.

Вывод по деградации. Порог «умных» операций над длинным контекстом — ~70–100 тыс. знаков у всех, дальше счёт врёт на 30–80% или ответ не приходит вовсе. Включённый reasoning отодвигает порог (V4 Flash с ним — единственный точный счёт до 72k), но за пределами сам становится точкой отказа. Практический регламент для kdirect: до ~70k знаков контексту можно доверять агрегацию; больше — только retrieval, агрегацию считать кодом. Характерно: обе DeepSeek-модели недосчитывают, Qwen — пересчитывает; направление ошибки — свойство семейства.

08Экономика, риски, что дальше

Стоимость одного classify-вызова, ₽ (реальные токены этого теста)

Промпт 13,4 тыс. знаков ≈ 3,5–4,8 тыс. токенов входа. Для V4 Flash взят режим failover (reasoning выкл., выход ~0,8k токенов).

Расход на квалификацию: ≈ 1 045 ₽ из гранта 10 000 ₽ (2,76 млн входных токенов — в основном тесты длинного контекста). Та же программа на эталонном DeepSeek стоила 5,6 ₽ — вот и вся разница в тарифах наглядно.
Failover-экономика: при доле сбоев эталона даже 5% трафика надбавка к месячному счёту LLM — единицы процентов. Пик-тариф DeepSeek ×2 (с 15.07.2026, UTC 01–04/06–10) разрыв сокращает до ×13, не меняя вывода.
Риск 1 — смертность URI: V3.2 уже отключили (28.06.2026). Мониторить changelog; failover должен уметь падать дальше (третье плечо = «пропустить/повторить позже», как сейчас).
Риск 2 — стохастические галлюцинации URL в classify (1 из 3 прогонов на лендинге с бедным меню). Митигируется пост-валидацией URL по списку из промпта — она же чинит зеркальный дефект эталона (дубли). Дёшево, полезно уже сейчас.
Риск 3 — квота 10 одновременных генераций: при failover в параллельной секции семантики держать пул ≤ 8 или поднять квоту тикетом заранее.

Проектный план внедрения failover (справочно)

llm.py: в _one_model при финальном сбое плеча (после ретраев) — один повтор через Яндекс: endpoint+модель из env (YANDEX_LLM_API_KEY / YANDEX_LLM_FOLDER / LLM_FAILOVER=yandex), chat → v4-flash+none, reasoner → v4-flash (авто-reasoning); запись в kd_journal phase=system «LLM failover: deepseek→yandex (метод, причина)».
site_parser._call_deepseek — тот же повтор (у него свой HTTP-вызов мимо llm.py).
Тесты на фейках: таймаут/5xx/битый JSON эталона → ответ приходит с Яндекса, журнал пишется, при выключенном флаге поведение байт-в-байт старое.
Учёт стоимости: в estimate_cost_rub добавить провайдера yandex (0,3/0,5 ₽ за 1k) — иначе админ-экономика занизит расход при сработках.

Методика (для воспроизводимости)

111 оплаченных вызовов: 12 (пары эталон/Яндекс на реальных промптах, собранных боевым кодом пайплайна с живых сайтов) + 30 (матрица 10 моделей × 3 промпта) + 110 синтетики в двух прогонах (55×2) + 46 деградация-retrieval + 46 деградация-агрегация + повторы стабильности (3+3). Судейство пар — вслепую, 12 вердиктов (6 пар × линзы «контракт»/«директолог»), порядок A/B рандомизирован по парам. Машинные проверки: схема/enum/лимиты/URL-граундинг/дедуп — кодом, не мнением. Первичные данные всех прогонов сохранены в исследовательском архиве проекта. Один замер на точку в деградации — выводы по трендам, отдельные клетки не считать точными.

© 2026 «Купи Слова» · kupislova.ru — сертифицированное агентство Яндекс.Директа. Исследование выполнено для платформы автоматической рекламы КДирект (kdirect.ru) · 3 июля 2026. Методика и прикладной ИИ-анализ: Claude (Anthropic). При использовании материалов ссылка на источник обязательна.