Исследование · LLM в разделе «Аналитика» · часть 2

Годится ли LLM для генерации и аудита отчётов по данным

3 июля 2026 · продолжение первого исследования · грант Яндекса (израсходовано за обе части ≈ 1 360 ₽ из 10 000)
372 боевых вызова · 12 моделей (вкл. reasoning) · 3 теста на реальных промптах Аналитики + слепое судейство нарратива
01Вердикт: что можно и чего нельзя поручать
02Тест A — рассуждение над числовыми витринами
03Тест B — честность: цель-деньги и аудит дефектов
04Тест C — сборка отчёта (report-DSL)
05Слепое судейство качества нарратива
06Что это значит для «Аналитики» КДирект

01Вердикт: что можно и чего нельзя поручать LLM над данными

Выбор / диагноз по таблице
Можно
«Лучший/худший источник по ДРР», «этот жжёт бюджет», цитата значения — надёжно у всех рабочих моделей до 80 источников. Это ядро нарратива Аналитики.
Суммы и агрегаты
Нельзя
Сумма столбца из 20+ чисел, общий ДРР — рушится у ВСЕХ chat-моделей, включая эталон. Считать обязано железо (SQL/Python), как и сделано в wh-слое.
Честность измерения
Держит
Ловушку «фейковая цель-деньги» и «нет цели-деньги» проходят и эталон, и Яндекс-DeepSeek. Гейт честности работает.
Сборка отчёта (DSL)
Можно
Валидный вложенный спек отчёта собирают почти все. Нативный json_schema Яндекса вытягивает даже самые дешёвые модели.

Главный вывод. Разделение труда в «Аналитике» должно быть жёстким: детерминированный слой (wh-витрины) считает все числа, LLM только рассуждает над готовыми числами и формулирует. Это ровно текущая архитектура — и тесты её подтверждают, а не опровергают. Для LLM-части раздела рабочая пара — deepseek-v4-flash и yandexgpt-5.1: обе проходят гейт честности идеально, находят дефекты, не выдумывают лишнего. Если понадобится, чтобы LLM сам посчитал агрегат — это умеют только reasoning-модели, за латентность.

02Тест A — рассуждение над числовыми витринами (wh_rollup_source_value)

Модели скармливали реалистичную витрину ценности по источникам (расход, выручка, заказы, ДРР, LTV, CAC) на четырёх размерах — 8, 20, 40, 80 источников — и просили ответить на 8 вопросов с точной машинной проверкой. Вопросы делятся на два класса, и результат по ним — диаметрально разный.

Два навыка над таблицей расходятся с ростом числа строк

Доля верных ответов (среднее по рабочим chat-моделям: эталон DeepSeek, Яндекс-DeepSeek, YandexGPT 5.1, Qwen3.6). Отдельно — reasoning-модель на арифметике.

Выбор и диагноз (найти самый эффективный/убыточный источник, поймать «слитый» бюджет, процитировать значение) — надёжны до 80 источников у всех рабочих моделей (72–93% верных). Агрегатная арифметика (сумма расхода/выручки по всем строкам, общий ДРР) — обваливается уже на 20 строках и уходит в ноль на 40+. Это не слабость Яндекса: эталонный deepseek-chat суммирует столбец из 20 чисел так же плохо (0 из 3). Единственные, кто держит арифметику, — reasoning-модели (эталонный reasoner — 100% до 40 источников), но они в 10–25 раз медленнее.
МодельВыбор / диагнозАгрегатная суммаСр. латентностьРоль в Аналитике
эталон deepseek-chat0,830,192,8 сэталон
Яндекс deepseek-v4-flash0,800,303,0 срабочая: нарратив/диагноз
Яндекс yandexgpt-5.10,730,001,4 срабочая: быстрый диагноз
Яндекс qwen3.6-35b0,830,141,1 срезерв
эталон deepseek-reasoner0,931,0034 столько если нужен счёт LLM-ом
Яндекс gpt-oss-120b1,00*1,00*16 с* только на 8 строках — на 20+ обрывается размышлениями

Оценка по 8 под-вопросам × 4 размера × 3 повтора на модель. «Выбор» = 5 вопросов (лучший/худший источник по ДРР, детект слива, argmax LTV/CAC, цитата значения); «агрегат» = 3 (сумма расхода, сумма выручки, общий ДРР).

03Тест B — честность: цель-деньги и аудит дефектов

Реальные промпты пайплайна с зашитыми ловушками. propose_metrika_goals — гейт честности измерения: три сценария, где легко соврать. audit_judge — реальная рубрика аудита: план с тремя намеренными дефектами (recall) и чистый план (не выдумать лишнего).

Матрица честности (доля верных, 3 повтора)

Тёмное = хорошо. «нет Метрики» — не выдумать цели; «фейк-деньги» — не купиться на page-view «РАСПРОДАЖА»; «нет цели-денег» — не назначить микро деньгами; «дефекты» — найти 3 из 3; «чистый» — не выдумать crit-дефект.

Гейт честности держат обе рабочие модели идеально. И deepseek-v4-flash, и yandexgpt-5.1 — 1,00 по всем пяти столбцам: не выдумывают цели при отсутствии Метрики, выбирают реальную цель-деньги (оплата заказа), а не page-view «РАСПРОДАЖА 2026», честно признают отсутствие цели-денег и не выдают микро-сигнал за деньги, находят все зашитые дефекты и не флагуют лишнего на чистом плане.
Два предостережения. (1) Qwen-модели триггерятся на чистом плане (0,50 в «чистый»): выдумывают критические дефекты там, где их нет — как аудитор это опасно (ложная тревога владельцу). (2) Alice AI проваливает аудит (recall дефектов 0,0–0,44) из-за того же слома json-режима, что мы видели в части 1. Для аудита эти модели не брать.

04Тест C — сборка отчёта из запроса (report-DSL)

Это забегание вперёд: prompt-to-report из одобренного, но ещё не построенного дизайна «Аналитики». По запросу на естественном языке модель должна собрать валидный вложенный спек отчёта — блоки (KPI, график, разбивка, воронка, здоровье) с привязками строго к реальным колонкам витрины. Проверяли в двух режимах: наш обычный json_object и нативный json_schema Яндекса.

Валидность спека отчёта: json_object против нативного json_schema

Доля соответствия грамматике (типы блоков, покрытие запроса, отсутствие выдуманных колонок). Показаны модели, где режим что-то меняет.

Топ-модели собирают валидный DSL и так, и так (v4-flash, YandexGPT 5.1/Pro, Qwen, gpt-oss — все 1,00 в обоих режимах): правильные типы блоков, покрытие запроса, ноль выдуманных колонок. А нативный json_schema — реальный рычаг для дешёвых моделей: Alice Flash (0,1 ₽ за 1k) в обычном режиме отдаёт мусор вместо структуры (0,14), а с принудительной схемой — идеальный спек (1,00). Практический смысл: если строим prompt-to-report, нативная схема Яндекса позволяет крутить его на самой дешёвой модели без потери валидности.

05Слепое судейство качества нарратива

Машина проверяет «правильно ли», судья — «хорошо ли написано и годится ли владельцу». Три пары реальных нарративов (эталон DeepSeek против Яндекс-DeepSeek) судились вслепую по двум линзам: корректность и качество как рабочего продукта аналитика. 6 вердиктов.

НарративКорректностьКачествоСуть
Цель-деньги: ловушка «РАСПРОДАЖА»ничья 8:8эталон 8:7Оба не купились на фейк. У Яндекса рассинхрон summary↔тело и обрыв (вероятно артефакт захвата), у эталона — точные имена целей.
Цель-деньги: цели-денег нетэталон 8:7эталон 7,5:7Оба честно признали пробел. У Яндекса чуть чище воронка микро-сигналов, у эталона — дубль конверсии, но связнее в целом.
Аудит: 3 зашитых дефектаЯндекс 7,5:5Яндекс 8:6Эталон проглядел медицинский модерационный дефект (оценил «чисто», 5/10) — Яндекс его поймал (3/10). Оба нашли demand и relevance.
Счёт 3:2:1 в пользу эталона по нарративу целей — но заголовок не в счёте. Оба одинаково прошли ловушки честности; на нарративе целей Метрики эталон чуть связнее (у Яндекса были обрыв/переименование — вероятно, артефакт нашего захвата, а не модели). А вот на аудите дефектов Яндекс-DeepSeek обыграл эталон, поймав модерационный риск медицины, который эталон пропустил — тот самый дефект, что защищает агентский аккаунт от блокировки. Важная поправка к машинному счёту: мой детерминированный чек засчитал «moderation ≤ 6» как «дефект найден», но слепой судья вскрыл, что эталон поставил 5/10 = фактически «пропустил». Урок для нашей рубрики: порог по модерации надо ужесточить.

06Что это значит для «Аналитики» КДирект

Методика

372 оплаченных вызова во второй части: Тест A — 12 моделей × 4 размера таблиц × 3 повтора (числовые витрины с детерминированной истиной); Тест B — 12 моделей × 5 задач × 3 повтора (реальные промпты propose_metrika_goals и audit_judge с зашитыми ловушками); Тест C — 12 моделей × 2 режима × 2 повтора (вложенный report-DSL); слепое судейство — 6 вердиктов (3 пары × 2 линзы, порядок рандомизирован). Найденная по ходу грабля reasoning_effort:"none" — DeepSeek-расширение, которое qwen/gpt-oss отвергают 400-й: обёртка дополнена ретраем без него. Все скоринги — машинные (схема/арифметика/enum/граундинг колонок), кроме линз качества. Первичные данные — в исследовательском архиве проекта.

© 2026 «Купи Слова» · kupislova.ru — сертифицированное агентство Яндекс.Директа. Часть 2 исследования LLM-инфраструктуры для платформы КДирект · 3 июля 2026. Прикладной ИИ-анализ: Claude (Anthropic). При использовании материалов ссылка на источник обязательна.