Годится ли LLM для генерации и аудита отчётов по данным

3 июля 2026 · продолжение первого исследования · грант Яндекса (израсходовано за обе части ≈ 1 360 ₽ из 10 000)
372 боевых вызова · 12 моделей (вкл. reasoning) · 3 теста на реальных промптах Аналитики + слепое судейство нарратива

Часть 1 отвечала «совместим ли яндексовый DeepSeek вообще». Эта часть отвечает на вопрос, который мы там не закрыли: можно ли доверять LLM работу над собранными данными — считать, аудировать, собирать отчёт.

01Вердикт: что можно и чего нельзя поручать

02Тест A — рассуждение над числовыми витринами

03Тест B — честность: цель-деньги и аудит дефектов

04Тест C — сборка отчёта (report-DSL)

05Слепое судейство качества нарратива

06Что это значит для «Аналитики» КДирект

01Вердикт: что можно и чего нельзя поручать LLM над данными

Выбор / диагноз по таблице

Можно

«Лучший/худший источник по ДРР», «этот жжёт бюджет», цитата значения — надёжно у всех рабочих моделей до 80 источников. Это ядро нарратива Аналитики.

Суммы и агрегаты

Нельзя

Сумма столбца из 20+ чисел, общий ДРР — рушится у ВСЕХ chat-моделей, включая эталон. Считать обязано железо (SQL/Python), как и сделано в wh-слое.

Честность измерения

Держит

Ловушку «фейковая цель-деньги» и «нет цели-деньги» проходят и эталон, и Яндекс-DeepSeek. Гейт честности работает.

Сборка отчёта (DSL)

Можно

Валидный вложенный спек отчёта собирают почти все. Нативный json_schema Яндекса вытягивает даже самые дешёвые модели.

Главный вывод. Разделение труда в «Аналитике» должно быть жёстким: детерминированный слой (wh-витрины) считает все числа, LLM только рассуждает над готовыми числами и формулирует. Это ровно текущая архитектура — и тесты её подтверждают, а не опровергают. Для LLM-части раздела рабочая пара — deepseek-v4-flash и yandexgpt-5.1: обе проходят гейт честности идеально, находят дефекты, не выдумывают лишнего. Если понадобится, чтобы LLM сам посчитал агрегат — это умеют только reasoning-модели, за латентность.

02Тест A — рассуждение над числовыми витринами (wh_rollup_source_value)

Модели скармливали реалистичную витрину ценности по источникам (расход, выручка, заказы, ДРР, LTV, CAC) на четырёх размерах — 8, 20, 40, 80 источников — и просили ответить на 8 вопросов с точной машинной проверкой. Вопросы делятся на два класса, и результат по ним — диаметрально разный.

Два навыка над таблицей расходятся с ростом числа строк

Доля верных ответов (среднее по рабочим chat-моделям: эталон DeepSeek, Яндекс-DeepSeek, YandexGPT 5.1, Qwen3.6). Отдельно — reasoning-модель на арифметике.

Выбор и диагноз (найти самый эффективный/убыточный источник, поймать «слитый» бюджет, процитировать значение) — надёжны до 80 источников у всех рабочих моделей (72–93% верных). Агрегатная арифметика (сумма расхода/выручки по всем строкам, общий ДРР) — обваливается уже на 20 строках и уходит в ноль на 40+. Это не слабость Яндекса: эталонный deepseek-chat суммирует столбец из 20 чисел так же плохо (0 из 3). Единственные, кто держит арифметику, — reasoning-модели (эталонный reasoner — 100% до 40 источников), но они в 10–25 раз медленнее.

Модель	Выбор / диагноз	Агрегатная сумма	Ср. латентность	Роль в Аналитике
эталон deepseek-chat	0,83	0,19	2,8 с	эталон
Яндекс deepseek-v4-flash	0,80	0,30	3,0 с	рабочая: нарратив/диагноз
Яндекс yandexgpt-5.1	0,73	0,00	1,4 с	рабочая: быстрый диагноз
Яндекс qwen3.6-35b	0,83	0,14	1,1 с	резерв
эталон deepseek-reasoner	0,93	1,00	34 с	только если нужен счёт LLM-ом
Яндекс gpt-oss-120b	1,00*	1,00*	16 с	* только на 8 строках — на 20+ обрывается размышлениями

Оценка по 8 под-вопросам × 4 размера × 3 повтора на модель. «Выбор» = 5 вопросов (лучший/худший источник по ДРР, детект слива, argmax LTV/CAC, цитата значения); «агрегат» = 3 (сумма расхода, сумма выручки, общий ДРР).

03Тест B — честность: цель-деньги и аудит дефектов

Реальные промпты пайплайна с зашитыми ловушками. propose_metrika_goals — гейт честности измерения: три сценария, где легко соврать. audit_judge — реальная рубрика аудита: план с тремя намеренными дефектами (recall) и чистый план (не выдумать лишнего).

Матрица честности (доля верных, 3 повтора)

Тёмное = хорошо. «нет Метрики» — не выдумать цели; «фейк-деньги» — не купиться на page-view «РАСПРОДАЖА»; «нет цели-денег» — не назначить микро деньгами; «дефекты» — найти 3 из 3; «чистый» — не выдумать crit-дефект.

Гейт честности держат обе рабочие модели идеально. И deepseek-v4-flash, и yandexgpt-5.1 — 1,00 по всем пяти столбцам: не выдумывают цели при отсутствии Метрики, выбирают реальную цель-деньги (оплата заказа), а не page-view «РАСПРОДАЖА 2026», честно признают отсутствие цели-денег и не выдают микро-сигнал за деньги, находят все зашитые дефекты и не флагуют лишнего на чистом плане.

Два предостережения. (1) Qwen-модели триггерятся на чистом плане (0,50 в «чистый»): выдумывают критические дефекты там, где их нет — как аудитор это опасно (ложная тревога владельцу). (2) Alice AI проваливает аудит (recall дефектов 0,0–0,44) из-за того же слома json-режима, что мы видели в части 1. Для аудита эти модели не брать.

04Тест C — сборка отчёта из запроса (report-DSL)

Это забегание вперёд: prompt-to-report из одобренного, но ещё не построенного дизайна «Аналитики». По запросу на естественном языке модель должна собрать валидный вложенный спек отчёта — блоки (KPI, график, разбивка, воронка, здоровье) с привязками строго к реальным колонкам витрины. Проверяли в двух режимах: наш обычный json_object и нативный json_schema Яндекса.

Валидность спека отчёта: json_object против нативного json_schema

Доля соответствия грамматике (типы блоков, покрытие запроса, отсутствие выдуманных колонок). Показаны модели, где режим что-то меняет.

Топ-модели собирают валидный DSL и так, и так (v4-flash, YandexGPT 5.1/Pro, Qwen, gpt-oss — все 1,00 в обоих режимах): правильные типы блоков, покрытие запроса, ноль выдуманных колонок. А нативный json_schema — реальный рычаг для дешёвых моделей: Alice Flash (0,1 ₽ за 1k) в обычном режиме отдаёт мусор вместо структуры (0,14), а с принудительной схемой — идеальный спек (1,00). Практический смысл: если строим prompt-to-report, нативная схема Яндекса позволяет крутить его на самой дешёвой модели без потери валидности.

05Слепое судейство качества нарратива

Машина проверяет «правильно ли», судья — «хорошо ли написано и годится ли владельцу». Три пары реальных нарративов (эталон DeepSeek против Яндекс-DeepSeek) судились вслепую по двум линзам: корректность и качество как рабочего продукта аналитика. 6 вердиктов.

Нарратив	Корректность	Качество	Суть
Цель-деньги: ловушка «РАСПРОДАЖА»	ничья 8:8	эталон 8:7	Оба не купились на фейк. У Яндекса рассинхрон summary↔тело и обрыв (вероятно артефакт захвата), у эталона — точные имена целей.
Цель-деньги: цели-денег нет	эталон 8:7	эталон 7,5:7	Оба честно признали пробел. У Яндекса чуть чище воронка микро-сигналов, у эталона — дубль конверсии, но связнее в целом.
Аудит: 3 зашитых дефекта	Яндекс 7,5:5	Яндекс 8:6	Эталон проглядел медицинский модерационный дефект (оценил «чисто», 5/10) — Яндекс его поймал (3/10). Оба нашли demand и relevance.

Счёт 3:2:1 в пользу эталона по нарративу целей — но заголовок не в счёте. Оба одинаково прошли ловушки честности; на нарративе целей Метрики эталон чуть связнее (у Яндекса были обрыв/переименование — вероятно, артефакт нашего захвата, а не модели). А вот на аудите дефектов Яндекс-DeepSeek обыграл эталон, поймав модерационный риск медицины, который эталон пропустил — тот самый дефект, что защищает агентский аккаунт от блокировки. Важная поправка к машинному счёту: мой детерминированный чек засчитал «moderation ≤ 6» как «дефект найден», но слепой судья вскрыл, что эталон поставил 5/10 = фактически «пропустил». Урок для нашей рубрики: порог по модерации надо ужесточить.

06Что это значит для «Аналитики» КДирект

Архитектура подтверждена. «Аналитика», «мозг», диагностика и сейчас считают все числа детерминированно в SQL/Python, а LLM в этом слое не используется. Тест A доказывает, почему это правильно: LLM нельзя доверять даже сумму столбца. Ничего переносить на LLM в счётной части — нельзя.
Где LLM в Аналитике уместен — и надёжен: нарратив над готовыми числами («ваш лучший источник — X, источник Z сливает бюджет»), гейт целей Метрики (propose_metrika_goals), аудит планов (audit_judge). Здесь и deepseek-v4-flash, и yandexgpt-5.1 работают на равных с эталоном, а YandexGPT 5.1 ещё и вдвое быстрее (1,4 с против 3,0 с).
Если строить prompt-to-report (генерация отчёта по запросу из дизайна платформы) — включать нативный json_schema Яндекса: он гарантирует валидность спека и позволяет крутить фичу на дешёвой модели.
Правки в нашу рубрику аудита (нашли на себе): порог по модерации ужесточить (эталон с moderation 5/10 «пропускает» медицинский риск); у qwen-моделей — склонность выдумывать crit-дефекты на чистом плане, поэтому в роль аудитора-судьи их не ставить.
Если LLM обязан посчитать агрегат сам (например, свести цифры в свободном вопросе владельца) — только reasoning-модель (эталонный reasoner держит 100% до 40 источников), с оговоркой на латентность 30+ секунд. Дешёвый путь всегда лучше: посчитать в SQL, отдать LLM готовое.

Методика

372 оплаченных вызова во второй части: Тест A — 12 моделей × 4 размера таблиц × 3 повтора (числовые витрины с детерминированной истиной); Тест B — 12 моделей × 5 задач × 3 повтора (реальные промпты propose_metrika_goals и audit_judge с зашитыми ловушками); Тест C — 12 моделей × 2 режима × 2 повтора (вложенный report-DSL); слепое судейство — 6 вердиктов (3 пары × 2 линзы, порядок рандомизирован). Найденная по ходу грабля reasoning_effort:"none" — DeepSeek-расширение, которое qwen/gpt-oss отвергают 400-й: обёртка дополнена ретраем без него. Все скоринги — машинные (схема/арифметика/enum/граундинг колонок), кроме линз качества. Первичные данные — в исследовательском архиве проекта.

© 2026 «Купи Слова» · kupislova.ru — сертифицированное агентство Яндекс.Директа. Часть 2 исследования LLM-инфраструктуры для платформы КДирект · 3 июля 2026. Прикладной ИИ-анализ: Claude (Anthropic). При использовании материалов ссылка на источник обязательна.