AI-оценки становятся новым вычислительным узким местом


Стоимость оценки ИИ возросла до такого уровня, что это создает серьезные преграды для организаций, желающих проводить такие оценки. Holistic Agent Leaderboard (HAL) недавно потратил около $40,000 на выполнение 21,730 агентных прогонов по 9 моделям и 9 бенчмаркам. Одновременно один прогон GAIA на фронтирной модели обходится в $2,829 без кэширования.

Sweep компании Exgentic на сумму $22,000 по конфигурациям агентов выявил 33-кратный разброс в затратах на одинаковые задачи, подчеркивая критическую роль выбора скаффолда.

UK-AISI масштабировал агентные шаги до миллионов, рассматривая вычисления во время инференса, тогда как в научном машинном обучении The Well требует около 960 часов на H100 для оценки новой архитектуры и 3,840 часов для полного свипа по четырем базовым линиям.

В своем последнем анализе я исследовал основные бенчмарки, которые влияют на результаты и стоимость оценки ИИ. Посмотрите здесь, какие основные бенчмарки для тестирования GenAI и LLM существуют

Надежность AI-системы требует четкого понимания архитектурных паттернов. Узнайте больше о надежных AI-системах в продакшне

Интеграция ChatGPT в маркетинговые стратегии может значительно улучшить результаты. Читать об использовании ChatGPT в маркетинге

Удешевление статических LLM-бенчмарков

Проблема стоимости оценки возникла еще до появления агентных методик. Когда CRFM Стэнфорда выпустил HELM в 2022 году, их учёт затрат показал, что цена API варьируется от $85 для code-cushman-001 от OpenAI до $10,926 для J1-Jumbo (178B) от AI21. Для открытых моделей затраты составляют от 540 до 4,200 GPU-часов, причем BLOOM (176B) и OPT (175B) находятся на верхней границе. Анализ Perlitz et al.

(2023) подчеркивает необходимость детального подхода к затратам HELM, а также показывает, что прогон Granite-13B через HELM может потреблять до 1,000 GPU-часов. В совокупности 30 моделей и 42 сценария приводят к общим заявленным затратам около $100,000.

Анализ чекпоинтов Pythia от EleutherAI выявил, что разработчики многократно оплачивают оценки на протяжении всего процесса разработки модели. Pythia выпустила 154 чекпоинта для 16 моделей, что в сумме составляет 2,464 чекпоинта, предоставляя сообществу возможность изучить динамику обучения.

Запуск LM Evaluation Harness по этим чекпоинтам превращает оценку в значительное дополнительное расходование на обучение: как отметили Perlitz et al. (2024), затраты на оценку могут превышать затраты на предобучение. Для небольших моделей оценка становится ключевой статьей вычислительных расходов на протяжении всего процесса разработки.

Анализируя, какая часть HELM на самом деле определяет ранжирование, Perlitz et al. сделали примечательное открытие: сокращение вычислений в 100–200 раз позволяет сохранить прежние порядки, и дальнейшие сокращения также оказываются полезными для более грубой группировки при многоуровневом анализе. Flash-HELM применил найденное, разработав процедуру от грубого к точному: сначала проводятся дешевые оценки, а высокоточные расчёты затрачиваются только на лучших кандидатов.

Аналогичные выводы были сделаны в других исследованиях. tinyBenchmarks сумел сократить MMLU с 14 000 элементов до 100 ключевых примеров с погрешностью около 2%, используя теорию ответа на задание. Open LLM Leaderboard был уменьшен с 29 000 примеров до 180.

Anchor Points показал, что всего от 1 до 30 примеров достаточно для оценки 87 пар языковая-модель/промпт на GLUE, что дало повод для других исследований также сократить размеры датасетов на 90%.

Статические бенчмарки имели уязвимость, которую можно было использовать: различия между моделями часто сосредотачиваются в узком круге элементов, и поэтому ранжирование остается устойчивым даже при агрессивном субсэмплировании.

Этот приём резко ослаб, как только бенчмарки перешли от статических предсказаний к агентам.

Агентные оценки сложнее

С точки зрения общественности, очень хорошая прозрачность затрат на агентные оценки продемонстрирована в Holistic Agent Leaderboard (Kapoor et al., ICLR 2026). HAL запускает стандартизированные агентные обвязки по девяти бенчмаркам, включая написание кода, веб-навигацию, научные задачи и обслуживание клиентов, с общими скаффолдами и централизованным учётом затрат.

Общая стоимость составила $40 000 за 21 730 прогонов по 9 моделям и 9 бенчмаркам. К апрелю 2026 года количество прогонов на лидерборде выросло до 26 597. Так же, как и независимое воспроизведение Ndzomga, которое приближается к той же цифре: $46 000 за 242 агентных прогона.

Согласно агрегированным данным, стоимость одного прогона бенчмарка варьируется на четыре порядка величины в зависимости от задач HAL и на три порядка внутри некоторых отдельных бенчмарков.

Эти цифры вызывают вопросы о ценах. Claude Opus 4.1 стоит $15 за миллион входных токенов и $75 за миллион выходных, тогда как Gemini 2.0 Flash берёт $0.10 и $0.40 соответственно, что подчеркивает значительные расхождения только по входным токенам. Агентные бенчмарки редко оценивают «модель» в чистом виде; они оценивают взаимодействие модели, скаффолда и объемов токенов, где даже небольшие изменения в скаффолде могут увеличить затраты в 10 раз.

Неудивительно, что более высокие расходы не всегда гарантируют лучшую производительность. Исследование Online Mind2Web Browser-Use показывает, что использование Claude Sonnet 4 обошлось в $1,577 при точности 40%, в то время как SeeAct с GPT-5 Medium достиг 42% за $171. В исследовании HAL фиксируется «9-кратная разница в стоимости при всего лишь двухпроцентном различии в точности».

Идеи статических бенчмарков должны послужить основой для улучшений, однако на практике это лишь частично реализуемо. Фильтр средней сложности Ndzomga, отбирающий задачи с историческими показателями успеха от 30 до 70%, может достичь сокращения в 2–3,5 раза при сохранении точности ранжирования, однако он всё ещё не является сопоставимым с достижениями в 100–200 раз, которые возможны в статических бенчмарках.

Некоторые оценки — это просто обучение

Некоторые бенчмарки выходят за рамки простой концепции ценности API, так как их протокол оценивания требует обучения моделей с нуля.

Примером служит The Well, который объединяет 16 научных наборов данных, связанных с машинным обучением, исследуя биологические системы, гидродинамику, магнитогидродинамику, взрывы сверхновых и активную материю, используя данные объемом 15 ТБ. При использовании сетевого протокола из 16 наборов данных практически не остается пространства для экономии: для тренировки каждой базовой модели требуется 12 часов на одном H100, с экспериментацией скоростей обучения для каждой пары (модели и данных), требующие повторения для четырех архитектур и 16 наборов данных.

Обучение одного нейронного оператора может занять один 12-часовой прогон на H100, тогда как его оценка на всём бенчмарке требует 80 таких обучений. Именно эта асимметрия делает The Well показательным. В этом разделе машинного обучения вычислительные затраты на оценку превышают затраты на обучение примерно на два порядка, переворачивая старую ментальную модель глубокого обучения.

Та же закономерность повторяется в SciML. PDEBench охватывает 11 семейств уравнений в частных производных (ДУ в частных производных, PDE) и приводит таблицы времени на эпоху для различных наборов данных и семейств моделей, однако чёткая цифра стоимости на архитектуру зависит от выбранного протокола обучения и оборудования. MLE-Bench (OpenAI) находится между режимами агента и обучения.

Каждая попытка агента в одном из 75 соревнований Kaggle длится 24 часа на одном GPU A10, обучая реальные конвейеры машинного обучения. В статье прямо указано: «Один прогон нашей основной экспериментальной установки из 24 часов на попытку соревнования требует 24 часа × 75 соревнований = 1 800 GPU-часов вычислений», плюс o1-preview потребляет 127,5 млн входных и 15 млн выходных токенов на одно зерно.

При $1,50 за час A10 только GPU-затраты составляют $2 700; добавление использования API o1-preview доводит прогон с одним зерном примерно до $5 500. Три зерна × шесть моделей выйдут примерно на $100 000 без учёта дополнительных накладных расходов на оценку или повторные попытки.

METR’s RE-Bench ограничивает каждую из семи сред исследовательской инженерии 8 часами на 1–6 H100. Один проход по всему набору составляет от 56 до 336 H100-часов без учёта повторных попыток, нескольких зёрен или нескольких агентов; базовый уровень для людей с 71 попыткой экспертов значительно повышает неявный бюджет.

Поскольку бенчмарк предоставляет агентам и людям одинаковые вычислительные ресурсы в реальном времени, процесс обучения в реальном времени задаёт нижнюю границу стоимости. Бюджет токенов больше не ограничивает её сверху.

ResearchGym (ICLR 2026) заставляет агента проводить реальные исследования в области машинного обучения. Пять тестовых задач (39 подзадач), взятых из статей ACL, ICLR и ICML, включая категории ACL Highlights, ICML Spotlight, ICLR Spotlight и ICLR Oral, с сокрытыми предложенными методами. Агент должен выдвигать гипотезы, обучать модели и превосходить базовые показатели авторов оригинальных работ.

Бюджет жёсткий: $10 на API плюс 12–24 часа на одном GPU с объёмом памяти менее 24 ГБ на задачу. Полный проход (5 задач × 24 ч × 3 зерна) потребляет около 360 GPU-часов на агента.

Картина стоимости становится жестокой в PaperBench. Двадцать статей ICML 2024 категорий Spotlight или Oral должны быть воспроизведены с нуля и оценены по деревьям рубрик с 8 316 критериями на листовых узлах. Каждый прогон использует GPU A10 в течение 12 часов, и математика на статью проста:

  • $400 на API за один прогон o1 IterativeAgent, умноженные на 20 статей, составляют около $8 000 за оценку
  • Оценка обходится в $66 за статью с судьёй o3-mini, или $1 320 за полный бенчмарк
  • Использование o1 в качестве судьи подняло бы стоимость оценки примерно до $830 за статью

PaperBench Code-Dev намеренно исключает выполнение кода. Этот выбор вдвое снижает стоимость прогона — примерно до $4 000 — и сокращает стоимость оценки до $10 за статью (на 85% меньше). OpenAI создала этот вариант, потому что многие группы не могут позволить себе полный бенчмарк.

Исторический прецедент — NAS-Bench-101, табличное построение которого потребовало более 100 TPU-лет обучения. Без этих единовременных инвестиций каждое сравнение алгоритмов NAS обходилось бы в 1–100+ GPU-часов за прогон, что сделало бы сравнение дороже самих алгоритмов.

По мере того как бенчмарки приближаются к реальной работе, сжатие становится всё сложнее: статическое предсказание оставляет возможности для значительной экономии, прогоны агентов — меньше, а обучение в цикле — почти никаких.

Надёжность — это дорогостоящая часть

Большинство из приведённых выше затрат обеспечивают лишь однократные измерения с ограниченной статистической мощностью. Когда вы измеряете надёжность в ходе повторных прогонов, статические бенчмарки, бенчмарки агентов и бенчмарки с обучением в цикле становятся значительно дороже.

Надёжность агентов может резко падать, когда вы перестаёте считать один прогон доказательством. Наиболее известный пример — τ-bench Яо и соавт., впоследствии переосмысленный в CLEAR (Мехта, 2025): производительность может упасть с 60% при одном прогоне до 25% при 8-прогонной согласованности.

Капур и соавт. в работе «AI Agents That Matter» обнаружили, что простые базовые агенты доминируют по Парето над сложными агентами SOTA (Reflexion, LDB, LATS) на HumanEval при 50-кратно меньших затратах.

Их анализ с удержанием данных показал, что у 7 из 17 бенчмарков не было удержанного набора; среди 10, у которых он был, только 5 удерживали задачи на надлежащем уровне обобщения — итого 12 из 17 не прошли критерий удержания. В статье HAL отмечается, что агент «ничегонеделания» проходит 38% задач τ-bench по авиабилетам при исходной конструкции.

Собственный анализ логов HAL выявил утечку данных в скаффолде TAU-bench Few Shot, что вынудило удалить его в декабре 2025 года.

Ещё один недавний анализ надёжности содержится в работе Рабансера, Капура и соавт. «Towards a Science of AI Agent Reliability», в которой предлагаются двенадцать метрик по согласованности, устойчивости, предсказуемости и безопасности. Их вывод: «недавние достижения в возможностях дали лишь незначительные улучшения в надёжности». Внутренний анализ HAL показывает, сколько хрупкости скрывается за совокупной точностью.

На SciCode и CORE-Bench агенты почти никогда не завершали прогон без сбоя при вызове инструментов. На AssistantBench и CORE-Bench ошибки среды возникали примерно в 40% прогонов. Агенты нарушали явные инструкции бенчмарка в своём финальном ответе более чем в 60% случаев при неудачных задачах.

Статистически достоверная оценка в стиле HAL с k = 8 повторными прогонами на ячейку доводит совокупные $40 тыс. примерно до $320 тыс. Тот же множитель, применённый к стоимости одного прогона PaperBench в $9 500, выводит оценку одного агента за $75 тыс., а в The Well многозерновой протокол увеличивает стоимость на архитектуру с ~960 H100-часов до нескольких тысяч. Надёжность действует как множитель для каждой из приведённых выше категорий затрат.

HAL приостановил оценку новых моделей, чтобы сосредоточиться на надёжности: заголовочные цифры в этой области по-прежнему несут слишком много шума, а снижение этого шума стоит реальных денег. Приведённые выше цифры — это нижние границы; многие оценщики уже не могут себе этого позволить.

Что это означает для машинного обучения как области

Стоимость оценки теперь является барьером подотчётности

Академические группы, институты по безопасности ИИ и журналисты сталкиваются с бюджетными ограничениями раньше технических, когда пытаются самостоятельно оценивать передовые агенты. Один прогон GAIA может превысить годовой бюджет на командировки аспиранта. Одна оценка PaperBench, включая судью на основе LLM, обходится примерно в $9 500.

Сравнения шести моделей на трёх зёрнах — именно такого рода исследования публикуются — превышают $150 000. Устоявшаяся практика «запустить бенчмарк один раз и сообщить число точности» по своей строгости примерно соответствует краш-тесту одного автомобиля в идеальных погодных условиях.

Выйти за её рамки требует денег, которые академическая система в настоящее время не выделяет в качестве исследовательских вычислительных ресурсов.

Вычислительный разрыв теперь включает оценку

Ахмед, Уахед и Томпсон (Science, 2023) задокументировали, что промышленные модели в 2021 году были в 29 раз крупнее академических по числу параметров, и что около 70% аспирантов в области ИИ в 2020 году ушли в индустрию против 21% в 2004 году. Исходная история о «вычислительном разрыве» в основном игнорировала оценку, потому что раньше она выглядела дёшево по сравнению с обучением.

Многие бенчмарки изменили это соотношение на противоположное. Лаборатория, способная дообучить модель на 7B параметров, больше не может рассчитывать на то, что ей по карману бенчмарки, которые поле считает серьёзными.

Слепые к стоимости таблицы лидеров поощряют расточительство

Когда таблицы лидеров сообщают сырую точность и опускают стоимость, исследователи могут рационально вливать токены в задачу до тех пор, пока число не вырастет. Статья HAL обнаруживает, что более высокие усилия при рассуждении фактически снижают точность в большинстве прогонов: дополнительные вычисления при инференсе не улучшают надёжно даже ту метрику, которую призваны оптимизировать.

Фронты Парето исправляют сравнение, ранжируя точность относительно стоимости. HAL их реализует, но большинство таблиц лидеров по-прежнему этого не делают.

Если только вычислительные бюджеты передовых лабораторий способны производить статистически надёжные числа бенчмарков на наиболее дорогостоящих агентных и научных бенчмарках, социальный процесс оценки систем ИИ концентрируется внутри тех же лабораторий, которые их создают. Внешняя валидация становится частичной, а иногда и отсутствующей — если только кто-то не субсидирует стоимость напрямую.

Сводка стоимости по типам бенчмарков

Все цифры нормализованы до долларов США за одну оценку. Вычисления на GPU конвертированы по ставке $2,50/час H100, $1,50/час A10; стоимость API и оценки включена там, где применимо.

Pythia («стоимость оценки может превысить предобучение»), PDEBench (стоимость на архитектуру зависит от выбранного протокола обучения и оборудования) и стоимость создания NAS-Bench-101 в 100 TPU-лет исключены, поскольку они не нормализуются чисто до цифры стоимости одной оценки в долларах США.

Когда я смотрю на эту таблицу в целом, бросается в глаза одно: разрыв между «запустить один раз» и «получить статистически значимый результат» нигде не отражён в публичных лидербордах — хотя именно он определяет реальную цену входного билета.

Перестаньте платить дважды за одну и ту же оценку

Одна из причин, по которой эти числа остаются высокими, состоит в том, что область продолжает повторно запускать одни и те же оценки. Передовая лаборатория платит за прогон HAL, академическая группа платит снова за частичное воспроизведение, аудиторская организация платит в третий раз за интересующие её версии модели, а журналист платит в четвёртый, чтобы выборочно проверить таблицу лидеров.

Большинство этих прогонов охватывают пересекающиеся модели на пересекающихся бенчмарках. Почти ни один из базовых выходных данных на уровне экземпляров не оказывается в месте, где следующая команда могла бы на них опираться, — потому что результаты сообщаются как единственное число точности в PDF, в таблице карточки модели или в записи таблицы лидеров, скрывающей скаффолд, промпт и зерно.

Приведённые выше цифры стоимости велики отчасти потому, что область каждый раз платит в розницу за артефакты, которые остальное сообщество не могло бы повторно использовать, даже если бы захотело.

Стандартизированная документация — самый дешёвый рычаг, доступный здесь, и именно он нужен работе по надёжности в любом случае. Если прогон PaperBench за $9 500 экспортирует полный трейс оценки в общей схеме, следующая группа, изучающая те же статьи, может потратить свой бюджет на новые возмущения вместо повторения базовой линии.

Если многозерновой прогон HAL публикует логи вызовов инструментов по каждой траектории, исследования надёжности агентов смогут отвечать на вопросы, на которые единственное число точности ответить не может. Экономия накапливается: даже двукратная скорость повторного использования на дорогостоящих бенчмарках вернёт в экосистему больше денег, чем все техники сжатия вместе взятые.

Где это нас оставляет

Экономика изменилась. Не так давно обучение было дорогим, а оценка — дешёвой. Для передовых LLM, обученных за $50–100 миллионов, оценка по-прежнему выглядит как погрешность округления, но эта погрешность теперь обходится в десятки тысяч долларов за прогон бенчмарка и нередко оставляет за собой зашумлённые результаты.

Для нейронных операторов, агентов ML-исследований и бенчмарков репликации соотношение перевернулось: достоверная оценка может стоить дороже, чем обучение модели-кандидата.

Мы уже знаем, как сделать статическую оценку дешевле. Flash-HELM, tinyBenchmarks и Anchor Points работают. Оценка агентов имеет лишь частичные решения: фильтрация по средней сложности помогает, таблицы лидеров с фронтом Парето помогают, но инструментарий остаётся скудным.

Оценка с обучением в цикле не имеет общего метода сжатия; табличное предвычисление и жёсткие бюджетные ограничения могут снизить стоимость только за счёт сужения того, что измеряет бенчмарк. Надёжность добавляет ещё один слой, потому что повторные прогоны повышают цену каждого протокола.

Область по-прежнему говорит так, будто возможности задают главное ограничение, но оценка указывает на надёжность как на более жёсткое. Институты управления должны хотеть измерять разрыв между точностью при одном прогоне и согласованностью pass^k, однако именно этот разрыв стоит дороже всего измерить.

Сжатие статических бенчмарков не переносится на агентные бенчмарки или бенчмарки с обучением в цикле, а фильтрация по средней сложности остаётся единственной достоверной частичной заменой. Слепые к стоимости таблицы лидеров теперь вводят в заблуждение по замыслу, потому что поощряют дополнительные расходы, не сообщая, что эти расходы принесли.

На мой взгляд, самое тревожное здесь не техническое: оценка теперь имеет собственные вычислительные бюджеты, статистические методы и режимы отказов, а её цена определяет, кто вообще получает возможность оценивать мощные системы. Тот, кто может заплатить за оценку, получает право писать таблицу лидеров.


Ответы на эти вопросы могут быть для вас полезными

Почему оценка агентов стоит так намного дороже, чем оценка статических LLM?

Статический бенчмарк — это один вызов модели на один вопрос. Агентный прогон — это десятки или сотни вызовов с вызовами инструментов, ветвлением траектории и накоплением токенов на каждом шаге. Дополнительно умножается стоимость скаффолда: небольшие решения по обвязке агента могут увеличить расход токенов в 10 раз при сопоставимой точности.

Что такое фронт Парето в контексте лидербордов и зачем он нужен?

Фронт Парето (Pareto frontier) — это набор конфигураций, у которых нельзя улучшить точность без роста стоимости и наоборот. Лидерборды, публикующие только сырую точность, скрывают, что более дорогой агент может проигрывать более дешёвому по соотношению результат/затраты. HAL реализует Парето-ранжирование; большинство других лидербордов — нет.

Можно ли сжать агентные бенчмарки так же, как статические?

Лишь частично. Для статических бенчмарков сжатие в 100–200 раз сохраняет ранжирование практически без потерь. Для агентных бенчмарков фильтрация по средней сложности даёт сокращение в 2–3,5 раза. Бенчмарки с обучением в цикле — такие как The Well или PaperBench — не имеют общего метода сжатия: каждый прогон требует реального обучения модели.

Почему повторные прогоны так сильно влияют на итоговую стоимость оценки?

Один прогон даёт точечную оценку с высокой дисперсией. Исследования показывают, что производительность агента может упасть с 60% при одном прогоне до 25% при 8-прогонной согласованности. Статистически достоверная оценка в стиле HAL с k = 8 повторными прогонами умножает базовую стоимость в 8 раз — $40 тыс. превращаются в $320 тыс.

Что мешает командам повторно использовать результаты чужих оценок вместо того, чтобы запускать их заново?

Результаты публикуются как единственное число точности в PDF или записи лидерборда, скрывающей скаффолд, промпт и зерно. Без полных трейсов на уровне экземпляров следующая команда не может опереться на чужие данные — только запустить всё заново. Стандартизированная документация прогонов решила бы эту проблему дешевле любой техники сжатия.

Оцените статью
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x