Материал основан на разборе huggingface.co. Ниже — главное и практические шаги, которые можно быстро применить в работе.
Многие ИИ-агенты просто повторяют транскрипты, не усваивая основные принципы, что приводит к постоянным ошибкам и невозможности переноса знаний на новые ситуации. ALTK‑Evolve трансформирует необработанные траектории агентов в многоразовые рекомендации, что в тестах показало значительное улучшение надёжности, особенно при решении сложных многошаговых задач (Δ 14,2% на AppWorld), без увеличения объёма контекста.
- Почему ИИ-агенты не обучаются: проблема «вечного стажёра»
- Что такое долгосрочная память агента и как её реализует ALTK‑Evolve
- Результаты: повышение надёжности, особенно на сложных задачах
- Начало работы: выберите свой путь
- Без кода — с Claude
- Минимум кода — с ReAct-агентом
- Полный код — с CUGA
- Типичные ошибки при внедрении
- Смотрите демо
- Ответы на эти вопросы могут быть для вас полезными
Почему ИИ-агенты не обучаются: проблема «вечного стажёра»
Представьте, что талантливый повар знает наизусть все рецепты, но при этом каждый день забывает о своих привычках и предпочтениях на кухне. Он может не заметить, что духовка иногда перегревается, или не помнить, что постоянным гостям стоит добавить немного соли; он следует рецепту, но теряется, когда чего-то не хватает. Большинство ИИ-агентов в этом плане очень похожи: они следуют инструкциям, но плохо запоминают детали о конкретной среде. Повторный ввод вчерашних логов в консолидированные подсказки лишь ведёт к переосмыслению истории, не помогая делать выводы
Стажёры нуждаются в разных подходах к приготовлению «винегрета» и «утки по-апельсиновому», тогда как опытные повара понимают принцип: «кислота уравновешивает жир», применяя его к разнообразным блюдам. Таким образом, надёжные агенты должны уметь извлекать основные принципы из своего опыта и останавливаться на более общей основе, использующей рекомендации, а не заученные шаблоны действий Это и делает подсистема долгосрочной памяти: она преобразует взаимодействия в потенциальные рекомендации, фильтрует их по релевантности и внедряет только подходящие указания в нужный момент.
Недавние исследования MIT выявили, что 95% пилотных проектов не достигают успеха из-за неспособности агентов адаптироваться и обучаться в процессе работы. ALTK‑Evolve решает эту проблему, используя долгосрочную эпизодическую память, что помогает агентам делать более обоснованные выводы
По этой теме полезно отдельно посмотреть Как я создал безопасные Firebase Cloud Functions с правами администратора и ограничением частоты запросов, чтобы расширить контекст и сравнить подходы.
Что такое долгосрочная память агента и как её реализует ALTK‑Evolve
Evolve — это система памяти для ИИ-агентов, помогающая им улучшаться с течением времени: агент обучается на созданных ранее рекомендациях и использует их в будущих взаимодействиях.
Операционно система работает как непрерывный цикл из двух потоков.
Нисходящий поток — наблюдение и извлечение. Система захватывает полные траектории агентов (высказывания пользователей, мысли, вызовы инструментов, результаты) на уровне взаимодействия — например, через Langfuse или другой инструмент наблюдаемости на основе OpenTelemetry. Подключаемые экстракторы анализируют трассировки на предмет структурных паттернов и сохраняют их как кандидаты на сущности.
Восходящий поток — уточнение и извлечение. Фоновое задание консолидации объединяет дубликаты, удаляет слабые правила и усиливает проверенные стратегии, формируя высококачественную библиотеку сущностей: рекомендаций, политик и стандартных операционных процедур (СОП). Извлечение подтягивает только релевантные элементы через уровень взаимодействия и внедряет их обратно в контекст на уровне приложения.
Этот подход работает по трём ключевым причинам:
- Формирует суждение. Единичные события превращаются в переносимые стратегии, применимые к разным задачам.
- Контролирует шум. Оценка сохраняет память компактной и полезной, а не превращает её в растущий ящик с хламом.
- Прогрессивное раскрытие. Извлечение происходит точно в нужный момент, а не набивает всё в контекст сразу.
Результаты: повышение надёжности, особенно на сложных задачах
Мы оценили фреймворк на AppWorld — бенчмарке, где агенты выполняют реалистичные многошаговые задачи через API (в среднем 9,5 API в 1,8 приложениях), причём сложные случаи требуют более сложного управления потоком. ReAct-агент получал инструкцию к задаче плюс топ-5 извлечённых рекомендаций, сгенерированных в предыдущем запуске (train/dev), и тестировался на невидимом разделе (test-normal). Метрика — Scenario Goal Completion (SGC, показатель завершения цели сценария): строгая метрика согласованности, требующая успеха во всех вариантах.
Вот что показали оценки:
Обобщение. Агент демонстрирует улучшение работы с новыми задачами на тестах, что подтверждает его способность извлекать и осваивать принципы, а не просто запоминать отдельные примеры.
Масштабирование сложности. Чем сложнее задача, тем больше прироста агент получает от лаконично изложенных рекомендаций, ведь сложные задачи показали процент успеха увеличенный на 74% благодаря помощи в управлении сложными потоками.
Согласованность. Прирост SGC значительно превзошёл усреднённые результаты, снижая проявление нестабильного поведения в сценариях. Рекомендации не только улучшают результаты выполнения задач, но и помогают успешно справляться с ними в различных вариантах.
Подробнее об экспериментах — в статье: https://arxiv.org/abs/2603.10600
Начало работы: выберите свой путь
На нашем опыте, выбор пути интеграции сильно зависит от того, насколько вам важна межсессионная память и контроль над стеком. У вас есть несколько вариантов — от полностью бескодового до полного контроля.
Без кода — с Claude
Code, Codex и IBM Bob (режим Lite)
Установите плагин в Claude Code:
claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve-lite@evolve-marketplace
Вот и всё. Плагин извлекает сущности из траекторий и сохраняет их как файлы в файловой системе. Он использует хуки Claude Code для автоматического извлечения
Предпочитаете смотреть, а не читать? Посмотрите краткое пошаговое руководство по Evolve‑Lite для Claude Code (видео): Demo
Режим Lite легко протестировать, но у него есть ограничения: он не извлекает инсайты из разных сессий агента и не выполняет консолидацию и сборку мусора сущностей. Версии с минимальным и полным кодом, описанные ниже, устраняют эти ограничения. Также доступны одношаговые интеграции с Codex и IBM Bob.
Минимум кода — с ReAct-агентом
Добавьте единственный импорт altk_evolve.auto и переключите флаг для отправки трассировок в Arize Phoenix UI. Затем синхронизируйте трассировки для генерации рекомендаций по улучшению — без изменения текущего стека. Это работает с популярными LLM-клиентами и фреймворками агентов: OpenAI, LiteLLM и Hugging Face agents. Вы сохраняете текущий стек и просто получаете видимость
Чтобы увидеть, насколько легко это вписывается в существующие проекты, изучите практические примеры с различными интеграциями фреймворков. Полная информация о конфигурации — в документации по трассировке с минимальным кодом.
Полный код — с CUGA
Я рекомендую этот путь тем, кто хочет максимально плотный цикл обучения с минимальными накладными расходами. ALTK‑Evolve интегрирован непосредственно в CUGA через MCP (Model Context Protocol, протокол контекста модели). Перед каждым запуском вызывается MCP-инструмент get_guidelines для получения задачно-специфических указаний и сокращения метода проб и ошибок. После запуска CUGA отправляет структурированные трассировки выполнения через save_trajectory, чтобы Evolve мог учиться на том, что реально произошло, и улучшать будущие рекомендации. Результат — интеграция, которая становится лучше со временем, оставаясь прозрачной, компонуемой и простой в освоении
Предпочитаете визуальный обзор? Посмотрите пошаговое руководство по интеграции CUGA: видео
Типичные ошибки при внедрении
Мой совет — разобраться с ожиданиями до первого запуска, потому что на практике большинство проблем с ALTK‑Evolve возникают не из-за кода, а из-за неправильного понимания того, как система обучается. Вот на что стоит обратить внимание.
Ожидание мгновенного результата. Система обучается на траекториях — значит, для накопления качественных рекомендаций нужно несколько запусков. Не оценивайте эффект после первого прогона.
Использование режима Lite там, где нужна консолидация. Если агент работает в нескольких сессиях и вам важна межсессионная память, режим Lite не подойдёт. Переходите на версию с минимальным кодом или полную интеграцию через CUGA.
Игнорирование метрики SGC в пользу сырого прохождения. Сырой показатель прохождения может выглядеть хорошо, но скрывать нестабильность в вариантах сценариев. SGC — более честная метрика для оценки реального прогресса агента.
Перегрузка контекста вручную. Одно из ключевых преимуществ Evolve — прогрессивное раскрытие: система сама решает, что релевантно. Если вы вручную добавляете все сохранённые рекомендации в промпт, вы теряете это преимущество и раздуваете контекст
Смотрите демо
Пошаговое руководство по Claude Code (видео): Demo
Пошаговое руководство по OpenAI Codex (видео): Demo
Демонстрационное руководство по IBM Bob (видео): Demo
Пошаговое руководство по интеграции CUGA: видео
Код: https://github.com/AgentToolkit/altk-evolve
Документация: https://agenttoolkit.github.io/altk-evolve
Краткие обучающие руководства: https://agenttoolkit.github.io/altk-evolve/tutorials/
Обратная связь и идеи: откройте задачу на GitHub или присоединитесь к обсуждениям — конкретные варианты использования, тесты и запросы на интеграцию особенно полезны.
Ответы на эти вопросы могут быть для вас полезными
Чем ALTK‑Evolve отличается от простой передачи логов в промпт? Передача логов заставляет агента перечитывать историю, но не обобщать из неё выводы. ALTK‑Evolve извлекает структурные паттерны из траекторий, фильтрует их по качеству и внедряет только релевантные рекомендации — контекст не раздувается, а агент получает принципы, а не транскрипты.
Какой режим интеграции выбрать, если я только начинаю? Начните с режима Lite через Claude Code — установка занимает две команды. Если вам нужна межсессионная память или консолидация сущностей, переходите на версию с минимальным кодом (один импорт altk_evolve.auto) или на полную интеграцию через CUGA.
На каких задачах прирост от ALTK‑Evolve наибольший? На сложных многошаговых задачах с запутанными потоками управления. В тестах на AppWorld сложные задачи показали относительный рост успешности на 74%. На простых задачах прирост тоже есть, но менее выражен.
Как система избегает накопления устаревших или ошибочных рекомендаций? Фоновое задание консолидации объединяет дубликаты, удаляет слабые правила и усиливает проверенные стратегии. Это не пассивное хранилище, а активно управляемая библиотека с оценкой качества каждой сущности.
Работает ли ALTK‑Evolve с моим текущим фреймворком агентов? Версия с минимальным кодом совместима с OpenAI, LiteLLM и Hugging Face agents — вы не меняете стек, а просто добавляете один импорт и получаете видимость через Arize Phoenix UI.



