Долгосрочная память ИИ-агентов: обучение с ALTK-Evolve

Материал основан на разборе huggingface.co. Ниже — главное и практические шаги, которые можно быстро применить в работе.


Многие ИИ-агенты просто повторяют транскрипты, не усваивая основные принципы, что приводит к постоянным ошибкам и невозможности переноса знаний на новые ситуации. ALTK‑Evolve трансформирует необработанные траектории агентов в многоразовые рекомендации, что в тестах показало значительное улучшение надёжности, особенно при решении сложных многошаговых задач (Δ 14,2% на AppWorld), без увеличения объёма контекста.

Почему ИИ-агенты не обучаются: проблема «вечного стажёра»

Представьте, что талантливый повар знает наизусть все рецепты, но при этом каждый день забывает о своих привычках и предпочтениях на кухне. Он может не заметить, что духовка иногда перегревается, или не помнить, что постоянным гостям стоит добавить немного соли; он следует рецепту, но теряется, когда чего-то не хватает. Большинство ИИ-агентов в этом плане очень похожи: они следуют инструкциям, но плохо запоминают детали о конкретной среде. Повторный ввод вчерашних логов в консолидированные подсказки лишь ведёт к переосмыслению истории, не помогая делать выводы

Стажёры нуждаются в разных подходах к приготовлению «винегрета» и «утки по-апельсиновому», тогда как опытные повара понимают принцип: «кислота уравновешивает жир», применяя его к разнообразным блюдам. Таким образом, надёжные агенты должны уметь извлекать основные принципы из своего опыта и останавливаться на более общей основе, использующей рекомендации, а не заученные шаблоны действий Это и делает подсистема долгосрочной памяти: она преобразует взаимодействия в потенциальные рекомендации, фильтрует их по релевантности и внедряет только подходящие указания в нужный момент.

Недавние исследования MIT выявили, что 95% пилотных проектов не достигают успеха из-за неспособности агентов адаптироваться и обучаться в процессе работы. ALTK‑Evolve решает эту проблему, используя долгосрочную эпизодическую память, что помогает агентам делать более обоснованные выводы

По этой теме полезно отдельно посмотреть Как я создал безопасные Firebase Cloud Functions с правами администратора и ограничением частоты запросов, чтобы расширить контекст и сравнить подходы.

Что такое долгосрочная память агента и как её реализует ALTK‑Evolve

Evolve — это система памяти для ИИ-агентов, помогающая им улучшаться с течением времени: агент обучается на созданных ранее рекомендациях и использует их в будущих взаимодействиях.

Операционно система работает как непрерывный цикл из двух потоков.

Нисходящий поток — наблюдение и извлечение. Система захватывает полные траектории агентов (высказывания пользователей, мысли, вызовы инструментов, результаты) на уровне взаимодействия — например, через Langfuse или другой инструмент наблюдаемости на основе OpenTelemetry. Подключаемые экстракторы анализируют трассировки на предмет структурных паттернов и сохраняют их как кандидаты на сущности.

Восходящий поток — уточнение и извлечение. Фоновое задание консолидации объединяет дубликаты, удаляет слабые правила и усиливает проверенные стратегии, формируя высококачественную библиотеку сущностей: рекомендаций, политик и стандартных операционных процедур (СОП). Извлечение подтягивает только релевантные элементы через уровень взаимодействия и внедряет их обратно в контекст на уровне приложения.

Этот подход работает по трём ключевым причинам:

  • Формирует суждение. Единичные события превращаются в переносимые стратегии, применимые к разным задачам.
  • Контролирует шум. Оценка сохраняет память компактной и полезной, а не превращает её в растущий ящик с хламом.
  • Прогрессивное раскрытие. Извлечение происходит точно в нужный момент, а не набивает всё в контекст сразу.

Результаты: повышение надёжности, особенно на сложных задачах

Мы оценили фреймворк на AppWorld — бенчмарке, где агенты выполняют реалистичные многошаговые задачи через API (в среднем 9,5 API в 1,8 приложениях), причём сложные случаи требуют более сложного управления потоком. ReAct-агент получал инструкцию к задаче плюс топ-5 извлечённых рекомендаций, сгенерированных в предыдущем запуске (train/dev), и тестировался на невидимом разделе (test-normal). Метрика — Scenario Goal Completion (SGC, показатель завершения цели сценария): строгая метрика согласованности, требующая успеха во всех вариантах.

Вот что показали оценки:

Обобщение. Агент демонстрирует улучшение работы с новыми задачами на тестах, что подтверждает его способность извлекать и осваивать принципы, а не просто запоминать отдельные примеры.

Масштабирование сложности. Чем сложнее задача, тем больше прироста агент получает от лаконично изложенных рекомендаций, ведь сложные задачи показали процент успеха увеличенный на 74% благодаря помощи в управлении сложными потоками.

Согласованность. Прирост SGC значительно превзошёл усреднённые результаты, снижая проявление нестабильного поведения в сценариях. Рекомендации не только улучшают результаты выполнения задач, но и помогают успешно справляться с ними в различных вариантах.

Подробнее об экспериментах — в статье: https://arxiv.org/abs/2603.10600

Начало работы: выберите свой путь

На нашем опыте, выбор пути интеграции сильно зависит от того, насколько вам важна межсессионная память и контроль над стеком. У вас есть несколько вариантов — от полностью бескодового до полного контроля.

Без кода — с Claude

Code, Codex и IBM Bob (режим Lite)

Установите плагин в Claude Code:

claude plugin marketplace add AgentToolkit/altk-evolve
claude plugin install evolve-lite@evolve-marketplace

Вот и всё. Плагин извлекает сущности из траекторий и сохраняет их как файлы в файловой системе. Он использует хуки Claude Code для автоматического извлечения

Предпочитаете смотреть, а не читать? Посмотрите краткое пошаговое руководство по Evolve‑Lite для Claude Code (видео): Demo

Режим Lite легко протестировать, но у него есть ограничения: он не извлекает инсайты из разных сессий агента и не выполняет консолидацию и сборку мусора сущностей. Версии с минимальным и полным кодом, описанные ниже, устраняют эти ограничения. Также доступны одношаговые интеграции с Codex и IBM Bob.

Минимум кода — с ReAct-агентом

Добавьте единственный импорт altk_evolve.auto и переключите флаг для отправки трассировок в Arize Phoenix UI. Затем синхронизируйте трассировки для генерации рекомендаций по улучшению — без изменения текущего стека. Это работает с популярными LLM-клиентами и фреймворками агентов: OpenAI, LiteLLM и Hugging Face agents. Вы сохраняете текущий стек и просто получаете видимость

Чтобы увидеть, насколько легко это вписывается в существующие проекты, изучите практические примеры с различными интеграциями фреймворков. Полная информация о конфигурации — в документации по трассировке с минимальным кодом.

Полный код — с CUGA

Я рекомендую этот путь тем, кто хочет максимально плотный цикл обучения с минимальными накладными расходами. ALTK‑Evolve интегрирован непосредственно в CUGA через MCP (Model Context Protocol, протокол контекста модели). Перед каждым запуском вызывается MCP-инструмент get_guidelines для получения задачно-специфических указаний и сокращения метода проб и ошибок. После запуска CUGA отправляет структурированные трассировки выполнения через save_trajectory, чтобы Evolve мог учиться на том, что реально произошло, и улучшать будущие рекомендации. Результат — интеграция, которая становится лучше со временем, оставаясь прозрачной, компонуемой и простой в освоении

Предпочитаете визуальный обзор? Посмотрите пошаговое руководство по интеграции CUGA: видео

Типичные ошибки при внедрении

Мой совет — разобраться с ожиданиями до первого запуска, потому что на практике большинство проблем с ALTK‑Evolve возникают не из-за кода, а из-за неправильного понимания того, как система обучается. Вот на что стоит обратить внимание.

Ожидание мгновенного результата. Система обучается на траекториях — значит, для накопления качественных рекомендаций нужно несколько запусков. Не оценивайте эффект после первого прогона.

Использование режима Lite там, где нужна консолидация. Если агент работает в нескольких сессиях и вам важна межсессионная память, режим Lite не подойдёт. Переходите на версию с минимальным кодом или полную интеграцию через CUGA.

Игнорирование метрики SGC в пользу сырого прохождения. Сырой показатель прохождения может выглядеть хорошо, но скрывать нестабильность в вариантах сценариев. SGC — более честная метрика для оценки реального прогресса агента.

Перегрузка контекста вручную. Одно из ключевых преимуществ Evolve — прогрессивное раскрытие: система сама решает, что релевантно. Если вы вручную добавляете все сохранённые рекомендации в промпт, вы теряете это преимущество и раздуваете контекст

Смотрите демо

Пошаговое руководство по Claude Code (видео): Demo

Пошаговое руководство по OpenAI Codex (видео): Demo

Демонстрационное руководство по IBM Bob (видео): Demo

Пошаговое руководство по интеграции CUGA: видео


Код: https://github.com/AgentToolkit/altk-evolve

Документация: https://agenttoolkit.github.io/altk-evolve

Краткие обучающие руководства: https://agenttoolkit.github.io/altk-evolve/tutorials/

Обратная связь и идеи: откройте задачу на GitHub или присоединитесь к обсуждениям — конкретные варианты использования, тесты и запросы на интеграцию особенно полезны.

Ответы на эти вопросы могут быть для вас полезными

Чем ALTK‑Evolve отличается от простой передачи логов в промпт? Передача логов заставляет агента перечитывать историю, но не обобщать из неё выводы. ALTK‑Evolve извлекает структурные паттерны из траекторий, фильтрует их по качеству и внедряет только релевантные рекомендации — контекст не раздувается, а агент получает принципы, а не транскрипты.

Какой режим интеграции выбрать, если я только начинаю? Начните с режима Lite через Claude Code — установка занимает две команды. Если вам нужна межсессионная память или консолидация сущностей, переходите на версию с минимальным кодом (один импорт altk_evolve.auto) или на полную интеграцию через CUGA.

На каких задачах прирост от ALTK‑Evolve наибольший? На сложных многошаговых задачах с запутанными потоками управления. В тестах на AppWorld сложные задачи показали относительный рост успешности на 74%. На простых задачах прирост тоже есть, но менее выражен.

Как система избегает накопления устаревших или ошибочных рекомендаций? Фоновое задание консолидации объединяет дубликаты, удаляет слабые правила и усиливает проверенные стратегии. Это не пассивное хранилище, а активно управляемая библиотека с оценкой качества каждой сущности.

Работает ли ALTK‑Evolve с моим текущим фреймворком агентов? Версия с минимальным кодом совместима с OpenAI, LiteLLM и Hugging Face agents — вы не меняете стек, а просто добавляете один импорт и получаете видимость через Arize Phoenix UI.

Оцените статью
0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x