Сегодня разбираем материал huggingface.co о теме «Falcon Perception: модель открытого словаря для граундинга и OCR». Материал полезен тем, кто хочет быстро понять суть темы и перевести идеи в прикладные действия.
Трансформер с 0,6 млрд параметров и ранним слиянием (early fusion) предназначен для открытого словаря граундинга (open-vocabulary grounding) и сегментации по подсказкам на естественном языке. Модель обрабатывает патчи изображений и текст в одной последовательности, используя гибридную маску внимания, что обеспечивает гибкость в выходных данных через уникальный токен-интерфейс и облегчённые выходные головы. На SA-Co Falcon Perception демонстрирует результат 68,0 Macro-F1, обгоняя SAM 3, который фиксирует 62,3; остающийся разрыв в производительности связан с проблемами калибровки присутствия (MCC 0,64 против 0,82).
Мы также выпускаем Falcon OCR — модель с 0,3 млрд параметров, которая достигает оценки 80,3 и 88,6 на бенчмарках olmOCR и OmniDocBench соответственно, при этом обладая наибольшей пропускной способностью среди всех OCR-моделей с открытым исходным кодом.
Этот пост — краткое практическое описание того, что мы построили, почему мы построили это именно так и что мы узнали в процессе.
- Проблема: почему системы восприятия превращаются в конвейеры?
- Архитектура: раннее слияние, гибридное внимание и эффективный плотный интерфейс
- Один бэкбон, два поведения
- Chain-of-Perception: обучение от грубого к точному для плотных выходов
- Специализированные головы, минимальные накладные расходы
- PBench: бенчмарк, разработанный для выявления недостающего
- Обучение: дистилляция, крупномасштабные данные и трёхэтапный рецепт
- Мультиучительская дистилляция
- Данные: 54 млн изображений, 195 млн положительных выражений, 488 млн жёстких негативов
- Три этапа (700 GT суммарно)
- Результаты
- SA-Co: лучшее в классе качество масок
- PBench: масштабирование со сложностью запроса
- Качественные примеры
- Falcon OCR: расширение раннего слияния для понимания документов
- Обучение
- Результаты на бенчмарках
- Пропускная способность при инференсе
- Что мы видим в результатах
- Качественные примеры
- Инференс: быстрый, практичный и открытый
- Движок инференса с постраничной разбивкой (Paged Inference Engine)
- Интеграция Docker и MLX для Falcon OCR
- Общая картина: «горький урок» для восприятия
- Цитирование
- Ответы на эти вопросы могут быть для вас полезными
Проблема: почему системы восприятия превращаются в конвейеры?
Современные системы восприятия с открытым словарём часто организованы как модульные конвейеры: визуальный бэкбон (backbone) извлекает признаки, а затем отдельные этапы слияния и декодирования обрабатывают языковые данные. Хотя такие архитектуры обычно эффективны, они имеют недостатки: сложность масштабирования, трудности в идентификации узких мест в производительности и рост сложности по мере интеграции новых компонентов.
Мы изучили, возможно ли использовать единый Трансформер-бэкбон с ранним слиянием для выполнения как задач восприятия, так и языкового моделирования, при условии выбора оптимального паттерна внимания, интерфейса и обучающего сигнала.
Результаты наших экспериментов подтверждают, что такой подход действительно эффективен. Остальная часть этого поста описывает ключевые архитектурные решения и доказательства, лежащие в их основе.
По этой теме полезно отдельно посмотреть Составьте еженедельное расписание занятий, чтобы расширить контекст и сравнить подходы.
По этой теме полезно отдельно посмотреть Аннотации типов для декораторов в Python, чтобы расширить контекст и сравнить подходы.
Архитектура: раннее слияние, гибридное внимание и эффективный плотный интерфейс
Единый авторегрессионный Трансформер обрабатывает унифицированную последовательность патчей изображений, текста и токенов задач. Модель предсказывает свойства объектов в фиксированном порядке: <coord> → <size> → <seg>. Координаты ограничивающего прямоугольника и размеры декодируются через специализированные головы и повторно вводятся в последовательность как признаки Фурье. Маски сегментации высокого разрешения генерируются путём скалярного произведения токена <seg> и увеличенных признаков изображения.
Один бэкбон, два поведения
В своей основе Falcon Perception — это плотный Трансформер, который обрабатывает патчи изображений и текстовые токены в общем пространстве параметров с первого слоя. Вместо отдельного визуального бэкбона с последующим декодером позднего слияния мы сохраняем единый бэкбон и полагаемся на маскирование и лёгкий выходной интерфейс, чтобы сделать задачу плотного предсказания управляемой.
Изображения и текст имеют разную структуру: пиксели двумерны и выигрывают от двунаправленного контекста, тогда как интерфейс предсказания по своей природе последовательный. Мы решаем это с помощью гибридной маски внимания:
- Токены изображений обращают внимание на все остальные токены изображений двунаправленно, формируя глобальный визуальный контекст — так, как это делал бы визуальный энкодер.
- Текстовые токены и токены задач обращают внимание причинно на всё, что предшествует им: полный визуальный префикс плюс предшествующий текст.
Это позволяет одному и тому же бэкбону вести себя как двунаправленный визуальный энкодер на токенах изображений, при этом по-прежнему поддерживая авторегрессионное предсказание токенов задач.
Chain-of-Perception: обучение от грубого к точному для плотных выходов
Плотное восприятие — это не задача предсказания фиксированного размера: изображение может содержать ноль экземпляров или сотни. Авторегрессионная генерация даёт чистый интерфейс переменной длины, но полностью авторегрессионная плотная генерация — например, полигоны или маски высокого разрешения токен за токеном — быстро становится дорогостоящей.
Мы используем небольшой структурированный интерфейс Chain-of-Perception, который разбивает каждый экземпляр на три шага:
- Токен координаты: модель сначала предсказывает центр экземпляра, разрешая вопрос о том, о каком объекте идёт речь.
- Токен размера: затем пространственный охват — разрешая вопрос о том, насколько он велик.
- Токен сегментации: наконец, единственный эмбеддинг, который при скалярном произведении с увеличенными признаками изображения производит бинарную маску полного разрешения.
Этот порядок намеренный. Фиксация геометрии первой снижает неоднозначность («какой экземпляр?») и делает шаг предсказания маски ближе к уточнению пикселей, обусловленному разрешённым объектом.
Специализированные головы, минимальные накладные расходы
Бэкбон является общим, тогда как декодирование использует лёгкие головы, адаптированные к типу выхода.
Головы координат и размера используют кодирование признаками Фурье: отображение непрерывных координат через случайную гауссовскую проекцию в высокоразмерное синусоидальное пространство. Это преодолевает спектральное смещение нейронных сетей, обеспечивая более точную локализацию, чем одно лишь дискретное разбиение на бины. Декодированные координаты повторно вводятся в последовательность в качестве обусловливания для последующих токенов.
Голова сегментации вычисляет скалярное произведение скрытого состояния токена <seg> и контентно-осведомлённых увеличенных признаков изображения. Поскольку токен <seg> производится после геометрии и имеет доступ к визуальному контексту раннего слияния, мы можем избежать отдельного механизма запросов масок и венгерского сопоставления, которые часто появляются при обучении сегментации экземпляров на основе декодера.
PBench: бенчмарк, разработанный для выявления недостающего
Существующие бенчмарки ссылочных выражений, такие как RefCOCO, насыщены — модели регулярно достигают 90%+ — и они смешивают то, что пошло не так. Модель не справилась потому, что не может читать текст? Не может понять пространственные отношения? Не может справиться с толпой?
Мы представляем PBench — диагностический бенчмарк, который разделяет образцы по доминирующей требуемой возможности. Каждый образец нацелен на одну доминирующую возможность: подсказки OCR избегают пространственных квалификаторов, а пространственные подсказки избегают устранителей неоднозначности на основе текста в изображении. Это даёт профиль возможностей, а не единую непрозрачную оценку, и облегчает принятие решения о том, куда инвестировать дальше — в данные, учебный план или постобучение.
Обучение: дистилляция, крупномасштабные данные и трёхэтапный рецепт
Мультиучительская дистилляция
Вместо обучения со случайных весов — которое в наших аблациях оказалось нестабильным для сегментации — Falcon Perception инициализируется через мультиучительскую дистилляцию. Два сильных визуальных учителя вносят взаимодополняющие сигналы:
- DINOv3 (ViT-H): сильные локальные признаки, критически важные для сегментации.
- SigLIP2: языково-выровненные признаки для понимания открытого словаря.
Дистиллированная инициализация достигает 74,25% zero-shot точности на ImageNet-1k и 85,11% linear-probe mIoU на Pascal VOC, обеспечивая прочную визуальную основу до начала обучения, специфичного для восприятия.
Данные: 54 млн изображений, 195 млн положительных выражений, 488 млн жёстких негативов
Мы формируем обучающий набор через многоэтапный конвейер:
- Иерархическая кластеризация изображений, собранных из интернета, с помощью эмбеддингов DINOv3 для обеспечения равномерного охвата концептов.
- VLM-управляемое перечисление генерирует плотные описания объектов для каждого изображения, категоризированные по уровню сложности PBench (60% базовых, 40% продвинутых).
- Майнинг негативов производит семантические, визуальные и мелкозернистые жёсткие негативы для борьбы с галлюцинациями.
- Консенсус ансамбля — SAM 3, Qwen3-VL-30B и Moondream3 должны согласиться (IoU > 0,8) для автоматического принятия.
- Верификация человеком — разногласия передаются аннотаторам, что позволяет восстанавливать сложные примеры, вызывающие затруднения у автоматизированных систем.
Мы поддерживаем строгое соотношение 1:1 положительных и отрицательных примеров. Это делает калибровку присутствия целью первого класса: модель должна надёжно говорить «отсутствует», а не только рисовать маски, когда уверена.
Три этапа (700 GT суммарно)
Этап 1 — Контекстное перечисление (450 GT). Модель учится авторегрессивно перечислять инвентари сцен — предсказывая текстовые выражения и их местоположения. Полное причинное внимание между запросами позволяет обучаться совместной встречаемости объектов («вилка, затем нож, затем тарелка»). Это формирует широкое понимание сцены.
Этап 2 — Выравнивание задачи (225 GT). Маска внимания модифицируется так, чтобы запросы больше не могли видеть друг друга, имитируя независимые запросы во время инференса. Потери на текстовых токенах маскируются, направляя градиентный сигнал исключительно на классификацию присутствия и локализацию. Этот этап осуществляет переход от «понимания сцены» к «ответу на конкретный вопрос».
Этап 3 — Дообучение на длинном контексте (10 GT). Короткая фаза с увеличенным лимитом масок до 600 на выражение и минимальной постоянной скоростью обучения. Это адаптирует модель к экстремальной плотности толпы без забывания ранее приобретённых возможностей.
Ключевые проектные решения, подтверждённые аблациями:
- Оптимизатор Muon для специализированных голов в сравнении с AdamW — даёт +4,8 пункта на обнаружении SA-Co.
- Растровый порядок экземпляров в сравнении со случайным или по размеру — +10 пунктов над случайным порядком на SA-Co.
- Регуляризация признаков Gram — предотвращает дрейф от признаков дистилляции, улучшая сегментацию на +1,5 пункта.
- Глобальная нормализация потерь по рангам — исправляет смещение от последовательностей переменной длины в упакованных последовательностях FSDP.
Результаты
SA-Co: лучшее в классе качество масок
На бенчмарке открытой словарной сегментации SA-Co Falcon Perception (0,6 млрд параметров) достигает 68,0 Macro-F1 по сравнению с 62,3 у SAM 3, с большими приростами на разбивках с насыщенными атрибутами (+8,2), едой и напитками (+12,2) и спортивным инвентарём (+4,0). В то же время Falcon Perception уступает SAM 3 по калибровке присутствия (MCC: 0,64 против 0,82) — это наиболее очевидная ось для дальнейшего улучшения.
Falcon Perception также хорошо справляется с задачами ссылочных выражений и способен корректно сегментировать бургер с чёрной булочкой в каждом кадре видео.
PBench: масштабирование со сложностью запроса
Именно здесь дизайн с ранним слиянием демонстрирует наибольшие различия. На простых объектах разрыв невелик. По мере того как запросы становятся более композиционными — требуя OCR-управляемого устранения неоднозначности, пространственных ограничений или реляционного связывания — разрыв увеличивается.
В разбиении PBench Dense Falcon Perception (0,6 млрд) существенно превосходит базовые линии обобщённых VLM (например, 72,6 против 8,9 для Qwen3-VL-30B в нашей конфигурации оценки) и соответствует или превосходит модель 8B на пространственных и реляционных уровнях.
Качественные примеры
По мере того как запросы становятся более композиционными — требуя OCR-управляемого устранения неоднозначности, пространственных ограничений, реляционного связывания или масштабирования до сотен экземпляров — преимущество раннего слияния становится визуально очевидным.
OCR-управляемый граундинг (Уровень 2). Когда различающий сигнал — это текст, написанный на объекте, Falcon Perception читает его правильно, тогда как SAM 3 не может дифференцировать.
Пространственное понимание (Уровень 3). Когда запросы задают пространственные отношения, Falcon Perception формирует связную двумерную карту сцены.
Реляционное рассуждение (Уровень 4). Когда цель определяется через взаимодействия, а не внешний вид, Falcon Perception понимает граф сцены.
Плотные сцены: масштабирование до сотен экземпляров. Авторегрессивный интерфейс особенно полезен, когда сцены чрезвычайно переполнены, — там, где декодеры с фиксированными запросами сталкиваются с практическими ограничениями.
Несколько конкретных примеров из наших тестов:
- «168 бутылок вина»: Falcon Perception идентифицирует бутылки с маркировкой «168», тогда как SAM 3 выделяет каждую бутылку.
- «Указатель направления на Гонолулу»: Falcon читает текст, чтобы найти нужный знак.
- «Нижний мясной шампур на левом гриле», «чёрная машина справа от красной машины внизу», «бельгийский флаг слева» — Falcon Perception определяет правильный экземпляр из пространственных ограничений; SAM 3 предсказывает ложноположительные результаты для нескольких кандидатов.
- «Выпечка рядом с круглым коричневым хлебом», «человек, использующий телефон», «человек, держащий шлем в руке» — Falcon Perception идентифицирует взаимодействующий экземпляр; SAM 3 выделяет все экземпляры класса объектов, игнорируя реляционное ограничение.
- «Снежный гусь», «голубь», «разноцветные консервированные напитки» — Falcon Perception авторегрессивно сегментирует сотни экземпляров; декодер SAM 3 с фиксированным размером исчерпывает токены запросов за пределами ~200 экземпляров.
Falcon OCR: расширение раннего слияния для понимания документов
Современное OCR вышло далеко за рамки извлечения текста из чистых сканов. Сегодняшние системы должны справляться с многоколоночными макетами, математическими формулами, таблицами, диаграммами и многоязычным контентом — и всё это за один проход. Большинство конкурентоспособных OCR VLM решают эту задачу по знакомой схеме: визуальный энкодер передаёт данные отдельному текстовому декодеру плюс специализированный связующий слой. Такие системы работают, но, как правило, они большие — от 1B до 3B+ параметров.
Мы пошли другим путём: повторно использовали тот же Трансформер с ранним слиянием и плотной архитектурой из Falcon Perception, но обучили меньший вариант с 0,3B параметрами с нуля специально для OCR. Результатом стал Falcon OCR — единый бэкбон, который обрабатывает патчи изображений и текстовые токены в общем пространстве параметров с той же гибридной маской внимания: двунаправленной для токенов изображений, причинно-следственной для текстовых токенов. Переключение между задачами происходит через промпты, а не через дополнительные модули.
Мы обучали с нуля — без мультиучительской дистилляции — потому что визуальные признаки, необходимые для OCR (тонкое распознавание глифов, различение на уровне штрихов), существенно отличаются от признаков уровня объектов, полезных для сегментации. Начало с чистого листа позволяет бэкбону развивать оптимизированные для текста представления с самого начала.
Обучение
Мы обучаем на тщательно отобранной англоязычной смеси, охватывающей три основные задачи: разбор текста общих документов (цифровые PDF, старые сканы, машинописные документы), распознавание математических и научных формул, а также распознавание структуры таблиц. Смесь также включает рукописный текст, текст из реальных сцен и синтетические образцы, сгенерированные из отрендеренных источников LaTeX и HTML. Цель обучения — чистое предсказание следующего токена на структурированных текстовых выходах.
Обучение проходит в два этапа: длинная фаза предобучения с постоянной скоростью обучения, где модель осваивает базовые возможности OCR для всех типов элементов, за которой следует короткая фаза дообучения с косинусным затуханием, где скорость обучения снижается почти до нуля.
Результаты на бенчмарках
Мы проводим оценку на olmOCR (бинарные проверки корректности на разнообразных входных данных) и OmniDocBench (непрерывные метрики по полностраничным разборам). Все сравниваемые модели значительно крупнее и/или используют проприетарную инфраструктуру.
Набрав 80,3% на olmOCR при всего лишь 0,3B параметрах, Falcon OCR отстаёт от лучшей системы лишь на 1,7 пункта и лидирует среди всех моделей по показателям Multi-Column (87,1%) и Tables (90,3%). На OmniDocBench он набирает 88,64 в общем зачёте, опережая DeepSeek OCR v2, GPT 5.2 и Mistral OCR 3.
Пропускная способность при инференсе
При 0,3B параметрах Falcon OCR примерно в 3 раза меньше OCR VLM класса 0,9B, что напрямую выражается в более высокой пропускной способности при инференсе. Измерено на одном A100-80GB с vLLM при высокой конкурентности.
Компактный размер и интеграция с vLLM — непрерывное батчирование, PagedAttention, оптимизированные CUDA-ядра — делают его практичным для крупномасштабной оцифровки документов, где требуется обработка миллионов страниц.
Что мы видим в результатах
В более широком смысле эти результаты свидетельствуют о том, что Трансформер с ранним слиянием и единым стеком является жизнеспособной альтернативой схеме «визуальный энкодер плюс текстовый декодер» для OCR. Один бэкбон, общее пространство параметров, единый интерфейс декодирования — и лучшие данные и обучающие сигналы вместо всё более сложных пайплайнов. Мы надеемся, что это стимулирует дальнейшие исследования в этом направлении.
Качественные примеры
Falcon OCR обрабатывает изображения, снятые в сложных реальных условиях с переменным освещением, разнообразной текстовой семантикой (математические формулы, структурированные таблицы, рукописные заметки) и сложными макетами документов, чтобы получить структурированный текстовый вывод.
Falcon OCR извлекает текст из рукописных документов и реальных фотографий с переменным освещением, ориентацией и сложностью содержимого. Модель точно воспроизводит содержимое ячеек и структурный макет из таблиц различных форматов и сложности, корректно транскрибирует математические выражения — от простых уравнений до многострочных выводов с вложенными операторами — и сохраняет порядок чтения и структурную точность при извлечении текста из документов с многоколоночными макетами, рисунками и сносками.
Инференс: быстрый, практичный и открытый
Релиз включает стек инференса, построенный на FlexAttention из PyTorch, что делает практичным выражение пользовательских паттернов внимания и эффективное обслуживание упакованных последовательностей переменной длины.
Движок инференса с постраничной разбивкой (Paged Inference Engine)
- Постраничный KV-кэш с виртуальными таблицами страниц — без потери памяти из-за паддинга.
- Непрерывное батчирование: новые последовательности входят в середине генерации, завершённые немедленно освобождают страницы.
- Захват CUDA-графа для цикла декодирования.
- Фоновая токенизация, совмещённая с вычислениями на GPU.
- HR feature cache: LRU-кэш с буферами в закреплённой памяти для асинхронной передачи апсемплированных признаков изображений между GPU и CPU — последующие запросы к одному и тому же изображению пропускают дорогостоящий шаг апсемплинга.
В нашей конфигурации на H100 типичные задержки составляют порядка ~100 мс для префилла, ~200 мс для апсемплинга (0 мс при наличии кэша) и ~50 мс для декодирования для нескольких экземпляров. Эти цифры зависят от разрешения, длины последовательности и количества предсказанных экземпляров.
Интеграция Docker и MLX для Falcon OCR
Для модели Falcon OCR мы также предоставляем vLLM docker-сервер для быстрого развёртывания и интеграцию MLX для Apple Silicon. Подробности смотрите в репозитории на GitHub.
Общая картина: «горький урок» для восприятия
Falcon Perception намеренно минималистичен: один бэкбон, одно семейство целевых функций и небольшие головы только там, где выходы непрерывны и плотны. Рабочее предположение состоит в том, что большинство улучшений должны приходить от данных, вычислений и обучающих сигналов, а не от постоянного расширения пайплайна специализированными модулями.
Архитектура не блокирует ни один очевидный путь масштабирования: добавьте больше изображений и более сложные промпты для лучшего граундинга, смешайте текстовые данные для улучшения языковых возможностей, увеличьте длину контекста для более плотных сцен. Это по-прежнему просто одна последовательностная модель.
Falcon Perception разработан командой Falcon Vision Team в Technology Innovation Institute (TII), Абу-Даби, ОАЭ.
Цитирование
Если вы используете Falcon Perception, пожалуйста, процитируйте соответствующую работу.
Ответы на эти вопросы могут быть для вас полезными
В чём принципиальное отличие Falcon Perception от модульных конвейеров восприятия?
Falcon Perception использует единый Трансформер-бэкбон с ранним слиянием, который обрабатывает патчи изображений и текст в одной последовательности с первого слоя. Модульные конвейеры разделяют визуальный энкодер и языковой декодер, что усложняет масштабирование и атрибуцию улучшений.
Что такое Chain-of-Perception и зачем нужен именно такой порядок токенов?
Chain-of-Perception — структурированный интерфейс, который разбивает каждый экземпляр на три шага: <coord> → <size> → <seg>. Порядок намеренный: фиксация геометрии первой снижает неоднозначность и делает шаг предсказания маски ближе к уточнению пикселей, обусловленному уже разрешённым объектом.
Почему Falcon OCR обучался с нуля, а не через дистилляцию учителей?
Визуальные признаки, необходимые для OCR — тонкое распознавание глифов, различение на уровне штрихов — существенно отличаются от признаков уровня объектов, полезных для сегментации. Начало с чистого листа позволяет бэкбону развивать оптимизированные для текста представления без влияния несовместимых предобученных признаков.
Как PBench отличается от стандартных бенчмарков вроде RefCOCO?
RefCOCO и аналогичные бенчмарки насыщены — модели регулярно достигают 90%+ — и не разделяют причины ошибок. PBench изолирует каждый образец по доминирующей требуемой возможности: OCR, пространственные отношения, реляционное рассуждение, плотные сцены. Это даёт профиль возможностей, а не единую непрозрачную оценку.
Каковы практические ограничения Falcon Perception на текущем этапе?
Основной известный разрыв — калибровка присутствия: MCC 0,64 против 0,82 у SAM 3. Модель уступает конкуренту в надёжности ответа «объект отсутствует», что является приоритетной осью для дальнейшего улучшения через данные и обучающий сигнал.


