Материал основан на разборе huggingface.co. Ниже — главное и выводы, которые стоит учитывать в SEO и маркетинге.
Статья охватывает изменения в открытом ИИ за прошедший год, включая конкуренцию, географические аспекты, технические тенденции и формирующиеся сообщества, анализируя активность на платформе Hugging Face через различные метрики.
Материал опирается на анализ середины 2025 года, который уже фиксировал развитие сообщества Hugging Face. Этот разбор продолжает ту же линию и показывает, как экосистема открытого ИИ изменилась за следующий год.
За последний год активность в экосистеме открытого ИИ значительно возросла: количество пользователей, репозиториев моделей и наборов данных почти удвоилось. В 2025 году Hugging Face насчитывал 13 миллионов пользователей, более 2 миллионов публичных моделей и свыше 500 000 публичных датасетов. Этот рост говорит не только о возросшем интересе к открытому коду, но и о смене фокуса на активное участие: пользователи всё чаще создают производные артефакты, такие как дообученные модели, адаптеры, бенчмарки и приложения.
Экосистема характеризуется высокой концентрацией, где приблизительно половина моделей на Hugging Face имеет менее 200 загрузок.
Вокруг определённых доменов, языков и проблем образуются специализированные сообщества, которые проявляют стабильную вовлечённость, даже несмотря на низкие показатели загрузок.
- Hugging Face и конкуренция: кто строит на открытом ИИ
- География открытого исходного кода
- Страны, организации и индивидуальные пользователи
- США и Китай: динамика противостояния
- Открытый исходный код и технологический суверенитет
- Самые популярные модели на Hugging Face Hub
- Статьи и научные вклады
- Производные модели
- Hugging Face Inference API: доступность и деплой моделей
- Вычислительные ресурсы, оборудование и открытый исходный код
- Субсообщества: робототехника
- Субсообщества: ИИ для науки
- Типичные ошибки при работе с открытыми моделями
- Взгляд в будущее
- Ответы на эти вопросы могут быть для вас полезными
Hugging Face и конкуренция: кто строит на открытом ИИ
Всё больше компаний — как крупных, так и небольших — строят свои продукты на основе открытого исходного кода. Более 30% компаний из списка Fortune 500 теперь имеют верифицированные аккаунты на Hugging Face. Стартапы часто используют открытые модели в качестве компонентов по умолчанию: Thinking Machines построила свои модельные опции Tinker целиком на открытых весах, а популярные IDE (интегрированные среды разработки), такие как VSCode и Cursor, поддерживают как открытые, так и закрытые модели. Устоявшиеся американские компании, такие как Airbnb, усилили своё взаимодействие с открытой экосистемой, а Hugging Face наблюдал, как всё больше традиционных компаний обновляли свои организационные подписки на протяжении 2025 года.
Компании Big Tech активно создают новые репозитории на Hugging Face Hub; при сравнении бок о бок заметный рост числа репозиториев демонстрирует инвестиции с течением времени. NVIDIA выдвинулась как наиболее активный участник.
Исследования показывают, что открытые артефакты работают с высокой отдачей для пользователей, превышающей затраты на их создание.
Если вы смотрите на лидеров Hugging Face Hub, полезно отдельно разобрать Mixture of Experts в AI-моделях. Это помогает понять, почему часть open-weight систем масштабируется иначе, чем классические dense-модели.
Экосистема Hugging Face важна не только для LLM. Если у вас retrieval-задачи и поиск по данным, посмотрите разбор мультимодальных эмбеддингов и реранкеров в Sentence Transformers как практическое дополнение к теме деплоя моделей.
География открытого исходного кода
За последние четыре года наблюдаются явные лидеры популярности моделей в разных регионах. США и Китай традиционно занимают avant-garde позиции, а Великобритания, Германия и Франция выступают как второстепенные игроки.
Географический состав экосистемы открытого кода изменился: данные Hugging Face показывают, что Китай уже опередил США по ежемесячным нагрузкам и общим загрузкам, занимая 41% всех загрузок.
Доля индустрии в общем объёме разработки снизилась примерно с 70% до 2022 года до около 37% в 2025 году. Тем временем независимые или неаффилированные разработчики выросли с 17% до 39% всех загрузок за тот же период, временами обеспечивая более половины совокупного использования. Отдельные пользователи и небольшие коллективы сосредоточились на квантизации, адаптации и перераспределении базовых моделей. Эти посредники теперь определяют значительную часть того, что типичные пользователи могут запускать, и того, как инновации распространяются по экосистеме.
Разные регионы вносят вклад по-разному. Соединённые Штаты и Западная Европа исторически доминировали благодаря крупным промышленным лабораториям (Google, Meta, OpenAI, Stability AI), тогда как Китай всё активнее лидирует как по выпускам, так и по принятию. Франция, Германия и Великобритания продолжают вносить вклад через исследовательские организации, национальные инициативы в области ИИ и специализированные семейства моделей. Экосистемы, поддерживающие разнообразие участников и организационных форм, как правило, производят более широко принятые артефакты.
Страны, организации и индивидуальные пользователи
Популярные модели от стартапов получили более широкое распространение. Конкурентоспособными странами оказались Франция и Южная Корея. Примечательно, что четвёртым по популярности субъектом в разработке новых трендовых моделей оказались индивидуальные пользователи, а не организации. Создание конкурентоспособных моделей на уровне отдельного пользователя стало более доступным, чем когда-либо прежде.
США и Китай: динамика противостояния
Среди вновь созданных моделей в 2025 году большинство трендовых моделей были либо разработаны в Китае, либо являлись производными от модели, разработанной в Китае. Наиболее популярные модели были созданы крупными организациями, преимущественно из США и Китая. Подробнее о китайской экосистеме ИИ читайте в трёхчастной серии, посвящённой изменениям за один год с момента «момента DeepSeek»: первая часть — о стратегических изменениях, вторая — об архитектурных изменениях, третья — об организациях и будущем.
В 2025 году китайская экосистема ИИ резко сдвинулась в сторону открытого исходного кода вслед за вирусным выпуском модели R1 от DeepSeek в январе. Число конкурентоспособных китайских организаций, выпускающих модели, и число репозиториев на Hugging Face резко возросло. Baidu перешёл от нуля выпусков на Hub в 2024 году к более чем 100 в 2025 году. ByteDance и Tencent каждый увеличили число выпусков в восемь-девять раз. Организации, которые ранее отдавали предпочтение закрытым подходам, включая Baidu и MiniMax, решительно переориентировались на открытые выпуски.
Сопоставимое число популярных американских организаций стабильно обеспечивало более высокий объём репозиториев с течением времени. Meta и её исследовательское подразделение составляют значительную долю открытых выпусков, как и Google в меньшей степени.
При сравнении бок о бок крутая восходящая траектория роста репозиториев среди популярных китайских организаций выступает как ключевое стратегическое отличие.
Открытый исходный код и технологический суверенитет
Открытый исходный код в ИИ всё теснее связан с вопросами суверенитета. Модели с открытыми весами позволяют правительствам и государственным учреждениям дообучать системы на локальных данных в рамках национальных правовых систем. Модели, которые можно развёртывать на отечественном оборудовании, снижают зависимость от облачной инфраструктуры, контролируемой иностранными субъектами. Прозрачность в отношении архитектуры модели, процессов обучения и оценки поддерживает регуляторный контроль и общественную подотчётность.
На национальном уровне правительства предпринимают активные действия. Национальная инициатива суверенного ИИ Южной Кореи, запущенная в середине 2025 года, назвала национальными чемпионами LG AI Research, SK Telecom, Naver Cloud, NC AI и Upstage для создания конкурентоспособных отечественных моделей. Три модели из Южной Кореи одновременно попали в тренды на Hugging Face Hub в феврале 2026 года. В марте 2026 года Южная Корея и американский стартап Reflection AI объявили о партнёрстве в области центров обработки данных, что также открывает доступ к передовым моделям с открытыми весами в Южной Корее.
Швейцарская инициатива Swiss AI и различные проекты, финансируемые ЕС, отражают аналогичные приоритеты. Британский принцип «общественные деньги — общественный код» повлиял на ряд государственных инициатив в области ИИ.
Эти инвестиции в открытый исходный код и ИИ с открытыми весами уже приносят дивиденды странам с процветающими собственными экосистемами обучения ИИ. Я обращаю внимание на устойчивую закономерность: модели и датасеты, как правило, наиболее активно используются в тех регионах, где они разработаны, а разработчики нередко обращаются к моделям, которые наилучшим образом представляют их языки и отражают схожие технические и прикладные требования.
Самые популярные модели на Hugging Face Hub
Наиболее понравившиеся модели на Hub отражают внимание сообщества — в плане возможности вернуться к модели, сослаться на неё или её общей популярности. Хотя этот показатель не всегда отражает реальное использование, накопленное со временем внимание может служить сигналом интереса. За один год наиболее понравившиеся модели сменились: если раньше среди них преобладали модели американской разработки из семейства Llama компании Meta, то теперь это международная смесь, во главе которой стоит китайская DeepSeek-R1.
Статьи и научные вклады
Хотя ценность научных вкладов можно определять по множеству показателей, функция голосования на Hub показывает, что статьи крупных организаций в области ИИ широко ценятся членами сообщества. Наиболее высоко оцениваемые статьи принадлежат крупным организациям, преимущественно из США и Китая. Большинство ведущих организаций — это китайские компании большой технологической отрасли, при этом ByteDance публикует большой объём статей с высоким уровнем влияния.
Среди ежедневных статей Hugging Face (Hugging Face's Daily Papers) — подборки статей, курируемой AK из Hugging Face, — статьи, посвящённые созданию моделей и наборов данных и демонстрирующие наибольшее распространение открытого исходного кода, в целом отличаются разнообразием. Среди ключевых выводов — значительное влияние медицинских статей, тогда как влияние крупных технологических компаний невелико.
Производные модели
То, как члены сообщества предпочитают строить на основе моделей — будь то дообучение (fine-tuning), слияние или другие методы, — отражает популярность и удобство использования моделей. Alibaba как организация имеет больше производных моделей, чем Google и Meta вместе взятые: семейство Qwen насчитывает более 113 000 производных моделей. Если включить все модели, в тегах которых упоминается Qwen, это число возрастает до более чем 200 000 моделей.
Hugging Face Inference API: доступность и деплой моделей
Разработка моделей всё больше акцентирует внимание на доступности наряду с масштабом. Небольшие модели загружаются и развёртываются значительно чаще, чем очень крупные системы, что отражает практические ограничения, связанные со стоимостью, задержками и доступностью оборудования.
Это доминирование небольших моделей отчасти объясняется тем, что моделей такого размера выпускается значительно больше. Но даже с учётом нормализации данные из метрики относительного распространения проекта ATOM (ATOM Project's Relative Adoption Metric) показывают, что медианные топ-10 моделей с параметрами от 1 до 9 млрд загружаются лишь примерно в 4 раза чаще, чем модели свыше 100 млрд параметров. Автоматизированные системы и конвейеры CI (непрерывной интеграции, Continuous Integration) дополнительно завышают счётчики загрузок небольших моделей, однако тенденция к переходу на меньшие, развёртываемые модели вполне реальна.
Вовлечённость в открытые модели, как правило, достигает пика почти сразу после выпуска, а затем снижается. Средняя продолжительность вовлечённости составляет приблизительно 6 недель. Непрерывное совершенствование и частые обновления стали критически важными для поддержания актуальности. Последовательные выпуски DeepSeek (V3, R1, V3.2) позволяли ей оставаться конкурентоспособной даже по мере появления новых претендентов. Организации, которые стагнируют в разработке, как правило, быстро теряют долю в пользу тех, кто выпускает частые обновления или специализированные дообученные версии.
Средний размер загружаемых открытых моделей вырос с 827 млн параметров в 2023 году до 20,8 млрд в 2025 году, что в значительной мере обусловлено квантизацией и архитектурами смеси экспертов (Mixture of Experts, MoE). Медиана, однако, увеличилась лишь незначительно — с 326 млн до 406 млн параметров. Это расхождение указывает на то, что пользователи высококлассных LLM (больших языковых моделей, Large Language Models) поднимают среднее значение, тогда как базовое использование небольших моделей остаётся стабильным.
Разрыв в производительности между передовыми моделями и меньшими системами нередко быстро сокращается благодаря дообучению и адаптации под конкретные задачи. На Hub модели с сотнями миллионов параметров обеспечивают рабочие процессы поиска, тегирования и обработки документов, тогда как модели в диапазоне единиц миллиардов параметров широко используются для задач программирования, рассуждения и мультимодальных задач. В результате большинство крупных разработчиков моделей теперь выпускают семейства моделей, охватывающие широкий диапазон размеров. Рост возможностей небольших моделей смещает автономию ближе к периферии, снижая зависимость от централизованных облачных провайдеров.
Вычислительные ресурсы, оборудование и открытый исходный код
Разработка открытого ИИ тесно связана с тенденциями в области оборудования. Большинство моделей оптимизированы для GPU NVIDIA, однако поддержка оборудования AMD продолжает расширяться. Коллекции моделей Stability AI теперь оптимизированы как для платформ NVIDIA, так и для AMD. Библиотеки всё чаще ориентируются на обе платформы, а инструментарий улучшился, что делает кросс-аппаратное развёртывание более простым. В 2025 году Hugging Face запустил Kernel Hub для загрузки и запуска ядер, оптимизированных для GPU NVIDIA и AMD.
Параллельно китайские открытые модели выпускаются с явной поддержкой отечественных чипов. Alibaba инвестировала в архитектуры чипов, ориентированные на инференс (inference) и предназначенные для оснащения китайских центров обработки данных оборудованием, способным локально запускать модели с открытым исходным кодом.
Хотя доступ к вычислительным ресурсам по-прежнему остаётся ключевой необходимостью для разработки и развёртывания моделей ИИ, модели с открытым исходным кодом и открытыми весами помогают вырваться из экосистемы, где вычислительные ресурсы становятся единственным определяющим фактором: всё больше моделей на всех уровнях производительности обеспечивают эффективность, снижающую затраты в 10–1000 раз по сравнению с флагманскими моделями ИИ крупнейших разработчиков.
Вопрос инфраструктурных инвестиций для открытого исходного кода остаётся актуальным. Государственное финансирование центров обработки данных, способных обучать и обслуживать открытые модели, стало всё более активно обсуждаться в рамках политических дискуссий, особенно в Европе и Великобритании. Разрыв между вычислительными ресурсами, доступными крупным компаниям с закрытыми моделями, и теми, что доступны сообществу открытого исходного кода, продолжает определять, что осуществимо в открытой разработке.
Субсообщества: робототехника
Робототехника стала одним из наиболее быстро растущих субсообществ на Hugging Face. Цифры впечатляют: количество наборов данных по робототехнике выросло с 1 145 в 2024 году до 26 991 в 2025 году, поднявшись с 44-го места до крупнейшей категории наборов данных на Hub всего за три года. Для сравнения: генерация текста, вторая по величине категория, насчитывала лишь около 5 000 наборов данных в 2025 году.
Наборы данных, созданные сообществом, охватывают всё — от задач манипуляции предметами в домашних условиях до автономного вождения. Крупнейший мультимодальный набор данных для пространственного интеллекта, Learning to Drive (L2D), был выпущен в рамках сотрудничества LeRobot с Yaak. Наборы данных, такие как RoboMIND, содержащий более 107 000 реальных траекторий по 479 различным задачам и для нескольких типов роботов, обеспечивают масштаб и разнообразие, необходимые для обучения обобщаемых политик управления роботами.
Приобретение Hugging Face компании Pollen Robotics открыло продажи роботов с открытым исходным кодом как для промышленных и академических лабораторий, так и для обычных любителей. LeRobot — библиотека робототехники с открытым исходным кодом от Hugging Face, предоставляющая модели, наборы данных и инструменты для реальной робототехники на PyTorch и охватывающая имитационное обучение, обучение с подкреплением и модели «зрение — язык — действие» (vision-language-action) — демонстрировала стремительный рост. За прошедший год количество звёзд её репозитория на GitHub почти утроилось.
Субсообщества: ИИ для науки
Научные исследования стали ещё одной особенно активной областью. Открытые модели и наборы данных всё активнее используются для предсказания структуры белков, молекулярной динамики, разработки лекарств и анализа научных данных. Все ведущие компании в области ИИ теперь имеют специализированные научные команды, хотя значительная часть текущих усилий по-прежнему сосредоточена на поиске по литературе, а не на непосредственном проведении экспериментов.
Проекты под руководством сообщества сформировались вокруг общих исследовательских целей, нередко объединяя сотни участников, работающих в разных учреждениях и дисциплинах. Эти усилия подчёркивают роль открытого исходного кода как механизма координации масштабной междисциплинарной работы, которую было бы сложно организовать исключительно через традиционные академические или корпоративные структуры.
Типичные ошибки при работе с открытыми моделями
Наблюдая за тем, как команды внедряют открытые модели, я выделяю несколько устойчивых паттернов неудач, которые стоит учитывать заранее.
Первая ошибка — выбор модели только по размеру параметров без учёта задачи. Модель на 70 млрд параметров не всегда превосходит специализированную модель на 7 млрд в конкретном домене: дообученные версии нередко выигрывают у более крупных базовых моделей на узких задачах.
Вторая ошибка — игнорирование жизненного цикла модели. Средняя продолжительность активной вовлечённости сообщества составляет около 6 недель. Если команда строит продукт на модели без активной поддержки, через несколько месяцев она рискует оказаться с устаревшим компонентом в критическом пути.
Третья ошибка — недооценка инфраструктурных требований. Квантизация (quantization) позволяет запускать крупные модели на скромном оборудовании, однако требует тщательной проверки деградации качества на целевых задачах. Переход с NVIDIA на AMD без тестирования конкретных ядер также нередко приводит к неожиданным просадкам производительности.
Четвёртая ошибка — отсутствие мониторинга производных моделей. Если базовая модель обновляется, производные версии могут устареть незаметно. Семейство Qwen с более чем 200 000 производных моделей — наглядный пример того, насколько разветвлённой может стать цепочка зависимостей.
Взгляд в будущее
Экосистема открытого исходного кода в области ИИ продолжает развиваться благодаря сочетанию глобального участия, технической специализации и институционального внедрения. Несколько тенденций, вероятно, определят следующий этап.
Географическое перераспределение сил ускоряется. Западные организации всё активнее ищут коммерчески применимые альтернативы китайским моделям, что создаёт срочность вокруг таких усилий, как GPT-OSS от OpenAI, OLMo от AI2 и Gemma от Google, — с целью предложить конкурентоспособные открытые варианты от американских и европейских разработчиков. Смогут ли эти усилия сравниться с темпами принятия Qwen и DeepSeek — станет определяющим вопросом 2026 года.
Рост субсообществ в области робототехники и науки свидетельствует о том, что открытый исходный код в ИИ выходит за рамки языка и генерации изображений в физические и экспериментальные области. Инфраструктура, нормы и механизмы координации, разработанные применительно к текстовым и графическим моделям, адаптируются для новых модальностей и сценариев использования.
Для исследователей, разработчиков, компаний и правительств открытый исходный код остаётся фундаментальным слоем для создания, оценки и управления системами ИИ. По мере роста числа агентных развёртываний открытый исходный код и его интероперабельность станут ключевыми факторами для процветания агентов. Его траектория за прошедший год делает одно очевидным: экосистема открытого исходного кода — это место, где происходит большая часть практической работы по разработке, адаптации и развёртыванию ИИ, и её влияние на более широкий ландшафт продолжает расти.
Ответы на эти вопросы могут быть для вас полезными
Почему Китай обогнал США по загрузкам моделей на Hugging Face?
Вирусный выпуск DeepSeek R1 в январе 2025 года спровоцировал массовый переход китайских организаций к открытым выпускам. Baidu перешёл от нуля репозиториев на Hub в 2024 году к более чем 100 в 2025-м, ByteDance и Tencent увеличили число выпусков в восемь-девять раз. Совокупный эффект дал китайским моделям 41% всех загрузок на платформе.
Почему небольшие модели загружаются чаще крупных, если крупные мощнее?
Практические ограничения — стоимость, задержки и доступность оборудования — делают небольшие модели предпочтительными для большинства рабочих сценариев. Дообучение под конкретную задачу нередко позволяет модели на 7 млрд параметров превзойти базовую модель на 70 млрд в узком домене. Автоматизированные конвейеры CI дополнительно завышают счётчики загрузок небольших моделей.
Что такое производные модели и почему их число так важно?
Производные модели — это дообученные, слитые или иным образом адаптированные версии базовой модели. Их количество отражает реальную востребованность архитектуры: семейство Qwen насчитывает более 200 000 производных моделей, что делает его де-факто стандартом для кастомизации в широком круге задач.
Как открытый исходный код связан с технологическим суверенитетом?
Модели с открытыми весами позволяют развёртывать системы на отечественном оборудовании без зависимости от иностранной облачной инфраструктуры. Южная Корея, Швейцария и ряд европейских стран уже запустили национальные инициативы, опирающиеся именно на открытые модели как инструмент снижения внешних зависимостей.
Как долго модель остаётся актуальной после выпуска?
Средняя продолжительность активной вовлечённости сообщества составляет около 6 недель. Организации, поддерживающие конкурентоспособность, выпускают последовательные обновления — как DeepSeek с серией V3, R1, V3.2. Стагнация в разработке быстро приводит к потере доли в пользу более активных участников.



