Материал основан на разборе simonwillison.net. Ниже — главное и практические шаги, которые можно быстро применить в работе.
Виктории с этическим обучением, которую можно запустить на собственном компьютере
Трип Вентурелла представил Mr. Chatterbox — языковую модель, созданную исключительно на текстах из общественного достояния, собранных из коллекции Британской библиотеки.
Mr. Chatterbox — это языковая модель, обученная с нуля на корпусе из более чем 28 000 британских текстов эпохи Виктории, опубликованных в период с 1837 по 1899 год и взятых из датасета, предоставленного Британской библиотекой. Модель не имеет абсолютно никаких обучающих данных после 1899 года — словарный запас и идеи сформированы исключительно на основе литературы девятнадцатого века.
Обучающий корпус включает 28 035 книг с расчетным количеством около 2,93 миллиарда обучающих токенов после фильтрации. Модель насчитывает приблизительно 340 миллионов параметров, что сопоставимо с GPT-2-Medium, однако Mr. Chatterbox обучен исключительно на исторических данных.
Мне всегда было интересно, как может работать модель, обученная только на текстах, доступных для всех. И теперь, благодаря усилиям Трипа, у нас есть возможность это проверить.
- Архитектура и параметры модели: 340 млн весов на историческом корпусе
- Как запустить языковую модель локально через плагин LLM
- Как Claude Code помог собрать плагин с нуля
- Как Трип фильтровал данные и обучал модель
- Ограничения обучения языковых моделей на узком корпусе
- Где такой эксперимент полезен разработчику на практике
- Часто задаваемые вопросы о Mr. Chatterbox
Архитектура и параметры модели: 340 млн весов на историческом корпусе
Модель занимает всего 2,05 ГБ на диске, что делает её довольно компактной для современных моделей общего назначения. Вы можете познакомиться с ней через демо Трипа на HuggingFace Spaces.
К сожалению, качество генерации модели остаётся низким. Часто это напоминает общение с цепью Маркова, а не с языковой моделью с осмысленной генерацией — даже в обрамлении увлекательного викторианского стиля, получение адекватного ответа на конкретный вопрос может быть затруднительным.
Статья Chinchilla 2022 года указывает на соотношение 20x количества параметров к обучающим токенам. Для модели с 340 млн параметров это подразумевало бы около 7 миллиардов токенов — это более чем вдвое превышает корпус Британской библиотеки, использованный здесь. Наименьшая модель Qwen 3.5 имеет 600 млн параметров, и эти модели начинают демонстрировать интерес при 2 млрд, что подталкивает к выводу о необходимости в 4 и более раз большего объема обучающих данных, чтобы разработать что-то, что будет восприниматься как полезный собеседник.
Проект демонстрирует впечатляющие возможности для обучения языковой модели в локальной среде.
По этой теме полезно отдельно посмотреть Составьте еженедельное расписание занятий, чтобы расширить контекст и сравнить подходы.
По этой теме полезно отдельно посмотреть Аннотации типов для декораторов в Python, чтобы расширить контекст и сравнить подходы.
Как запустить языковую модель локально через плагин LLM
Я решил проверить, смогу ли запустить модель на своей машине с помощью моего фреймворка LLM. Большую часть работы я поручил Claude Code — вот транскрипт.
Трип обучил модель с помощью nanochat Андрея Карпатого, поэтому я клонировал этот проект, скачал веса модели и попросил Claude создать Python-скрипт для запуска модели. Когда это заработало (что в итоге потребовало некоторых дополнительных деталей из исходного кода демо Space), я попросил Claude прочитать туториал по плагинам LLM и создать остальную часть плагина.
Результатом стал llm-mrchatterbox. Установите плагин следующим образом:
llm install llm-mrchatterbox
При первом выполнении запроса будет загружен файл модели размером 2,05 ГБ с Hugging Face. Попробуйте так:
llm -m mrchatterbox "Good day, sir"
Или начните непрерывную сессию чата следующим образом:
llm chat -m mrchatterbox
Если у вас не установлен LLM, вы всё равно можете начать сессию чата с нуля, используя uvx:
uvx --with llm-mrchatterbox llm chat -m mrchatterbox
Когда вы закончите работу с моделью, вы можете удалить кэшированный файл с помощью:
llm mrchatterbox delete-model
Как Claude Code помог собрать плагин с нуля
Это первый раз, когда я попросил Claude Code создать полноценный плагин для LLM-модели с нуля, и это сработало очень хорошо. Думаю, я буду использовать этот метод снова в будущем.
Схема оказалась простой: клонировать nanochat, скачать веса, попросить Claude написать скрипт запуска, затем — прочитать туториал по плагинам и собрать обёртку. Каждый шаг давал конкретный артефакт, который можно было проверить и передать дальше. Именно такой подход — гипотеза, действие, проверяемый результат — делает Claude Code полезным инструментом для подобных задач.
Как Трип фильтровал данные и обучал модель
Я продолжаю надеяться на возможность создания действительно полезной модели, основанной лишь на текстах общественного достояния. Проект Трипа, использующий nanochat и 2,93 миллиарда токенов, выглядит многообещающе.
У Трипа есть собственное подробное описание проекта, в котором гораздо подробнее рассказывается о том, как он обучал модель. Вот как книги фильтровались для предобучения (pretraining):
Сначала я загрузил датасет Британской библиотеки со всеми книгами XIX века. Я отфильтровал их до книг, современных правлению королевы Виктории — что, к сожалению, исключило романы Джейн Остин — и дополнительно отфильтровал до набора книг с уровнем достоверности оптического распознавания символов (OCR, optical character recognition) 0,65 и выше, как указано в метаданных. В результате у меня осталось 28 035 книг, или примерно 2,93 миллиарда токенов для данных предобучения.
Заставить модель вести себя как разговорную оказалось значительно сложнее. Трип начал с попытки обучить её на пьесах Оскара Уайльда и Джорджа Бернарда Шоу, но обнаружил, что они не дают достаточного количества пар. Затем он попробовал извлекать диалоговые пары из самих книг — с неудовлетворительными результатами.
Подход, который сработал, заключался в том, чтобы попросить Claude Haiku и GPT-4o-mini сгенерировать синтетические пары разговоров для обучения с учителем (supervised fine tuning, SFT). Это решило проблему, но, к сожалению, размывает утверждение «никаких обучающих данных после 1899 года» из оригинальной карточки модели.
Ограничения обучения языковых моделей на узком корпусе
Проект наглядно показывает, где проходит граница между «исторически чистыми» данными и практической полезностью модели. Несколько конкретных trade-offs, которые стоит держать в голове:
- Размер корпуса против качества ответов. 2,93 млрд токенов — это меньше половины от рекомендованного по Chinchilla для модели такого размера. Результат предсказуем: модель генерирует текст с нужным стилем, но не удерживает контекст вопроса.
- Чистота данных против диалоговой способности. Викторианские тексты почти не содержат диалоговых пар в формате вопрос–ответ. Решение через синтетические данные от Claude Haiku и GPT-4o-mini работает, но формально нарушает заявленное ограничение «только до 1899 года».
- Размер модели против практичности. 340 млн параметров и 2,05 ГБ на диске — это удобно для локального запуска, но недостаточно для связных многоходовых ответов.
Эти ограничения не делают проект менее ценным. Они честно показывают, сколько данных и какой архитектуры нужно, чтобы модель на текстах общественного достояния стала по-настоящему полезной.
Где такой эксперимент полезен разработчику на практике
Даже если Mr. Chatterbox пока не тянет на повседневного ассистента, проект полезен как инженерный стенд. На нём удобно проверять гипотезы о размере корпуса, качестве OCR, влиянии synthetic SFT-данных и локальном запуске небольших моделей на обычной машине. Для разработчика это не просто «забавная викторианская LLM», а хороший способ увидеть на одном компактном примере весь путь: корпус, предобучение, упаковку в плагин, запуск и честную оценку ограничений.
Часто задаваемые вопросы о Mr. Chatterbox
Можно ли запустить Mr. Chatterbox без установленного LLM? Да. Используйте команду uvx --with llm-mrchatterbox llm chat -m mrchatterbox — uvx установит всё необходимое автоматически, без предварительной установки фреймворка LLM.
Почему модель даёт бессвязные ответы, хотя и в викторианском стиле? Корпус обучения составил около 2,93 млрд токенов при 340 млн параметров. По рекомендациям Chinchilla для такого размера нужно около 7 млрд токенов — модель недообучена примерно вдвое, отсюда и слабая связность ответов.
Как удалить скачанный файл модели после использования? Выполните команду llm mrchatterbox delete-model — она удалит кэшированный файл весов размером 2,05 ГБ с вашего диска.
Почему синтетические данные от Claude Haiku и GPT-4o-mini противоречат заявленной концепции модели? Карточка модели утверждает «никаких обучающих данных после 1899 года», но диалоговые пары для тонкой настройки (supervised fine tuning) были сгенерированы современными моделями. Это решило проблему нехватки диалогов в викторианских текстах, но формально нарушает исходное ограничение.
Сколько данных нужно, чтобы получить действительно полезную модель на текстах общественного достояния? Исходя из текущих результатов — минимум в 4 раза больше, чем использовал Трип, плюс модель от 2 млрд параметров. Семейство Qwen 3.5 начинает давать связные ответы именно с этой отметки.



