От продакта, который потратил выходные на чтение про LLM как «синтетических респондентов» и вернулся с мыслями
Сегодня обсудим методологию SSR — Semantic Similarity Rating
На прошлых выходных я наткнулся на исследование как 9 300 реальных респондентов заменили LLM-симуляцией, то есть синтетическими респондентами. Результат: нейросеть достигла 90% согласованности с повторным опросом людей. Критерий KS получился не менее 0.85. Top-2-Box разница в пределах погрешности
Потом я прочитал ещё 20 статей, посмотрел на чилийский кейс с 189 тысячами синтетических профилей и вернулся с другой мыслью: синтетические респонденты — это не замена, а новый инструмент с чёткими границами применимости
- Что такое критерий Колмогорова-Смирнова KS
- Что означает KS не менее 0.85
- Что такое Top-2-Box разница в пределах погрешности
- Что такое «в пределах погрешности»
- Semantic Similarity Rating — SSR
- Прежде чем идти дальше, зафиксируем словарь:
- Где синтетические респонденты работают идеально
- Скрининг концептов concept testing
- Предварительное тестирование гипотез
- Масштабирование качественных инсайтов
- Почему синтетические респонденты не заменят реальных людей
- Галлюцинации при высокой специфичности
- Отсутствие реального поведения
- Стереотипы и bias тренировочных данных
- Отсутствие эмоциональной и контекстуальной глубины
- Необходимость валидации
- Синтетические респонденты как новый слой в продуктовом стеке
- Как протестировать синтетических респондентов
- Функционал бота с синтетическими респондентами
Что такое критерий Колмогорова-Смирнова KS
KS это критерий Колмогорова-Смирнова — непараметрический статистический тест, который сравнивает два распределения и показывает, насколько они похожи.
Критерий измеряет максимальное расстояние между кумулятивными функциями распределения (CDF) двух выборок. В контексте SSR сравниваются:
- Распределение ответов LLM (синтетических респондентов)
- Распределение ответов реальных людей
Представьте график, где по оси X — баллы по Likert-шкале (1, 2, 3, 4, 5), а по оси Y — накопленный процент респондентов. KS-статистика показывает, насколько эти две кривые совпадают
Что означает KS не менее 0.85
В методологии SSR используется KS similarity (схожесть), а не классический KS-тест на различие. Формула
KS similarity = 1 - (максимальное расстояние между распределениями)
KS similarity > 0.85 означает:
- Распределения совпадают на 85%+
- Максимальное отклонение между кривыми < 15%
- Визуально графики почти накладываются друг на друга
Если спросить 500 реальных людей и 500 LLM-персон «Купите ли вы этот продукт?», то накопленные проценты по каждому баллу будут различаться максимум на 15 процентных пунктов

Что такое Top-2-Box разница в пределах погрешности
Top-2-Box — это сумма процентов двух самых положительных ответов на Likert-шкале
Для шкалы 1-5
T2B = % ответов "4" + % ответов "5"
Это ключевая бизнес-метрика, показывающая долю положительно настроенных респондентов
Что такое «в пределах погрешности»
Например:
- Реальные люди: T2B = 62% (±3% margin of error при n=500)
- Синтетические респонденты: T2B = 64%
Разница 2% находится внутри доверительного интервала ±3%, значит различие статистически незначимо
Semantic Similarity Rating — SSR
Разберём, как вообще появилась эта методология, что такое SSR и почему ваша следующая фича не должна зависеть только от мнения армии синтетических респондентов
История начинается с очевидной боли: исследования дорогие, панели истощены, а рекрутинг респондентов занимает недели. В 2023–2024 годах продуктовые команды начали активно использовать LLM для быстрых опросов: «Представь, что ты мама двоих детей из Мюнхена. Оцени нашу новую фичу по шкале 1–5»
Проблема? Распределения ответов были слишком гладкими. LLM выдавали mean, близкий к середине шкалы, с минимальной дисперсией. Ни пиков, ни хвостов, ни realistic noise — то, что статистики называют «естественной вариативностью человеческих мнений». Информация из Arxiv
В октябре 2025 года исследователи из PyMC Labs и Colgate-Palmolive предложили решение — SSR (Semantic Similarity Rating). Идея простая, но гениальная:
- Не просить LLM сразу выдать число (это даёт bias)
- Попросить LLM дать текстовый ответ, как реальный человек («Почему ты купишь/не купишь этот продукт?»)
- Сравнить текстовый ответ с эталонными утверждениями каждой точки Likert-шкалы через контекстуальные эмбеддинги (BERT, RoBERTa)
- Назначить рейтинг на основе семантической близости
LLM генерируют качественно правдоподобные объяснения, но плохо калибруют числовые оценки. SSR развязывает эти задачи — текст генерит LLM, а число выводится через математику семантического сходства
Git с базой семантической близости
Прежде чем идти дальше, зафиксируем словарь:
Synthetic respondents — AI-агенты, имитирующие персоны с заданными демографическими и психографическими характеристиками. Не просто «спроси ChatGPT», а структурированные persona с backstory, мотивациями и ограничениями
Likert scale — шкала от 1 до 5 (или 7), где 1 = «точно не куплю», 5 = «определённо куплю». Стандарт quantitative research с 1932 года
Контекстуальные эмбеддинги — векторные представления текста, которые меняются в зависимости от контекста. «Ключ» в фразе «дверной ключ» и «музыкальный ключ» получат разные векторы
Где синтетические респонденты работают идеально
Не будем лукавить — технология впечатляет. Вот три сценария, где я бы использовал synthetic respondents без сомнений:
Скрининг концептов concept testing
У вас 20 идей фичей, нужно выбрать 3 для разработки. Human research займёт месяц и $50k. SSR с 500 синтетическими респондентами на концепт даст ранжирование за выходные с точностью, достаточной для первичной фильтрации
Предварительное тестирование гипотез
Перед запуском A/B теста нужно проверить, не провалится ли вариант катастрофически. Synthetic respondents дают «sanity check», если LLM не понимают ценность фичи, есть риск, что и люди не поймут
Масштабирование качественных инсайтов
В методе SSR LLM генерируют текстовые объяснения своих «решений». Это бесплатные verbatim (дословные цитаты), которые раньше получали только из дорогих фокус-групп
Почему синтетические респонденты не заменят реальных людей
Теперь к главному. После всех восторгов — ограничения, которые делают synthetic research инструментом, а не заменой
Галлюцинации при высокой специфичности
В исследование MRS Delphi рассказывают: при вопросах, требующих специфических знаний о продукте или категории, 69–88% ответов синтетических респондентов оказываются неверными
LLM делает вид, что знает. Если спросить про нюансы использования вашего SaaS-продукта, синтетик выдаст уверенные, но выдуманные детали
Synthetic respondents работают на уровне общих паттернов («нравится/не нравится»), но не на уровне специфики UX
Отсутствие реального поведения
Самый болезненный пункт. Likert-шкала измеряет намерение, а не поведение
Классическая проблема: человек говорит «определённо куплю» (5 из 5), а потом не покупает. Синтетический респондент имитирует ответ, но не имитирует реальное поведение с его контекстом, отвлечениями и иррациональными факторами. Если верить исследованию MRS Delphi
В SSR мы получаем realistic distribution намерений, но не realistic prediction конверсии. Для CPO это критично: фича может «нравится» 80% synthetic respondents и провалиться в проде
Стереотипы и bias тренировочных данных
Чилийский кейс с 189 696 синтетическими профилями показал: LLM хорошо имитируют «среднего» респондента, но плохо — выбросы и нишевые сегменты.
Если ваша целевая аудитория — power users с нестандартными паттернами использования, synthetic respondents будут усреднять и упускать edge cases. Это опасно для продуктов, где success зависит от power users (почти все B2B SaaS)
Отсутствие эмоциональной и контекстуальной глубины
Реальные люди дают ответы в контексте своей жизни: «Не куплю, потому что сейчас кризис и я сократил расходы». Synthetic respondents не имеют реального контекста, их «жизнь» — это средневзвешенное значение обучающих данных
Для Growth-продуктов это фатально: эмоциональные триггеры и контекст использования — ключевые драйверы конверсии, которые synthetic research не улавливает.
Необходимость валидации
Все публикации по SSR подчёркивают: метод работает, только если предварительно валидирован на реальных данных
Это означает, что вы не можете запустить synthetic research для совершенно новой категории продукта без базового исследования на людях. Синтетики требуют обучения на людях
Синтетические респонденты как новый слой в продуктовом стеке
После изучения вопроса я пришёл к выводу: синтетические респонденты это не замена исследователям, а новый инструмент в арсенале продуктовой команды
Как мы используем аналитику событий для количества и интервью для качества, так и синтетики занимают свою нишу — быстрый, масштабируемый скрининг, который всегда требует валидации на реальных людях
Методология SSR решает ключевую проблему ранних LLM-опросов- нереалистичное распределение. Но она не решает фундаментальное ограничение: мы измеряем намерения, а не поведение
Для CPO и Growth-лидеров это означает: смело используйте синтетиков для первичной фильтрации идей, но не заменяйте ими живых пользователей там, где речь идёт о реальных деньгах и ретеншне
Как протестировать синтетических респондентов
Я взял Git с базой семантической близости и локально вместе с Codex сделал тг бота, в который можно вкинуть свои сигналы и получить результаты исследования на синтетиках
Сделал публичный Git synthetic-respondents-bot — скопируйте себе, я запускал локально. НИже дам пример тестового прогона
Будут вопросы, пишите
Функционал бота с синтетическими респондентами
🚀 Telegram-бот + AI-платформа для быстрых синтетических исследований: загружаешь стимулы, запускаешь симуляцию респондентов и получаешь красивый PDF-отчет с метриками за минуты.
🧠 OpenRouter-генерация ответов + SSR-скоринг
📊 Mean / Median / SD / T2B / CI / Distribution
🤖 Режимы запуска: polling и webhook
🐳 Полностью dockerized стек (API + Worker + Bot + Postgres + Redis)
💸 Прозрачная оценка стоимости каждого run
⚡ Идеально для smoke-тестов гипотез, креативов и продуктовых решений без долгих полевых опросов
Пример такого отчета


