Чат-бот для Мегафона: скопировали сознание Уинстона Черчилля и дали каждому с ним поговорить
К нам обратился Мегафон. Компания продает цифровые продукты и услуги, работает с большими данными и создает решения для автоматизации бизнеса. И они пришли к нам, чтобы сделать уникальный для своего времени проект
Идея была в том, чтобы оцифровать сэра Уинстона Черчилля и создать чат-бота, который будет комментировать актуальные проблемы с позиции премьер-министра Великобритании. Клиент отдельно акцентировал внимание на том, что бот должен привлечь внимание к себе со стороны медиа и пользоваться популярностью у пользователей, потому что решал пиар-задачи
Шаг 1 — определили цели и требования
В Мегафоне задачу сформулировали так:
Спровоцировать вау-эффект у пользователей от общения с цифровой копией великого исторического деятеля. Бот должен был отвечать на вопросы и поддерживать диалог, имитируя стиль речи реального исторического персонажа — сэра Уинстона Черчилля
Бот должен быстро отвечать и уметь поддерживать диалоги на самые разные темы: политика, история, искусство, актуальные проблемы человечества и так далее
Шаг 2 — выбрали технологии и подход
Первое, что мы сделали — определились с моделью генеративного ИИ: сперва хотели использовать GPT-2, но тесты показали, что обученная нейросеть с архитектурой BERT дает более релевантные ответы. Для того, чтобы бот имитировал стиль Уинстона Черчилля, мы обучили его на десятках тысяч страниц его трудов: из книг, статей, мемуаров, речей выступлений и прочих материалов
Шаг 3 — разработали решение
ChatGPT на тот момент еще не существовало, и роботы тогда еще очень плохо умели решать творческие задачи. Мы начали экспериментировать с GPT-2 еще до того, как это стало мейнстримом
Использовать обученную модель GPT для генерации ответов. Так как версии GPT-3 с открытым исходным кодом не было, мы взяли GPT-2, которая была заметно усилена в Сбере множеством дополнительных параметров. Подход не оправдался: возникла проблема галлюцинаций, в которых бот рассказывал о впечатлениях Черчилля от битвы при Ватерлоо, которая случилась за век до его рождения
Мы взяли нейросеть на архитектуре BERT и обучили ее на всех доступных текстовых материалах за авторством Черчилля. Бот с помощью векторного поиска подбирал подходящие цитаты и ранжировал их в правильном порядке. За счет такого подхода наш алгоритм больше не выдумывал факты, а подбирал предельно релевантные из реальных мыслей сэра Уинстона. По сути мы сделали то, что в будущем станет известно как RAG в большинстве ИИ-ассистентов
После тестирования множества гипотез, рабочих осталось две:
Затем мы подключили команду разметчиков, которые тренировали бота, оценивая его ответы и дополняя массив данных. Когда мы добились подходящей релевантности, то перешли к обучению отдельной модели: она отвечала за то, чтобы превратить набор цитат в связный и живой текст. Так бот превратился из поисковика по изречениям в систему, способную поддержать диалог
Приняли решение двигаться по agile-методологии с недельными спринтами: еженедельно демонстрировали заказчику текущую версию прототипа, он оценивал релевантность ответов, давал фидбэк и мы двигались дальше. Прототипами были персонажи или отдельные их компоненты
Сложности были с форматом подачи материалов в нейросеть: мы пробовали оставлять и убирать комментарии автора к речам Черчилля, добавлять собственную разметку, дробить тексты на мелкие фрагменты и много всего такого
Результаты
Мы сделали этот проект в 2021 году и вместе с заказчиком получили колоссальный полезный опыт в работе с генеративным ИИ еще до выхода всех современных языковых моделей
Проект должен был стать медийно успешным, потому что у него нет конкретного бизнес-применения — он решал пиар-задачи. И у нас получилось: пользователям нравилось с ним взаимодействовать, они активно делились ссылкой с друзьями в соцсетях, а многие медиа, включая РБК, рассказывали о нем в своих материалах
Свяжитесь с нами
Соцсети
Если у вас остались вопросы, напишите нам или оставьте заявку, и мы поможем с вашим вопросом
Связаться
© 2024 GenAI Lab
Политика Конфиденциальности