Исследователь из научного отдела Яндекса Владимир Малиновский разработал сервис для запуска большой языковой модели с 8 млрд параметров на обычном компьютере или смартфоне — через интерфейс любого браузера. Такой подход может значительно сократить расходы корпораций, стартапов и исследователей на вычислительные мощности, что сделает разработку и использование LLM дешевле. Исходный код проекта исследователь опубликовал в свободном доступе на GitHub.
Перенести все вычисления на устройство и отказаться от использования дорогостоящих мощных графических процессоров удалось с помощью технологии сжатия нейросетей AQLM, которую разработала команда Yandex Research совместно с исследователями из университетов ISTA и KAUST летом 2024 года.
Протестировать проект можно по ссылке. Когда пользователь открывает платформу, на его устройство из облака можно загрузить модель Llama3.1-8B. Её размер уменьшен в 6 раз — она весит всего 2,5 ГБ. После загрузки она может работать даже без интернета. Скорость ответов нейросети зависит от производительности устройства: например, на MacBook Pro M1 она составляет 1,5 токена в секунду или 3–4 символа.
Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера.
Модель сжата с помощью комбинации методов AQLM и PV-tuning. Первый значительно уменьшает размер модели (до восьми раз) и ускоряет её, а второй исправляет ошибки, которые возникают при сжатии, чтобы потери в качестве работы нейросети были незначительны. Так, несмотря на уменьшение Llama3.1-8B, удалось сохранить около 80% от первоначального качества её ответов. Подробнее о методах сжатия, применённых в проекте, можно прочесть в статье на Habr.
О Yandex Research
Yandex Research — команда исследователей, которая изучает фундаментальные вопросы в области искусственного интеллекта. Инженеры-исследователи Яндекса занимаются обработкой естественного языка, компьютерным зрением, нейросетями и не только. Команда Yandex Research создаёт решения, которые будут внедрены в продукты компании и принесут пользу людям. Благодаря ей Яндекс стал одной из лидирующих технологических компаний по числу научных публикаций на NeurIPS, ICML и других главных международных конференциях по машинному обучению.
Пресс-служба компании «Яндекс»
Даниил Фарафонов
Тел.: +7 495 739-70-00
Электронная почта: pr@yandex-team.ru