Большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в Яндекс Переводчике. Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике.
Переводчик стал качественнее справляться с длинными и сложными текстами. Благодаря дообучению он лучше определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.
Зачем потребовалось обучать нейросеть в Переводчике с помощью YandexGPT
Яндекс использует технологию машинного перевода на основе нейросетей с 2018 года. Нейросеть в Переводчике обучалась только на парах текстов — оригиналах и их переводе на другой язык. Так она училась видеть взаимосвязи между ними и подражать им. Нейросеть, работающая в сервисе, легковесная: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени.
Большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому компания использовала её потенциал для создания эталонных примеров, чтобы расширить датасет и повысить его качество. Так нейросеть в Переводчике не утратила скорость своей работы, но стала умнее.
Для генерации эталонных обучающих примеров Яндекс разработал специализированную модель семейства YandexGPT, адаптировав её под задачи перевода. Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.
Работу дообученной нейросети в Переводчике оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев новая версия справлялась лучше.
Обновлённая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.
О Переводчике
Яндекс Переводчик — сервис для автоматического перевода более чем со 100 языков. Он может переводить надписи на картинках и фотографиях, целые сайты, отдельные тексты и поддерживает голосовой ввод. Сервис доступен на translate.yandex.ru и в виде мобильного приложения для Android и iOS. Также он интегрирован в приложение Яндекс с Алисой, где работает в связке с умной камерой и может переводить тексты в режиме реального времени, и в Яндекс Браузер.
Ранее Яндекс внедрил YandexGPT в Переводчик для редактирования текстов на английском языке. Модель помогает улучшить текст, переписать его в определённом стиле и исправить ошибки. Воспользоваться функцией можно в разделе «Редактор» — она доступна для всех пользователей в десктопной версии.
Пресс-служба Яндекса
Евгений Привалов
Тел.: +7 495 739-70-00
E-mail: pr@yandex-team.ru