Яндекс

Нейросети Яндекса помогут быстро найти информацию в архивах «Советского спорта» за 100 лет

Нейросети Яндекса распознали 24 тысячи выпусков газеты «Советский спорт». Теперь они доступны в сервисе Поиск по архивам. Пользователи не только увидят сканы практически всех выходивших с 1922 по 2022 год номеров легендарной газеты, но и получат возможность искать в них информацию так же, как в интернете. Журналисты, историки и любители спорта смогут быстро находить нужные сведения. Например, упоминания конкретных людей, событий и соревнований.

Для работы с «Советским спортом» распознающую тексты нейросеть потребовалось адаптировать под особую вёрстку газетных страниц. Это огромные развороты формата А2 со множеством колонок, врезок и рекламных блоков с мелкими буквами на специфической бумаге низкой плотности — считывать информацию с неё сложнее.

Разработчики научили нейросети ориентироваться в газетах на примере специально созданного набора данных. Специалисты вручную обработали тысячи страниц, выделив на каждой десятки, а иногда и сотни текстовых блоков: от заголовков и колонок до шахматных нотаций и надписей на форме спортсменов.

Проект реализован в рамках партнёрства Яндекса с «Советским спортом» и Национальной электронной библиотекой (НЭБ), которая агрегирует и представляет пользователям в цифровом формате документы из фондов российских библиотек. Архив «Советского спорта» был передан Российской государственной библиотекой (оператором НЭБ).

В архивах «Советского спорта» можно найти, например, интервью легенды советского футбола Игоря Нетто, статью о необычном подходе к трансферам в середине прошлого века в Бразилии и заметку о том, что австрийская футбольная ассоциация больше не намерена терпеть в составах команд игроков с причёской в «стиле битлз».

Забавные материалы из старых выпусков «Советского спорта»

Улучшенная технология распознавания, которая применялась для работы с выпусками «Советского спорта», в перспективе позволит лучше ориентироваться в других типах сложной вёрстки. Например, они часто встречаются в рукописных архивах. Также с ними регулярно сталкиваются пользователи функции перевода по фото в Яндекс Переводчике и умной камеры в приложении Яндекс с Алисой.

Яндекс запустил Поиск по архивам в начале 2023 года. Сервис помогает быстро находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетями рукописных документах XVIII–XX веков. Помимо выпусков «Советского спорта» в базе сервиса представлено более 7 миллионов страниц исторических документов из архивов Москвы, Московской, Иркутской, Оренбургской и Новгородской областей, а также нескольких муниципальных архивов.

Контакты:

Пресс-служба компании «Яндекс»
Игорь Ивченко
Тел.: +7 495 739-70-00
Электронная почта: pr@yandex-team.ru 

ООО «Яндекс»

Основной офис в России: Москва

Основной офис
119021, Москва, ул. Льва Толстого, 16
Коммерческий отдел
Отдел по связям с инвесторами
Отдел по связям с общественностью
Корпоративный секретарь
Отдел устойчивого развития

Яндекс Н.В.

Адрес регистрации головной компании в Амстердаме

Schiphol Boulevard 165, 1118 BG Schiphol, The Netherlands