Яндекс

Нейросеть Яндекса за год расшифровала более 10 миллионов страниц исторических документов в Поиске по архивам

Сервис Яндекса Поиск по архивам помогает историкам, социологам, демографам и журналистам находить информацию об исторических событиях и личностях, а обычным людям — больше узнать о своих предках. Работать с архивными документами так же легко, как с привычным Поиском: достаточно ввести слово, упоминание которого нужно найти, в поисковую строку. За год с момента запуска сервиса пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз.

Первым партнёром Поиска по архивам стал Главархив Москвы. Именно на предоставленных им текстах нейросеть обучалась расшифровывать устаревшие символы и рукописи. На данный момент в базу Поиска по архивам загружено более 5,4 миллиона страниц исторических материалов из Главархива Москвы — это больше половины всех документов сервиса.

Сейчас в Поиске по архивам есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего за год работы сервиса нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: это более 10 миллионов страниц или 492 миллиона строк. В Поиске по архивам хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки) с информацией о людях, родившихся в России до революции.

Кроме того, в сервисе собраны 3,6 миллиона оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Технология расшифровки в Поиске по архивам основана на оптическом распознавании символов. Нейросеть узнаёт утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности.

О Поиске по архивам

Поиск по архивам — запущенный в начале 2023 года сервис Яндекса, который помогает быстро находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетью рукописных документах XVIII–XX веков. В базе сервиса представлено более 10 миллионов страниц исторических документов из архивов Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей, а также нескольких муниципальных архивов. Кроме того, в сервисе можно искать информацию в архивах епархиальных ведомостей, «Советского спорта», «Вечерней Москвы».

Контакты:

Пресс-служба компании «Яндекс»
Игорь Ивченко
Тел.: +7 495 739-70-00
Электронная почта: pr@yandex-team.ru

МКПАО «Яндекс»

Основной офис в России: Москва

Основной офис
119021, Москва, ул. Льва Толстого, 16
Коммерческий отдел
Отдел по связям с инвесторами
Отдел по связям с общественностью
Корпоративный секретарь
Отдел устойчивого развития