В Поиск по архивам добавили новый тип документов — справочники из фондов Национальной электронной библиотеки и Российской государственной библиотеки. Нейросеть Яндекса расшифровала почти 600 книг или 275 тысяч страниц с адресами, списками государственных служащих и информацией о недвижимости. Историки, социологи, демографы и журналисты смогут получить доступ к новым сведениям об исторических событиях и личностях, а обычные люди — ещё больше узнать о своих предках.
Памятные книжки — это официальные справочные издания, которые ежегодно выпускались в губерниях с 1830-х по 1917 год. Они содержали разного рода сведения о губернии: например, перечни учреждений, статистические данные, списки крупных землевладельцев и так далее.
В новых источниках в Поиске по архивам можно найти биографические факты, которые раньше были доступны только в бумажном виде. Например, памятные книжки содержат списки ключевых персон губерний с их должностями. Из адресных книг можно узнать, где они жили, а из торгово-промышленных справочников — каким делом занимались. Историков, искусствоведов и других специалистов может также заинтересовать реклама прошлых веков, размещённая в таких документах. Кроме того, в справочниках содержится информация о регионах, ранее не представленных в Поиске по архивам, например о Петербурге, Орловской, Воронежской и Калужской губерниях.
Благодаря сотрудничеству с Национальной электронной библиотекой и Российской государственной библиотекой ранее в Поиске по архивам впервые появились периодические издания: полные архивы «Советского спорта» и «Вечерней Москвы». В дальнейшем оцифрованных справочников станет ещё больше: нейросети Яндекса продолжат распознавать подобные документы и другие книги.
Как нейросети Яндекса распознают рукописные и печатные тексты
Технология расшифровки в Поиске по архивам основана на оптическом распознавании символов. Нейросеть узнаёт утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности.
О Поиске по архивам
Поиск по архивам — запущенный в начале 2023 года сервис Яндекса, который помогает быстро находить упоминания людей, населённых пунктов и событий в расшифрованных нейросетью рукописных документах XVIII–XX веков. В базе сервиса представлено более 12 миллионов страниц исторических документов из архивов Москвы, Московской, Оренбургской, Вологодской, Иркутской, Астраханской и других областей, а также нескольких муниципальных архивов. Кроме того, в сервисе можно искать информацию в архивах епархиальных ведомостей, «Советского спорта», «Вечерней Москвы» и «Сенатских ведомостей».
Пресс-служба Яндекса
Ольга Молодан
Тел.: +7 495 739-70-00
E-mail: pr@yandex-team.ru