Яндекс

Нейросети Яндекса расшифруют архивные рукописные документы

Яндекс научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. Рукописи, которые неподготовленному человеку сложно разобрать, технология Яндекса почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.

Елена Бубнова,
руководитель поиска Яндекса:

Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах Яндекса.

«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. Теперь база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.



Искать можно по материалам XVIII — начала XX веков, которые больше всего пользуются популярностью у пользователей. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями Яндекса. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

Контакты
Пресс-служба компании «Яндекс»
Вера Хитеева
Тел.: +7 495 739-70-00
Электронная почта: pr@yandex-team.ru 

ООО «Яндекс»

Штаб-квартира в России: Москва

Штаб-квартира
119021, Москва, ул. Льва Толстого, 16
Коммерческий отдел
Отдел по связям с инвесторами
Отдел по связям с общественностью
Корпоративный секретарь
Отдел устойчивого развития

Яндекс Н.В.

Адрес регистрации головной компании в Амстердаме

Schiphol Boulevard 165, 1118 BG Schiphol, The Netherlands