Yandex a învățat rețelele neuronale să descifreze înregistrările de arhivă cu ortografie complexă
Miscelaneu / / April 03, 2023
Manuscrisele istorice, care sunt greu de analizat de către o persoană, sunt aproape instantaneu convertite de inteligența artificială în text tipărit.
Yandex a lansat un nou serviciu numit Archive Search, care folosește rețele neuronale pentru a descifra înregistrările de arhivă cu ortografie complexă pre-revoluționară.
Serviciul oferă acces la peste 2,5 milioane de pagini de documente istorice cu transcriere text. Algoritmul său, construit pe baza unui sistem optic de recunoaștere a caracterelor, ia în considerare particularitățile scrisului de mână, recunoaște scrisorile care și-au pierdut relevanța și înțelege structura specială a documentelor de arhivă.
Specialiștii companiei au instruit rețeaua neuronală pe o serie de date de sute de mii de linii scrise de mână din texte reale din secolele XVIII-XIX și zeci de milioane de exemple generate.
Manuscrise care sunt dificil de analizat pentru o persoană nepregătită, tehnologia Yandex se transformă aproape instantaneu în text tipărit. Datorită acestui lucru, în baza de date a serviciului, puteți găsi rapid documente cu mențiunea numelui de familie, localității sau orice alte cuvinte.
„Căutarea în arhive” va spori eficiența muncii istoricilor, sociologilor, demografilor, genealogiștilor și îi va ajuta pe cei care caută informații despre familia lor.
Primul fond prezentat în serviciu a fost Arhiva Principală a Moscovei - pe materialele sale dezvoltatorii au antrenat rețeaua neuronală. Baza de date conține și documente din arhivele regiunilor Orenburg și Novgorod. În timp, numărul de stocări și fișierele scanate disponibile va crește.
Puteți căuta materiale din secolul al XVIII-lea - începutul secolului al XX-lea, care sunt cele mai populare printre utilizatori. Acestea sunt registre parohiale, foi de spovedanie și povești de revizuire cu rezultatele recensământului populației. Documentele pot fi găsite în catalog sau prin bara de căutare. Există filtre pe ani, arhive, fonduri și inventare.
Lângă scanarea fiecărei pagini este afișată o decodare linie cu linie realizată de rețelele neuronale. Dacă treceți cu mouse-ul peste fragmentul dorit, acesta va fi imediat evidențiat pe copia digitală.