Fundi i mistereve? Vatikani publikon 53 milje lineare dokumente sekrete

Tuesday, 15 May 2018 13:29

Sam Kean/ The Atlantic

Arkivat Sekrete të Vatikanit janë një nga koleksionet më të mëdha historike në botë. Gjithashtu një nga më të padobishmet. Madhështia është e qartë. Vendosur brenda mureve të Vatikanit, në afërsi të Bibliotekës Apostolike dhe në veri të Kapelës Sistine, VSA strehon 53 kilometra linear raftesh që shkojnë mbrapa në kohë më shumë se 12 shekuj. Ai përfshin thesare të tilla si Qarkorja papnore që shkishëroi Martin Lutherin dhe lutjet për ndihmë që Maria, Mbretëresha e Skocezëve i dërgoi Papa Sikstit V para ekzekutimit. Në madhësi dhe në lëndë, koleksioni është thuajse i pashoq.

Thënë këtë, VSA nuk u hyn shumë në punë akademikëve modernë, sepse është e paaksesueshme. Nga ato 53 milje, vetëm disa faqe me vlerë prej disa milimetrash janë skanuar dhe vënë në dispozicion në internet. Edhe më pak faqe janë transkriptuar në tekst kompjuterik dhe janë bërë të kërkueshme. Nëse dëshironi të lexoni ndonjë gjë tjetër, duhet të aplikoni për akses të posaçëm, të shkoni deri në Romë dhe të kaloni nëpër çdo faqe me dorë.

Por, një projekt i ri mund të ndryshojë gjithçka. I njohur si Kodice Ratio, ai përdor një kombinim të softuerit të inteligjencës artificiale dhe të njohjes së karakterit optik (OCR) për të ndriçuar këto tekste të lëna pas dore dhe për të bërë transkriptet e tyre të disponueshme për herë të parë. Po të jetë e suksesshme, teknologjia mund të hapë gjithashtu një numër të madh të dokumenteve të tjerë në arkivat historikë në mbarë botën.

OCR është përdorur për të skanuar libra dhe dokumente të tjera të shtypura për vite, por nuk është i përshtatshëm për materialin në arkivat sekrete. OCR-ja tradicionale i ndan fjalët në një seri shkronjash-imazhe duke kërkuar hapësirat mes shkronjave. Më pas ai krahason çdo shkronjë-imazh me bankën e shkronjave në memorjen e tij. Pasi vendos se cila shkronjë përputhet më mirë me imazhin, programi përkthen shkronjën në kodin e kompjuterit (ASCII) dhe kështu e bën tekstin të kërkueshëm.

Ky proces, megjithatë, punon vetëm për tekstin e shtypshkruar. Nuk bën pesë lekë për gjërat e shkruara me dorë, si shumica e dokumenteve të vjetra të Vatikanit. Ja një shembull nga fillimi i 1200, e shkruar në atë që quhet germë Caroline, e cila duket si një përzierje e kaligrafisë dhe kursivit:

Problemi kryesor në këtë shembull është mungesa e hapësirës midis shkronjave (të ashtuquajturat ndarje e ndotur). OCR nuk mund të tregojë se ku ndalet një shkronjë dhe ku fillon një tjetër, dhe për këtë arsye nuk e di sa shkronja ka. Rezultati është një bllokim kompjuterik, ndonjëherë i referuar si paradoksi i Sayre-it: softueri OCR duhet të segmentojë një fjalë në shkronja individuale përpara se t’i njohë ato, por në tekstet me shkronja të shkruara me letra të lidhura, softueri duhet të njohë shkronjat për t’i segmentuar ato. Është një labirint.

Disa shkencëtarë të kompjuterëve janë përpjekur ta zgjidhin këtë problem duke zhvilluar një OCR që njeh të gjithë fjalët në vend të shkronjave. Kjo punon mirë teknologjikisht, kompjuterat nuk “duan t’ia dinë” nëse janë duke analizuar fjalë ose shkronja. Por, ngritja e këtyre sistemeve është një barrë, sepse ata kërkojnë banka memorjeje të paana. Në vend të disa gërmave të alfabetit, këto sisteme duhet të njohin imazhet e mijëra e mijëra fjalëve të zakonshme. Që do të thotë që ju nevojitet një togë e tërë e dijetarëve me ekspertizë në latinishten mesjetare për të kaluar nëpër duar dokumente të vjetra dhe për të kapur imazhet e çdo fjale. Në fakt, ju duhen disa imazhe të secilës, për të llogaritur problemet në dorëshkrime ose ndriçim të keq dhe variabla të tjerë. Është një detyrë e frikshme.

Në Kodice Ratio këto probleme anashkalohen përmes një qasjeje të re të OCR të dorëshkruar. Katër shkencëtarët kryesorë pas projektit-PaoloMerialdo, Donatella Firmani dhe Elena Nieddu në Universitetin Roma Tre, dhe Marco Maiorino nga VSA, e shmangin Paradoksin e Sayre-it me një inovacion të quajtur ‘segmentim me bashkim pjesësh’. Ky proces, siç ekipi kohët e fundit e përshkruan në një artikull, thyen fjalët jo në shkronja, por diçka më afër goditjeve individuale të stilolapsave. OCR e bën këtë duke ndarë secilën fjalë në një seri grupesh vertikale dhe horizontale dhe duke kërkuar minimale lokale – pjesët e holla, ku ka pak bojë (ose me të vërtetë, më pak pixels). Softueri pastaj i gdhend shkronjat në këto nyje. Rezultati përfundimtar është një seri copëzash:

….Mos u eksito Dan Brown, “sekret” në emrin ‘Arkivat Sekrete të Vatikanit’ nuk i referohet ndonjë gjëje klandestine apo konspiratore. Ajo thjesht do të thotë se arkivat janë pronë personale e papës; ‘arkivat private’ ndoshta do të ishte një përkthim më i mirë i emrit origjinal, Archivum Secretum. Megjithatë, deri vonë, VSA mund të ketë qenë sekrete për shumicën e botës, të mbyllur dhe kryesisht të paarritshëm. “Është e mahnitshme për ne që t’i kthejmë këto dorëshkrime në jetë,” thotë Merialdo, “dhe ta bëjmë të kuptuarit e tyre dispozicion të të gjithëve.

Modifikuar më Tuesday, 15 May 2018 13:31