Maija Spuriņa. Digitalizācija kā tulkošana no “cilvēkvalodas” uz “mašīnvalodu”

Īpaši neiedziļinoties muzeju priekšmetu digitalizācijā, tas varētu šķist kā tīri tehnisks process, kura veiksme atkarīga galvenokārt no tehnoloģijas pieejamības, personāla datoriemaņām un iespējas tam veltīt pietiekami daudz laika. Atliek sagādāt labāko tehniku, skenēt vai fotografēt, lai iegūtu pēc iespējas kvalitatīvāku attēlu vai pat 3D vizualizāciju, un ievadīt datorā visus līdz šim uz papīra glabātos datus par konkrēto priekšmetu. Bet patiesībā lieta nav ne tuvu tik vienkārša. Dāņu akadēmiķe Nanna Bonde Tilstrupa (Nanna Bonde Thylstrup) patiesi fascinējošā grāmatā Politics of Mass Digitization uzskatāmi parāda, ka digitalizācija ir ja ne tīri politisks process, tad politiski tehnisks gan. Viņa apraksta pēdējās piecdesmitgades lielākos masu digitalizācijas projektus – Google Books un Europeana – kā savstarpēji konkurējošus ASV un Eiropas lielo spēlētāju centienus kontrolēt globālo kultūras atmiņas telpu, kā arī “pagrīdes” digitālo bibliotēku – Monoskoplib.ru u. c. – vietu šajā cīņā. Savukārt es, pētot digitalizētos muzeju priekšmetus, esmu nākusi pie secinājuma, ka digitalizācija zināmā mērā ir pielīdzināma tulkošanai, jo fizisks muzeja priekšmets, kas uztverams ar cilvēka maņām, ir “jāpārtulko” mašīnām saprotamā jeb ar mašīnām apstrādājamā valodā.  

Ja cilvēkam uztverama un saprotama informācija var būt neskaidra, nepabeigta un daudznozīmīga, un reizēm, piemēram, dzejā, daiļliteratūrā vai kinematogrāfijā, šīs iezīmes pat piešķir konkrētajam vēstījumam īpašu vērtību, digitalizēto priekšmetu metadatos poētika, daudznozīmība un nenoteiktība ir trūkums. Tāpēc metadatu digitalizācijai jeb līdz šim papīra katalogos un uzskaites kartiņās uzglabātās informācijas ievadei digitālā datu bāzē nevar pieiet tehniski. Informācijas tulkošana mašīnvalodā, tāpat kā jebkura cita tulkošana, prasa gan disciplīnu un sistēmiskumu, gan bieži vien radošu, nevis burtisku pieeju. Pretējā gadījumā digitālie kopumi veidojas nevis kā pārskatāmas enciklopēdijas, bet kā atsevišķu piezīmju lapiņu kaudzes, kurās var nejauši uziet kādu dārgumu vai vērtīgu atziņu, bet kuras pārskatīt un apkopot ir neiespējami. Kā ilustrāciju šai idejai var izmantot datu bāzēs pieejamo informāciju par katra konkrētā digitalizētā priekšmeta izgatavošanas laiku.

Man kā atmiņu sociologam šķita interesanti noskaidrot, par kādiem laika periodiem (gadsimtiem, desmitgadēm, gadiem) mēs varam kaut ko uzzināt, izmantojot muzeju digitalizētos krājumus. Atmiņu socioloģijā tos sauc par atmiņu “kalniem” un “ielejām”, un šo terminu autors ir amerikāņu sociologs Īvieiters Zerubavels (Eviatar Zerubavel). Viņš savulaik grāmatā Time Maps: Collective Memory and the Social Shape of the Past norādīja, ka, kaut arī laika plūdums ir vienmērīgs katras kopienas atmiņā, atsevišķi laika periodi tiek pieminēti ļoti detalizēti, bet par citiem nav saglabājies gandrīz nekas. Viņš ilustrācijai izmanto lappušu skaitu, kas skolu vēstures grāmatās veltīts dažādām desmitgadēm. Daži vēstures periodi aprakstīti bagātīgi, bet citi nav pat pieminēti, tādējādi ļaujot secināt, kuri vēstures posmi ir attiecīgajai kopienai svarīgi un kuri ne. Izmantojot metadatus Latvijas Nacionālajā Muzeju Krājumu kopkatalogā (NMKK), es līdzīgā veidā analizēju Latvijas nācijas atmiņas ritmus, spriežot pēc digitalizētajiem muzeju krājumiem. Attēlā var redzēt rezultātu.

Screen Shot 2021-05-17 at 14.17.54.jpg

Ir skaidrs, ka 20. gadsimts Latvijas muzeju krājumos ir pārstāvēts nesalīdzināmi plašāk nekā jebkurš cits, tāpēc uzskatāmībai pievienoju divus citus attēlus.

Screen Shot 2021-05-18 at 07.29.26.jpg 

 Screen Shot 2021-05-18 at 07.29.35.jpg

Šoreiz gan gribu dalīties ne tik daudz ar pārdomām, kāpēc digitalizētie atmiņu ritmi ir tādi, kādi tie ir, bet gan ar tām pūlēm, kas ieguldītas, lai šos salīdzinoši vienkāršos grafikus iegūtu, un ko no tā var secināt par digitalizāciju kā tulkošanu. Lai iegūtu grafikus ar atmiņas ritmiem, no datu bāzes par katru priekšmetu man bija nepieciešams viens gada skaitlis (GGGG) vai, ja priekšmets attiecas uz vēsturisku periodu, divi gada skaitļi (no GGGG līdz GGGG). 

Varētu šķist, ka laiks ir samērā viegli digitalizējams lielums – tas tiek pierakstīts visiem zināmā starptautiskā sistēmā, kurai netraucē pat valodas barjeras, tāpēc iegūt man nepieciešamos datus vajadzētu būt samērā vienkārši. Tomēr, raugoties digitalizētajos datos, atklājās, ka viss ir daudz sarežģītāk. NMKK informācija par laiku atrodama 47 dažādos laukos. Daļa no tiem atšķiras pēc būtības un norāda uz dažāda veida datējumu – laiku, kad priekšmets izgatavots vai ievākts, reģistrēts vai lietots u. tml. Daļa datu dublējas, jo katrs muzejs var veidot pats savus informācijas laukus, ar kuriem aprakstīt savus priekšmetus. Bet, pat ja atlasa tikai tos laukus, kuri attiecas uz priekšmeta izgatavošanas datējumu, un apvieno tos, kas dublējas, izrādās, ka dati atšķiras arī pēc tā, cik precīzi priekšmeta izgatavošanas laiks ir nosakāms. No 47 laukiem savam mērķim izvēlējos četrus, kurus apvienojot varēja gūt informāciju par lielāko daļu (78 %) no visiem ievadītajiem priekšmetiem:

Izgatavošanas datums/gads,

Izgatavošanas datējums,

Aptuvens izgatavošanas datējums,

Cits datējums.

Visprecīzāk laiks norādīts laukā “Izgatavošanas datums/gads”, kur reizēm ievadīts precīzs datums (DD.MM.GGGG), reizēm – mēnesis un gads (MM.GGGG). un reizēm – tikai gads (GGGG). Papildu izaicinājumu piedod tas, ka reizēm šī informācija papildināta ar mēnesi un pat precīzu datumu. Lai šo informāciju apkopotu, tā ir jāpārvērš vienotā formātā (GGGG), tiekot vaļā no visiem punktiem, atstarpēm un norādot datoram, kuri no ievadītajiem cipariem attiecas tieši uz gadu. Ne vienmēr gads ir ievadīts kā pēdējais un ar četriem cipariem. Šeit izgaismojas pirmā atšķirība starp cilvēkiem un mašīnām saprotamu valodu. “Cilvēkvalodā” ir skaidrs, ka 24.10.1998. un 1998.10.24. ir viens un tas pats datums, bet datoram pirmais priekšmets tiks “pieskaitīts” pie 1998. gada, bet otrais – pie 24. gada. “Cilvēkvalodā” datums 24.10.98. atļaus nojaust, ka ar to domāts 1998. gads, bet mašīnvalodā tas tiks tulkots kā 98. gads. 

Laukā “Izgatavošanas datējums” datējumi parādās kā laika periodi, labākajā gadījumā – no noteikta gada līdz noteiktam gadam (no GGGG līdz GGGG), bet citos gadījumos gada skaitlim pievienots arī mēnesis un datums, kas rada jau iepriekš minētos tulkošanas izaicinājumus. Tāpat šajā laukā pie gada skaitļiem pievienoti apzīmējumi “AD” un “BC”. Ievadot datus, gadās kļūdas, kas cilvēkam, lasot datus, ir viegli identificējamas un labojamas, bet mašīnvalodā ne. Piemēram, cilvēks priekšmetu, kas datēts “no 01.03.1975 BC līdz 15.03.1975 BC”, noteikti uztvers kā priekšmetu no kristiešu ēras 1975. gada, turpretī “mašīnizpratnē” tas būs priekšmets no 20. gadsimta pirms mūsu ēras. 

Jo mazāk skaidrības muzejam ir par priekšmeta datējumu, jo grūtāk šo informāciju pārtulkot mašīnvalodā. Laukā “Aptuvens izgatavošanas datējums” un “Cits datējums” parādās vēl jauni tulkošanas izaicinājumi. Sastopami cilvēkam pilnīgi saprotami, bet mašīnai nesaprotami formulējumi:

- “Ap 1999. gadu”. Cik gadus “ap” būtu jāizmanto – “1998–2000” vai varbūt “1997–2001”? Un vai pieskaitāmie gadi mainās, ja minētais aptuvenais gads ir apaļš – “1920”, “1900” vai daudz tālākā pagātnē, piemēram, “300 BC”? Cilvēks, lasot šos datus, visticamāk, pieliktu gadu pie tuvākiem un neapaļiem gada skaitļiem, vairākus gadus pie apaļiem gada skaitļiem un, iespējams, vēl ilgāku periodu – pie senākiem un apaļiem gada skaitļiem.  

- “1960to gadu vidus” vai “beigas” vai “sākums”, kā arī “20. gs. vidus”, “beigas” vai “sākums”. Kad sākas un kad beidzas “sākums”, “beigas” vai “vidus”? Vai gadsimta sākums ir garāks nekā desmitgades sākums? Cilvēka izpratnē šie formulējumi ir saprotami, un, visticamāk, to nozīme mainās no situācijas un konteksta. Bet, tulkojot mašīnvalodā, ir nepieciešama precīza matemātiska formula. 

- Tāpat kā iepriekš, tās kļūdas, kas lasītājam-cilvēkam ir viegli identificējamas un labojamas, mašīnai paliek neredzamas. Piemēram, redzot datējumu “19. gs. 37tie gadi”, cilvēkam ir skaidrs, ka tas, visticamāk, nozīmē 1937. gadu, bet dators to traktēs kā kļūdu.

Visspilgtāk atšķirības starp cilvēku un mašīnu valodu un izpratni parādās, tulkojot lauku “Cits datējums”. Šajā laukā nereti lietoti apzīmējumi, kas cilvēkam ietver ļoti bagātīgu informāciju, bet datoram paliek neizprotami. Piemēram, “Aleksandra I laiks” vēstures zinātājam vai – manā gadījumā – Wikipedia lietotājam ir viegli iztulkojams kā “1801–1825”. Savukārt iekavas un jautājuma zīme datējumā “15.–16.(?) gs.” cilvēkam norāda, ka datu ievadītājs nav īsti pārliecināts par šo informāciju, bet datoram liek to traktēt kā nesaprotamu vai kļūdainu. Mani mīļākie piemēri ir “pēc 1422.–1426. g. naudas reformas” un “pēc Ē. Mugurēviča klasifikācijas, 12.–14. gs.”. Pirmais gadījums cilvēkam ir pat ļoti saprotams – konkrētā monēta ir izdota pēc 1422.–1426. gadā veiktās naudas reformas. Bet mašīnvalodā pārtulkot šo informāciju ir grūti, jo nav saprotams beigu gads. Savukārt otrais piemērs cilvēkam, kurš nepārzina dažādās klasifikācijas, liktu pieņemt, ka tas ir “12.–14. gadsimts”, bet mašīnu šis formulējums vienkārši samulsinātu. 

Lielu daļu no šīm problēmām varētu novērst ar rūpīgāk pārdomātu datu bāzes strukturējumu, kur katram muzeja darbiniekam, kas ievada datus, nav pašam jāzīlē vēlamais formāts un kur šaubām par precizitāti vai atsaucēm uz dažādām klasifikācijas sistēmām ir atvēlēts atsevišķs lauks. Tomēr pat ļoti pārdomātā un labi strukturētā datu bāzē grūtības pārtulkot no aptuvenās, tēlainās un daudznozīmīgās cilvēku valodas uz precīzo mašīnvalodu nepazustu. Tās vienkārši tiktu pārnestas uz datu ievadītāju, kuram būtu nemitīgi jāpieņem lēmumi un jāsaprot, kā datu bāzes precīzajos lodziņos ievadīt informāciju, ka priekšmets ir izgatavots aptuveni 15.–16. gadsimtā, bet īstas pārliecības par to nav, un ka, pēc Mugurēviča sistēmas, tas varētu būt pavisam cits gadsimts. 

 

Raksts tapis, pateicoties ERAF Pēcdoktorantūras pētniecības atbalsta programmā finansētam projektam “Digitalizācijas prakses nacionālajos muzejos un to ietekme uz muzeju nacionalizāciju un transnacionalizāciju” Nr. 1.1.1.2/VIAA/2/18/252).

Attēls: https:laptrinhx.com

Maija Spuriņa

Socioloģe, Latvijas Kultūras akadēmijas pētniece. Doktora grādu socioloģijā ieguvusi Jaunajā sociālo pētījumu augstskolā (New School for Social Research) Ņujorkā, ASV. Interesējas par sabiedrības atmiņu, kultūru un politiku.