Orodja za presojo in opis orodja

Tretja izdaja Slovarja slovenskega knjižnega jezika je naslednica Slovarja slovenskega knjižnega jezika ter njegove prenovljene različice SSKJ2. Gre za slovar s statusom informativno-normativnega priročnika, ki ga popolnoma na novo izdelujemo v leksikološki sekciji Inštituta za slovenski jezik Frana Ramovša ZRC SAZU od leta 2015. Glede na način objave slovarskih sestavkov je to rastoči slovar, ki ga objavljamo v obliki e-knjig, z oznako eSSKJ pa je dostopen tudi v okviru slovaropisnega portala www.fran.si. Prikazali bomo nekaj vidikov slovaropisnega dela, ob katerih se pokaže koristnost sodobnih slovaropisnih orodij. Predstavili bomo uporabo jezikovnega korpusa in slovaropisnega programa za vnos in urejanje slovarskih podatkov oz. izdelavo slovarskih sestavkov.

Besedišče

Glavno orodje, ki ga uporabljamo za slovaropisno presojo, so jezikovni korpusi oziroma ogromne zbirke besedil. Ker so korpusi namenjeni vrsti jezikoslovnih (še zdaleč ne le slovaropisnih) analiz, je vsaka posamezna beseda v njih opremljena z oblikoslovnimi podatki in podatki o viru besedil. Jezikoslovec lahko podatke v korpusu išče in razvršča na veliko načinov. Slovaropisci uporabljamo jezikovne korpuse, v katere so zajeta zlasti pisna publicistična, leposlovna, strokovna in različna spletna besedila, v manjši meri pa tudi zapisana govorna besedila. Korpusi govorjenih besedil pri nas in po svetu so zaenkrat še premajhni (slovenski obsega zgolj okrog 120 ur posnetkov), zato lahko predstavljajo le pomožno orodje za kakšno specifično vprašanje. Pogostnost besede v jezikovnem korpusu pisnih besedil je eno izmed bistvenih meril za uvrstitev besede v splošni slovar, saj korpus predstavlja kakovosten vzorec dejanske jezikovne rabe. Tretjo izdajo SSKJ uvrščamo med splošne slovarje, ki vsebujejo okoli sto tisoč besed oziroma slovarskih iztočnic, z njimi pa je povezana še množica večbesednih enot (frazemov in stalnih besednih zvez nefrazeološkega tipa). Objava slovarskih sestavkov ne poteka po klasičnem abecednem vrstnem redu iztočnic. Iztočnice, ki smo jih prednostno obravnavali od leta 2015, so bile izbrane, ker vsaka izmed njih prinaša s seboj določen problem, ki ga želimo čim prej razrešiti in s tem vzpostaviti vzorčne, tipske primere za nadaljnje delo. Slovaropisci letno izdelamo bistveno več slovarskih sestavkov, kot jih proti koncu leta objavimo. Ne gre za skopuštvo. Razlog za to, da objavljamo le »vrh slovarske gore«, velika količina v različni meri izdelanih sestavkov pa čaka na naslednje objave, je v težnji po preverjanju posameznih načinov opisa na večjem številu opisovanih enobesednih ali večbesednih iztočnic. Nujno je recimo izdelati pomenske razlage več samostalnikov, s katerimi poimenujemo posamezne tipe rastlin, da smo lahko prepričani, da lahko določen model opisa uporabimo večkrat. Zato se pogosto zgodi, da je vzporedno z iztočnico, ki jo trenutno pretresamo, obdelanih še nekaj iztočnic, in sicer v različni meri, tako da niso vse zaključene in godne za objavo. V kateri fazi dela se nahaja določen sestavek, sproti beležimo v slovaropisnem programu, ki ga bomo opisali v nadaljevanju.
Jezikovni korpus med drugim omogoča pomenske analize besed, ki so za slovarsko razlago pomena nujno potrebne. Slovaropisec v korpusu lahko ugotavlja pomene in podpomene besede s pregledom več stotih zgledov njene sodobne rabe (v primeru našega splošnega slovarja od 90. let dalje) v različnih tipih besedil. S pomočjo korpusa ugotavljamo tudi, ali se določen frazem in njegove variante (npr. »igra mačke z mišjo« pa tudi »igra mačke in miši«) uporabljajo dovolj pogosto, da so za slovar relevantne. Korpus nam zaradi pogoste vezljivosti določenih besed v okviru frazemov omogoča tudi iskanje novih, do sedaj še neodkritih ali pa vsaj takih frazemov, ki jih dosedanji slovarji niso obravnavali. S pomočjo tako obsežnega korpusa, kot je danes na voljo, lahko slovarskim uporabnikom prvič ponudimo variante frazemov, ki so s pomočjo analize pogostnosti empirično določene kot najbolj pogoste in v slovarju urejene tako, da je najbolj pogosta oblika na vrhu, ostale pa ji sledijo. Pri izdelavi slovarja uporabljamo tudi »besedne skice«. To orodje pri delu z jezikovnim korpusom omogoča prepoznavanje skladenjskih struktur in besed, ki se tipično pojavljajo ob obravnavani besedi, s čimer po eni strani ugotavljamo, kako se običajno izražamo (npr. »stroj opere obleko«, ne pa »stroj umije obleko«), obenem pa je tudi izhodišče za iskanje večbesednih enot (»rdeča mušnica« in»zelena mušnica«, ne pa »vijolična mušnica«).

Digitalna slavoropisna orodja

Osrednje orodje za izdelavo slovarja predstavlja slovaropisni program. V njem so podatki zapisani v obliki XML, omogoča pa zapis podatkov in validacijo njihove strukture (na podlagi sheme XML), različne prikaze podatkov na zaslonu (drevesna struktura, različna oblikovanja), izvoz v različne oblike (XML, HTML, PDF itd.), povezovanje med različnimi slovarskimi bazami, pretvorbo dokumentov (transformacije XSL), uporabo prilagojenih predlog za hitrejše delo, izdelavo statistike, primerjavo različic istega dokumenta, upravljanje poteka dela po različnih fazah. Program tudi samodejno preverja, ali so elementi strukture razvrščeni na prava mesta in ali kaj manjka. Omogoča tudi hitro in kompleksno iskanje po slovarski bazi, da lahko preverimo pretekle slovaropisne odločitve, predvsem pa lažje težimo k izpolnjevanju znane slovaropisne maksime, da je potrebno enake in podobne fenomene opisovati na enak ali podoben način.
Za primer vzemimo pomenske razlage. Da bi lahko pomen besedišča knjižnega jezika teoretično in metodološko ustrezno razlagali, ne zadošča samo, da si s pomočjo jezikovnega korpusa ogledamo množice zgledov rab določene besede. Ustvariti je treba množice modelov za opis besed, ki opisujejo sorodne fenomene, npr. glagole, ki opisujejo zvoke ali čustvovanje, ali pa samostalnike, ki opisujejo rastline ali poklice. Slovaropisec mora tak model opisa preveriti na čim večjem številu besed, preden gre posamezna beseda s pomensko razlago, ki je narejena po tem modelu, v objavo v rastočem slovarju. Z enostavnim iskalnim pogojem tako lahko npr. poišče vse zvoke, ki so bili do določenega trenutka opisani v slovaropisnem programu. Pomenske sestavine besede, ki jih je določil s pomočjo analize jezikovnega gradiva, slovaropisec ureja v razlage pomenov. Pri tem mora biti pozoren ne le na usklajenost pomenskih razlag povezanih fenomenov (načelo razlaganja podobnega na podoben način), temveč mora podobno uskladiti tudi razlage v okviru besednih vrst in besednih družin. Skrbeti mora torej ne le za to, da bo razlaga pomena posamezne besede (npr. »blog«) korektna, strnjena in razumljiva, temveč da bodo vsebinsko primerljivo oblikovane tudi pomenske razlage npr. pri besedah »blogerka«, »bloger«, »blogerski« ali »bloganje«. Pri usklajevanju opisa besed, ki pripadajo istim besednim vrstam, je pozoren npr. na enotno slovarsko obravnavo vrstnih pridevnikov. S pomočjo iskalnega orodja v slovaropisnem programu tako npr. poišče vse samostalnike, pri katerih v pomenski razlagi v vlogi osrednje pomenske sestavine nastopa izraz »poklic«, in tako lažje uskladi pomenske razlage različnih poklicev.
Na podoben način lahko iskalna orodja uporabljamo še pri drugih delih slovarskega opisa, recimo pri urejanju slovarskih zgledov, kvalifikatorjev, pojasnil, etimološke osvetlitve, frazemov in nefrazeoloških stalnih besednih zvez, ki vsebujejo določeno besedo kot sestavino. Poleg omenjenih nujnih delov slovarskega opisa v slovaropisni program vpisujemo tudi različne opombe, o katerih že vnaprej vemo, da jih v slovarju ne bomo prikazali, vendar so dragocena opažanja, ki nam lahko koristijo v prihodnjih slovaropisnih delih ali jezikoslovnih raziskavah. V program beležimo tudi, v kateri fazi se neka iztočnica nahaja, tako da imamo ves čas pregled recimo nad tem, koliko besed ima že urejeno z njimi povezano frazeologijo, ali pa, koliko besed čaka na posvet slovaropisca s terminološkim svetovalcem, ki je za določen del besedja nujen. Ko uporabljamo program, si lahko isti slovarski sestavek ogledamo s preklapljanjem med več različnimi pogledi; npr. s podrobno razčlenjenim prikazom vseh podatkov in opomb o določeni slovarski iztočnici – torej vključno s podatki, ki v slovar ne sodijo – ter tudi s prikazom v obliki, podobni tej, v kakršni bo sestavek objavljen v slovarju, ali s prikazom, prilagojenim za urejanje etimoloških podatkov.
Ker izdelujemo popolnoma nov slovar, podatkov iz starejših splošnih slovarjev (iz SSKJ, njegove posodobljene različice SSKJ2 ter iz Slovarja novejšega besedja) vanj ne prepisujemo, jih pa kritično primerjamo s podatki v novem slovarju. Pomembno orodje pri tem predstavlja portal www.fran.si, saj omogoča zahtevno iskanje, s katerim na podoben način, kakršnega smo opisali v primeru slovaropisnega programa, lahko natančno iščemo želene sestavine slovarskega opisa. Slovaropisni portal www.fran.si je po svojih tehničnih zmogljivostih in elegantnosti prikaza podatkov nedvomno v svetovnem vrhu, kar se je potrdilo tudi pri njegovih predstavitvah na konferencah in strokovnih srečanjih v tujini. V delovni vsakdanjik slovaropisca v leksikološki sekciji pogosto sodi tudi posvet o spletnem prikazu slovarskih sestavkov. Ne le da sodelavci tuhtamo o tem, kako najbolj nazorno in pregledno prikazati veliko količino podatkov o določeni iztočnici, temveč svojo pozornost namenjamo tudi težnji po čim večji usklajenosti z grafično podobo in navigacijskimi ter iskalnimi zmožnostmi portala Fran.
Med drugimi orodji, s katerimi si pomagamo pri slovaropisnem delu, omenimo še različne specializirane ankete. Tako anketo smo uporabili pri raziskavah sodobne slovenske paremiologije oziroma tistega dela frazeologije, ki vsebuje pregovore ter sorodne žanrske stavčne frazeme (paremije). Iskanje frazeoloških in paremioloških enot v jezikovnem korpusu je namreč ena od zahtevnejših nalog pri obdelavi korpusnih podatkov, saj jih orodja ne najdejo samodejno, zato nam anketa ponuja nabor kandidatov za vključitev v slovar. Preverjamo frazeme, ki so že v dosedanjih slovarjih, poleg tega pa zabeležimo veliko novih enot, ki do sedaj še niso bile uslovarjene, mnogih izmed njih pa ne najdemo niti v objavljenih zbirkah. V anketo o stopnji poznanosti pregovornih enot (paremij) na naslovu www.vprasalnik.tisina.net se je vključilo že preko 2200 ljudi, število pa še raste. Poleg tega, v kolikšni meri določeno paremijo govorci aktivno rabijo, pasivno poznajo ali pa ne poznajo, nam anketa prinaša podatke o njihovih variantah, ki jih kasneje lahko preverjamo v jezikovnem korpusu. Ankete smo uporabili tudi za ugotavljanje oblikovnih in izgovornih značilnosti knjižne slovenščine, saj v korpusih podatkov o izgovoru ni, nekatere oblike pa se zaradi svoje redkosti pojavljajo preredko ali celo nikoli. Ankete tako uporabljamo za ugotavljanje načina pregibanja nekaterih samostalnikov, oblik nekaterih samostalnikov v posameznih sklonih, kategorije živosti pri samostalnikih prve moške sklanjatve, za ugotavljanje naglasnega mesta, kakovosti naglašenih e in o, izgovora prevzetih besed ter tonemskega naglasa. Pregibnostno-naglasne vzorce za vsako posamezno slovarsko iztočnico novi splošni slovar prikazuje v celoti in je tako prvi slovenski slovar, ki za vse besede prikazuje vse njihove oblike z naglasnimi podatki vred. S pomočjo obširne ankete smo v letu 2017 preverjali tudi pričakovanja slovarskih uporabnikov različnih profilov glede različnih jezikovnih pripomočkov.
Tako kot v jezikoslovju na isto stvar pogosto pogledamo tako z diahronega kot sinhronega vidika. Ozremo se lahko tudi na delo slovaropiscev, ki so pripravljali posamezne izdaje SSKJ v sedemdesetih in osemdesetih letih ter ga primerjamo z našim delom. V diahronem smislu ga seveda lahko primerjamo s sedanjim stanjem stroke in metod dela. Orodja so se bistveno izboljšala, marsikje zelo pohitrila, vendar pa ravno s tem prinesla višja pričakovanja ne le javnosti, temveč tudi raziskovalcev samih in njihovih strokovnih kolegov. V sinhronem smislu pa moramo tedanji način in rezultate slovaropisnega dela oceniti tudi s predpostavko, da si slovaropisec v kateremkoli obdobju želi v največji možni meri izkoristiti dana orodja, zabeležiti dragocene stranske podatke, obenem pa skrbeti za zgledno zajetnost in čas objav. V splošnem smislu smo pravzaprav snovalci trenutnega rastočega splošnega slovarja v zelo podobnem položaju, v kakršnem so bili snovalci SSKJ: s pomočjo najboljših orodij, ki so nam na razpolago, želimo prikazati čim bolj celovito in natančno sliko sodobne rabe knjižnega jezika.

Avtor prispevka se zahvaljuje kolegom za koristne vsebinske pripombe.