Jaak Vilo, professor, andmeteaduse magistriõppekava programmijuht

Kahe aastaga jõudsid sisseastumisest lõpetamiseni kakskümmend kaheksa Eesti esimese andmeteaduse õppekava vilistlast, kes panustavad nüüd professionaalsete andmeteadlastena eri valdkondade andmete analüüsile ja tehisintellekti arendusele. Tartu Ülikool käivitas andmeteaduse magistrikava koostöös Majandus- ja kommunikatsiooniministeeriumiga (MKM), et leevendada ettevõtete ja riigisektori põuda vastava oskusteabega professionaalide järele. 

Kuna Eestis on andmeteadlaste põud, siis on Tartu Ülikool käivitanud koostöös Majandus- ja kommunikatsiooniministeeriumiga andmeteaduse magistrikava. Andmeteadlased tegelevad erinevate andmete halduse, töötluse ja analüüsi teemadega kõikides sektorites, sealhulgas arendades tehisintellekti ja masinõppe lahendusi protsesside optimeerimisel ja otsustamisel. 

Praeguseks lõpetanud esimese lennu vilistlased on uurinud lõputöödes näiteks nii finantspettuste ennetamist, isejuhtivate sõidukite tehisintellekti, ettevõtete tootmisprotsesside parendamist, terviseandmetest haiguste omavahelisi järgnevussuhteid, sotsiaalmeedia postitajate emotsionaalset seisundit kui ka muusika genereerimist tehisintellekti abil.

Lõputöödest üle pooled sooritati koostöös ettevõtetega, mis kinnitab erasektori huvi andmeteaduse oskustepagasiga töötajate järele. Seejuures sooritati ettevõtetega koostöös ka mitu kahe inimese ühisprojekti kujul lõputööd. Enam kui pooled lõputööd on sooritatud koostöös ettevõtetega, mis kinnitab erasektori huvi andmeteaduste pädevusega töötajate vastu.

Kuid ka ülejäänud tööd viidi läbi koostöös teadusrühmadega, kes ise vastavaid andmeid analüüsivad. Esimese lennu lõpetajatest on neli astunud juba ka doktorantuuri, mis võimaldab rakendada ja edasi arendada oma oskusi ennekõike just tervishoiu jaoks vajalike andmete nagu haiguslugude ja radioloogia piltide analüüsimeetodeid. Huvi ja vajadus vastavate teadustööde arendamiseks on suur, ennekõike suurhaiglate ja ülikooli arstiteaduse ja Eesti Geenivaramu teadusrühmade poolt. 

Andmeteadlane tegeleb väga palju ühelt poolt andmete kogumise, puhastamise ja kokku kombineerimisega (andmetehnika), kirjeldava analüüsiga (sealhulgas erinevad andmete töölauad ja visualiseerimised), ennustusmudelite välja töötamisega (masinõpe) ja nende rakendamisega reaalsesse kasutussituatsiooni (juurutamine). Õppes käsitletakse ka andmete kasutamise eetilisi ja legaalseid piiranguid ning tehnilisi andmete privaatsust tagavaid meetode. 

Eelneva põhjal on selge, et andmeteadlane ei ole ettevõttes mitte teadlane, vaid nii nimetatakse rolli isikust kes tegeleb andmete kasulikuks tegemisega ettevõtte vaatest. Andmeteadlase nimi on selles mõttes otse võetud ingliskeelsest terminist data scientist

Kõik kaitstud lõputööd või avaldamispiiranguga tööde puhul kokkuvõtted on avalikult kättesaadavad arvutiteaduse instituudi lõputööde registrist ja TÜ raamatukogu DSpace andmebaasist. Kutsungi siikohal eri ülikoolide erinevaid teadusrühmi üles olema julgemad enda andmeanalüüsi alaseid teemasid ka ise välja pakkuma, sest lõputööde register sisaldab ka kohta, kuhu laadida üles ise uusi ettepanekuid tudengite lõputöödeks. Sealt on tudengitel neid kõige kergem üles noppida oma huvi korral. 

Andmeteaduse õppekava vastuvõtus väärtustatakse mitmekesise taustaga kandidaate. Klassikaliste IT ning matemaatika ja statistika lõpetanud tudengite kõrval õpivad ka erinevate loodusteaduste (bioloogia, keemia, füüsika, arstiteaduse jne), majandus- ja tehnikateaduste erialade lõpetajaid, ning digihumanitaariast huvitunud. Andmeteadus on ju eriala mis rakendab erinevaid andmeanalüüsi, visualiseerimise, masinõppe ja tehisintellekti meetode vastavalt äri- ja tootmisettevõtete ning teiste valdkondade andmete analüüsiks. 

Eeldus andmeteaduse õppekavale kandideerimiseks on varasem kokkupuude ülikoolide IT õppeainete ja matemaatika ning statistikaga seotud ainetega ühe õppeaasta mahus. Kuigi õppekava alguses saab õppida vastavaid oskusi järele ja juurde, on nominaalse kahe aastaga vaja omandada mõttelaad, mis aitab andmeid tõlgendada, st milliste protsessidega andmed tekivad, mis on juhuslikkuse ja süstemaatiliste seoste roll andmetes. Teiseks peab suutma praktikas kogu õpitut ka rakendama hakata, sest andmeteadlase peamine tööriist on siiski erinevate programmide kirjutamine ja uute tehnoloogiate rakendamises andmetele. 

Esmakordselt Eestis juurutasime andmeteaduse õppekaval ka uudse, visuaalse lõputöö sisukokkuvõtte tegemise klassikalise lühikokkuvõtte (abstrakt) lisaks. Mõned teadusajakirjad on hakanud alles hiljuti selliseid kokkuvõtteid küsima. See piltide keelde pandud infograafika võimaldab kiiresti saada ülevaade töö enda protsessist, st millistest sammudest koosnes lõputöö nda arendus. Näiteks milliseid andmeid võeti kasutusse, milliseid puhastus- ja analüüsiprotsesse rakendati ja milliseid tulemusi saadi. Kokkuvõte ei pea esitama tulemusi endid, ainult protsessi kirjelduse, sest detailid on kirjas juba lõputöös endas.

Kuigi kevadel lõppeb MKM poolt rahastatud projekt millega rahastati õppekava käivitamist, jätkab Tartu Ülikool õppekava tööd ja vastuvõttu isegi senisest suuremas mahus võimaldades magistrikaval õppima asuda pretsedendidult suurel arvul, lausa 75 tudengil aastas. Uue, 2023. aasta septembris algava õppeaasta vastuvõtt toimub juba suvel. Enne seda või hiljemalt kevadsemestril on igaühel võtta veel piisavalt IT aineid, et tagada enda vastuvõtuks vajalik 60 EAP miinimum, et pääseda andmeteaduse õppekavale. Ülejäänud kõrge motivatsioon tuleb kirjeldada juba motivatsioonikirjas.