Kaur Garšnek: kui muusika pole tellija materjalist

Asi lõhnab sedamoodi, et vaikselt peab harjuma olukorraga, kus muusikateos on olemas, kuid puudub autor, kirjutab Kaur Garšnek Sirbis ilmunud kommentaaris Tallinna Ettevõtlusinkubaatori ja Tallinna Tehnikaülikooli seminarist "Tarkvara ja tehisintellekti roll muusikatööstuse tulevikus" (16.01). Esinesid Markus Palo, Karl Õkva ja Kristjan Nõlvak.
Ilmselt ei leidu valdkonda, mida tehisaru plahvatuslik areng üldse ei puudutaks. Seda on ju võrreldud lausa uue tööstusrevolutsiooniga, mille vilju õigupoolest alles hakatakse maitsma. Üles on kerkinud küsimusi, lootusi ja hirme – osa neist üldised ja põhimõttelised, osa aga valdkonnaspetsiifilised. Nagu ikka, pesitseb vanatühi ka siinkohal üksikasjades, ning Nõmme-Mustamäe mändide vahel asuvas Tallinna tehnikaülikooli Mektory hoones toimunud seminar lubaski heita valgust mõningatele muusikaspetsiifilistele suundadele. Kuulajaid oli tulnud veidi üle poolesaja, igal juhul piisavalt palju, et saaks tekkida elav diskussioon. Tehisaruga seonduv moodustas aga vaid ühe intrigeeriva fookuspunkti muude muusikatehnoloogiliste teemade seas: tuleb välja, et iga uuenduslik lahendus ei peagi tänapäeval kaasama tehismõistust.
Kõige otsesema ja ühtlasi kummalise näite tehnoloogia kasulikkusest elule ja loomingule pakkus ettevõtte Scoremusic asutaja ja tegevjuhi Kristjan Nõlvaku ettekanne paberivaba noodimajanduse kohta. Olukorras, kus e-raamatuid loetakse järjest rohkem ja paberlehtedest on hakatud loobuma, on interpreetide ja noodikirjastajate suhted pikalt takerdunud umbes eelmise tööstusrevolutsiooni aegsesse paradigmasse ning seda inertsi on olnud raske murda. Põhjus on seisnenud kirjastajate uskumuses, et piraatlust aitab tõkestada piisava suurusega paberipakk. Probleemid on aga ilmsed. Näiteks kasutatakse pillirühmades noote tihtilugu kahe peale ja puuduvad individuaalsed eksemplarid; mis aga põhiline: käsikirjas noodimärkmete haldamiseks tuleb teha arhailist kirjutajatööd. Vastavalt interpretatsiooni muutumisele peab lisandusi pidevalt üle toimetama, kustutama ja juurde kribama, pillirühmade kaupa individuaalnootidesse ümber kirjutama jne. Piltlikult öeldes võib ühes partituuris leiduda rohkem kustutusjälgi kui noodijooni. Kuna renditud pabernoodid tuleb aga hiljem koos märkmetega tagasi saata, siis tehakse töö säilitamiseks ikkagi koopiaid ning originaalnootide pakid lihtsalt reisivad ringi, et siis istuda puutumatuna riiulis.
Probleem on niisiis logistilises ebaefektiivsuses ja tarbetus keskkonnajäljes, kuid samuti muusiku intellektuaalse omandi säilitamise küsimuses, millele diginootide keskkond Scoremusic pakubki lihtsa ja elegantse lahenduse. Nootide laialijagamise ja tagastamise protseduur võib muutuda enam kui sada korda kiiremaks: ühe Mahleri sümfoonia noodimaterjali näitel olevat vahe 40 tundi vs. 15 minutit. Esitusmärkmeid saab aga salvestada lisakihtidena ning vastavalt vajadusele sisse-välja lülitada ja pillirühmade kaupa üldkättesaadavaks teha. See kõik tundub ju üsna elementaarne ning õigupoolest oli võrdlemisi uskumatu kuulda, et ettevõtmise põhiliseks pudelikaelaks on osutunud endiselt kirjastajad, keda peab käima eraldi veenmas. Igal juhul mõjus ettekanne oma selguse ja kujukate näidete tõttu huviäratavalt ja lõbustavalt, olgugi et enamik kuulajaid ei olnud ilmselt orkestrimuusikud.
Seminari pealkirjas välja hõigatud tehisaru teemad tulid õige põgusalt jutuks IT-ettevõtte Thorgate esindaja Karl Õkva ettekandes. Kõneleja osutas näiteks sellele, et AI panuse hindamisel tasuks eristada, kas kasvab tootlikkus ehk produktiivsus või siis hoopis tootlus ehk efektiivsus, ning ohtude pärast muretsemise asemel võiks keskenduda eetilistele ja sisukatele kasutusviisidele. Tehisaru ei pea olema kardetud konkurent, vaid võib olla hoopis loomeprotsessi kiirendaja, inspiratsiooniallikas, isikustatud assistent ja võimaluste avardaja. See jutt jäi aga üldisele tasandile ning detailsemalt tegi esineja ülevaate hoopis neljast muusikatehnoloogiat hõlmanud tellimustööst. Esiteks rahvusooper Estonia veebilahendus koos mängukava, puhvetitellimuste rakenduse ja muuga. Teiseks Veljo Tormise Virtuaalkeskuse tehniline lahendus koos põhjaliku andmebaasi ja ristviidete süsteemiga, mis (nagu õhku visati) võiks ühel heal päeval laieneda ka teiste eesti heliloojate ja muusikute pärandile. Kolmandaks mainiti veel Aafrika muusikažanride avastamise rakendust anonüümsele tellijale. Ning neljandaks tutvustati (samuti nimetule) Rootsi ettevõttele loodud talendipanka ja algoritmilist "kosjasobitajat" koostöövalmis muusikute kokkuviimiseks. Kusjuures viimaste profiilid asuvad samuti anonüümsuse loori taga ning sobitatakse kokku helinäidete ja muude sisuliste parameetrite põhjal – ikka selleks, et vältida võimalikke eelarvamusi ja muid muusikaväliseid tegureid. Iseenesest huvitav mõte.
Ürituse kõige loomingu- ja AI-spetsiifilisema ettekande tegi muusikaprodutsent Markus Palo, kes on muude tegemiste seas produtseerinud Manna albumid. Mitmesuguseid tehnilisi vahendeid tutvustav ettekanne käsitles esmalt tööriistalaadseid rakendusi, mis eetilisi ja autoriõiguslikke probleeme ei tekita, küll aga muudavad loomeprotsessi tõepoolest kiiremaks ja inspireerivamaks – või siis aitavad lahendada seni ületamatuks osutunud probleeme. Näiteks on nüüd tehisaru abil võimalik lahutada kokkumängitud helifaile eraldi instrumendi- ja vokaaliradadeks ning luua niimoodi töötlusi salvestistest, mille projektid ei ole säilinud.
Vahelepõikena niipalju, et olen ka ise paari sellist rakendust kasutanud raadiotöös toimetaja teadustuse eemaldamiseks otseülekandes kõlanud muusika pealt, kuid põrganud seejuures helikvaliteedi probleemidele, mis tulid minu meelest välja ka seminaris esitletud näidetes. Ütleme nii, et tehisaru võib vahel koos inimhäälega kaasa haarata ka jupikese keelpilliorkestri viiulirühmast või muud seesugust. Kuid nähtavasti on helipuhtuse saavutamine siin lihtsalt aja- ning paraku ka treeningandmete kategoriseerijate näpuvaeva küsimus.1
Täiesti eraldi Pandora laeka on avanud muidugi kõikvõimalikud algoritmilised instrumendid ja efektid, mida üpriski informatiivseks osutunud ettekandes esitleti. Olen ise torkinud mõningaid n-ö mänguasju, mis genereerivad näiteks verbaalse tellimuse (ehk prompt'i) peale vastava sünteesheli. Palo tutvustas oma ettekandes aga seesugust lahendust (Synplant), mis modelleerib funktsionaalse digiinstrumendi helitõmmise põhjal, võimaldades näiteks mõne lemmikartisti kõlasid parameetriliselt teisendada ja täiustada ning soovi korral kogu protsessi korrata. Niimoodi võib jõuda täiesti uute kõlailmadeni ja vältida seejuures sämplimisega kaasnevaid autoriõiguse küsimusi.
Tõsi, igasugused modelleerijad on turul olnud juba mõnda aega ning publiku seast meenutati näiteks Kemperi kitarrivõimu profileerijat, mis kasutab samuti helisisendit parameetrilise helimuunduri loomiseks ja on olnud saadaval juba vähemalt kümme aastat. Tükk aega on olnud kasutusel impulssvastusel (impulse response) põhinevad kajamoodulid, mis rakendavad reaalsest akustilisest keskkonnast pärit helitõmmist digitaalse kajamudeli loomiseks. Ettekandes mainitud heli lõppviimistluse (mastering) automaatrakendusedki ei ole midagi põhimõtteliselt uut. Kuid paistab, et tehisaru on siiski kõikide seesuguste rakenduste võimekust hüppeliselt tõstnud. Pealegi on tekkinud täiesti uudseid lahendusi nagu näiteks ettekandes tutvustatud ACE Studio, mis genereerib kuuleka sünteetilise vokalisti, kes laulab ilma liigse draamata kõik partiid ära ega solvu, kui inimene lõpuks enamiku neist maha kustutab. Iga produtsendi unistus! Kusjuures need AI-hääled ei ole ammu enam puise kõneroboti tasemel, vaid neid võib olla kokkumängitud lugudes täiesti võimatu inimhäälest eristada.
Muidugi on digiinstrumentidega juba ammu käinud kaasas ka põhjalikud andmepangad koos kirjelduslike parameetrite ja otsingusüsteemiga, kuid näiteks seda võimalust, et masin loob loomulikus keeles sisendi peale täiesti uue instrumendi, pole varem olnud. Mõte läheb sellele, et ilmselt võib edaspidi järjest suurem osa helitööst DAW (digital audio workstation) keskkondades muutuda loomuliku keele põhiseks – sisuliselt sama protsess, mis on juba leidnud aset visuaalse loomingu puhul. Teisisõnu, kui varem asendas arvuti osaliselt helistuudiot, siis tänu tehisarule võiks see asendada stuudiot, ansamblit, arranžeerijat, heliinseneri ja ka helirežissööri. Inimene võiks sellisel juhul taanduda Rick Rubini sarnase tugitooliprodutsendi ja maitsekujundaja rolli, kellel (Rubinit ennast tsiteerides) "puuduvad tehnilised oskused ja teadmised muusikast", kuid kes teab, mis talle meeldib ja mis ei meeldi.
Siin jõuame ettekande teise sisulise pooleni, milles Palo käsitles algoritmiliste rakenduste problemaatilisemat osa ehk olukorda, kus tehisaru on peale kõige muu ka helilooja rollis. Näiteks demonstreeriti Logic Pro pistikrakendust Session Player: selle asemel et juurelda, kuhu soolomeloodia või bassikäik peaks liikuma, võib sisestada akordijärgnevuse ning valida kümne meloodiavariandi vahel. Kui aga seegi tundub liiga "higilõhnaline", siis saab lasta tehisarul komponeerida lihtsa kirjelduse peale terve muusikapala.
Mõistagi tuli siinkohal jutuks Florian Wahli albumi "Flo Raadio" nominatsioon mitmes tänavuste Eesti muusikaauhindade kategoorias, mis väidetavalt tingis uue kandideerimise reegli (nr 10): "Eesti Muusikaauhinnad raames ei saa kandidaadiks esitada teost, laulu, muusikavideot või albumit, mis on toodetud ainult tehisintellekti kasutades ilma inimese loomingulise autoriõigustega seotud sisendita." Selle albumi puhul tekkis teadupärast pretsedent, et sõnad on inimese kirjutatud, kuid muusika tellitud rakenduselt Suno. Sedalaadi eksperimentaalseid albumeid ilmus aga eelmisel aastal veel, näiteks Zetode "Kae' ulli!" ja muusikaettevõtja Tarmo Siku promptitud "luba las laulan su juustesse tuult" (artistinime kakstuhatkakskümmendneli alt).
Muidugi tekivad siin täiesti uudsed intellektuaalse omandi küsimused: peale kõige muu on osade AI-generaatorite tasuta kontodelt promptitud looming olnud vaikimisi avalikus ringluses, nii et autorsuse "ostmiseks" tuleks justkui lihtsalt välja käia 20eurone kuutasu, see ei haaku aga senise arusaamaga intellektuaalse omandi tähendusest. Teise nurga alt ilmuvad välja tüüpilised AI-loominguga seotud väärtusküsimused, mida arutatakse AI-entusiastide Facebooki gruppides ööpäev läbi: näiteks kas muusika tellija on helilooja ja kas pildi promptija on kunstnik või ehk on siin tegemist hoopis uut laadi erilise oskusega, mis oma kõrgelennulisuse poolest ületab ajast ja arust kunstnik-käsitööliste vaimu-proletaarsed ponnistused.
Mainitud albumitest inspireerituna kehastusin minagi mõned kuud tagasi n-ö prompt'i-inseneriks ja katsetasin kuu aja vältel süstemaatiliselt Suno-laadset rakendust Udio. Olles masinalt välja meelitanud mitu ansambli Yes "avaldamata lugu", lühialbumi jagu Canterbury skeene "senikuulmatuid pärleid", kogumikutäie hispaaniakeelset cold wave'i, mitmesugust EBMi, hunniku vaalahääli, ühe svingiva sünnipäevalaulu sõbrale, takso ootamise laulukese ja muud, võin selle meeleoluka kogemusvaatluse põhjal ilma igasuguse klassivihata öelda, et minu vastus eelmainitud küsimustele on vastavalt "ei" ja "pigem mitte".
Esiteks ei meenutanud see protsess mitte ühtegi muusikalist rolli, kuhu olen varem sattunud, olgu siis kitarristi, sündivajutaja, miksija, muusika autori või produtsendina. Minu muusikalistest oskustest ei olnud tehisloome protsessis mingit kasu ning kuulatava tulemuse saavutamiseks kulunud aeg oli samuti tühine. Pigem tundsin end kehastuvat raadiosaate autoriks, kes valib teatud parameetrite põhjal kellegi teise loodud muusikat, näiteks kammib märksõnade põhjal läbi Spotify temaatilisi playlist'e. Nii et ei, ma ei olnud tellimusi letti ladudes muusik ega helilooja, ennast selles rollis esitleda oleks moraalselt kahtlane. Kõnealuste AI-albumite autorid olid oma loomeprotsessi suhtes küll täiesti läbipaistvad, nii et siin ei ole eetilist konflikti, kuid seminaridiskussioonis osutati näiteks asjaolule, et paljud Spotify playlist'id ("Chill Out Saturday", "Bossa Nova Sunday" jms) on juba praegu täis variartistide lugusid, millest osa on ilmselt valminud ka tehismõistuse abil.2 Kas tunda end petetuna või mitte, sõltub muidugi sellest, millistel tasanditel keegi üldse muusikaga suhestub. Igal juhul võib tekkida küsimus, miks ma peaksin "avastama" AI-genereeritud tapeedimuusikat ühes rakenduses, kui ma võin teises rakenduses seda ise peaaegu sama hõlpsalt "luua".
Teiseks need promptimise oskused. Põhimõtteliselt on küll olemas juba vastavad õpikud, toimivaid sisendlauseid müüakse, ostetakse ja vahetatakse. Minulgi tekkis Udio piinamise käigus järjest selgem ettekujutus, kuidas soovitud tulemusele lähemale jõuda ning oma muusikalist sõnavara ja kujutlusvõimet paremini kasutada. Midagi siin ilmselt on. Peagi põrkusin ikkagi tehnilistele piiridele: detailsetest kirjeldustest pole kasu, kui treeningandmed on ebamääraselt kategoriseeritud. Näiteks sai Udio üsna hästi aru, mida tähendab üldkirjeldus "complex harmony" – kusjuures kõhedust tekitas minus asjaolu, et ma sain ilusa analoogkõlaga Canterbury stiilis harmooniajärgnevustest tõelise esteetilise naudingu ning need jäid mulle nädalateks pähe tiirlema! Ent kui soovisin välja vahetada üht kriipivat akordi või andsin loo arendamiseks konkreetsemaid suuniseid, siis läks iga järgmine versioon aina hullemaks. Hakkas tekkima aimdus, et keegi pole lihtsalt allikmaterjali sellisel teoreetilisel tasandil kategoriseerinud.
Põhjus on muidugi lihtne: rakendus on suunatud eelkõige tavakasutajatele, et need saaksid genereerida "udust", "kurba", "lootusrikast", "suvist" jne muusikat mõnes konkreetses žanrimääratluses. Muusikateadlaste kategoriseeritud treeningmaterjali võime ilmselt veel ootama jääda. Nii et lõppude lõpuks sõltub lõpptulemus ikkagi suurel määral välistest teguritest, juhusest ja vedamisest ning algoritmi n-ö mustast kastist. Väita, et toimiva sisendlause kirjutamine on sisulise panuse mõttes võrreldav muusikapala kirjutamise ja produtseerimisega, oleks võrrelda edukat guugeldamist artiklikogumiku koostamisega.
Iseasi muidugi, keda see sisuline panus niiväga üldse huvitab, kui teos esteetilisel tasandil kuulajate arvates toimib ja naudingut pakub. Muidugi toodab tehismõistus palju geneerilist muusikat ja veidrusi, kuid väga paljud Udio keskkonnas jagatud muusikapalad mõjusid minu meelest siiski n-ö päris muusikana. Asi lõhnab sedamoodi, et vaikselt peab harjuma ka olukorraga, kus muusikateos on olemas, kuid puudub autor – peas hakkab siinkohal kõlama lause "¡No hay banda!"3 David Lynchi filmist "Mulholland Drive". See kõik tähendab ilmselt ühtlasi ka uusi loomingulisi suundumusi ja katsumusi, elavnevat diskussiooni loomingu tähendusest … ja live-muusika positsiooni tugevnemist.
1 Seda, kui palju inimlikku näpuvaeva nõudis tehisaru treeningandmete tootmine 2023. aasta seisuga ja kuidas seda tihtilugu ülimalt rutiinset ja veidrat tööd tasustatakse, saab lugeda näiteks siit: Josh Dzieza, AI Is a Lot of Work. – The Verge 20. VI 2023.
2 Mil viisil variartistide ja AI kasutamine muusikute väljavaateid pisendab ja Spotify ärimudelit edendab, võib pikemalt lugeda näiteks siit: Liz Pelly, The Ghosts in the Machine. – Harper's Magazine 2025, nr 1. https://harpers.org/archive/2025/01/the-ghosts-in-the-machine-liz-pelly-spotify-musicians/
3 "Bändi ei ole!"
Toimetaja: Neit-Eerik Nestor
Allikas: Sirp