Uutinen 12.04.2023

Tutkimusryhmä loi kaikkien aikojen suurimman suomen kielen kielimallin LUMI-supertietokoneen avulla

Teknologia-alan yksi kuumimmista puheenaiheista on tällä hetkellä tekstiä luova tekoäly. Tapasin Turun yliopiston tietotekniikan laitoksen yliopistotutkija Sampo Pyysalon ja professori Filip Ginterin viimeksi vuosi sitten, kun heidän johtamalleen luonnollisen kielen käsittelyn TurkuNLP-tutkimusryhmälle oli myönnetty laskentaresursseja LUMI-supertietokoneelta suomen kielen kielimallien kehitystä varten. Projekti oli yksi lähes kolmestakymmenestä LUMI-supertietokoneen GPU-osiolla ajetusta pilottiprojekteista.

Tavatessani heidät uudelleen alkuvuodesta 2023 ryhmä hymisee tyytyväisyydestä: suomen kielen GPT-3-tason (Generative Pre-trained Transformer 3) kielimalli on saatu LUMI-pilottiprojektin myötä valmiiksi ja se on vain hetkeä aiemmin julkaistu verkkoon avoimesti saataville.

TurkuNLP-tutkimusryhmää: yliopistotutkija Sampo Pyysalo (vas.), tutkimusassistentit Risto Luukkonen ja Ville Komulainen sekä professori Filip Ginter. Kuva: CSC

– LUMI-pilottiprojekti sujui tieteellisesti katsoen erinomaisesti ja saavutimme enemmän kuin uskalsimme aluksi toivoa, Pyysalo iloitsee.

Iso ja nopea teknologinen murros

Tämän kaltaisia valtavia kielimalleja tarvitaan, koska ne luovat perustan seuraavan sukupolven tekoälysovelluksille.

Syviin neuroverkkoihin perustuva GPT-3-malli osaa tekstisyötteen jälkeen ennustaa, mitkä ovat seuraavat sanat. Myös paljon puhuttu ChatGPT-botti perustuu GPT-3-malliin, joka on OpenAI-firman kehittämä suljettu kielimalli.

– Todennäköisesti tämän vuosikymmenen merkittävimmät tekoälysovellukset tulevat rakentumaan tämän kaltaisten kielimallien päälle. Olemme aika isossa ja nopealta näyttävässä murroksessa tällä hetkellä. Merkittävimmät sovellukset ovat vielä tekemättä, Pyysalo näkee.

Kieleen perustuvat tekoälysovellukset ovat vasta tiensä alussa, mutta tutkijoiden mukaan teknologia on tullut tänne jäädäkseen.

LUMI-supertietokoneen GPU- eli grafiikkaprosessoreihin perustuvaa valtavaa laskentatehoa käytettiin käsittämättömän suuren kielimallin laskemiseen: pilottiprojektin aikana ryhmä loi täysin suomen kieleen pohjautuvan GPT-3-tason mallin, jossa on 13 miljardia parametria. Tämän on kaikkien aikojen suurin suomen kielen kielimalli.

LUMI-pilottiprojektin aikana laskettiin lisäksi useampaa pienempää, puhtaasti suomenkielistä kielimallia. Lisäksi pilottiprojektin aikana tutkimusryhmä opetti suomen kieltä 176 miljardia parametria käsittävälle laajemmalle mallille, joka pohjautuu esikoulutettuun monikieliseen BLOOM-malliin (BigScience Large Open-science Open-access Multilingual Language Model).

Vähemmän kiroilua ja vihapuhetta

Kielimallien kehittäminen perustuu valtaviin data-aineistoihin, jota syväoppivat neuroverkot hyödyntävät uuden kielimallin luomiseksi. LUMI-pilottiprojektissa tutkimusryhmä loi myös tunnistusjärjestelmän, joka suodatti kielimallille syötettävästä datasta pois kaikista ongelmallisimmat puheenparret.

– Opetimme tekemäämme kielimallia erittäin laadukkaalla datalla, joka täyttää EU:n vaatimukset. Erilaisten tekstilajien luokittelujen kautta ymmärrämme keskimääräistä paremmin, minkälaista dataa malli on lukenut ja saimme karsittua mallista pois kaikista toksisimmat ja muilla tavoilla ongelmalliset tekstit. Esimerkiksi saimme aiempiin malleihin verraten leikattua puoleen sen, kuinka paljon malli spontaanisti kiroilee, Pyysalo havainnollistaa.

– Datan esikäsittely on erittäin tärkeä osa kielimallien kouluttamista. Karsimme kielimalleille syötetystä datasta vihapuheen ja lisäksi poistimme datasta mahdolliset henkilötiedot, kuten henkilötunnukset ja puhelinnumerot sekä fyysiset ja sähköiset osoitteet. Näin kontrolloimme, mitä kielimalli oppii ja mitä se sitten käytettäessä generoi, Ginter jatkaa.

Suhteellisen pienenä kielialueena kansainvälisillä kaupallisilla toimijoilla on vähemmän intressejä suomen kieltä kohtaan. Avointen kielimallien kouluttaminen isojen firmojen ulkopuolella on tärkeää avoimen tieteen vuoksi.

– Kehittämämme kielimalli on avoin malli, eli se on kaikkien käytettävissä. On tärkeää kouluttaa avoimia kielimalleja myös akateemisessa yhteisössä ja varmistettava, että suomen kieli on mukana, Ginter toteaa.

Haasteita uuden teknologian kanssa

Aivan muitta mutkitta LUMI-pilottiprojekti ei kuitenkaan sujunut. LUMIn GPU-osio perustuu AMD:n uusimpiin MI250X-grafiikkaprosessoreihin ja opeteltavaa riitti.

– Uuteen teknologiaan siirtymisen kanssa riitti haasteita. Superisot kielimallit hyödyntävät erityisiä koodikirjastoja, joiden optimointi uudelle prosessoriteknologialle vei paljon aikaa, Ginter kertoo.

Ryhmä sai tukea projektin läpivientiin niin LUMI-käyttäjätukitiimiltä, prosessorivalmistaja AMD:ltä ja Hugging Face -firmalta, joka on tunnettu etenkin luonnollisten kielten käsittelyn sovelluksistaan.

– Saimme lopulta LUMIsta noin 75–80 prosentin suoritustehon verrattuna siihen, mitä ajattelimme olevan saavutettavissa. Tässä vaiheessa supertietokoneen elämää tämä lienee ihan hyvä luku, Pyysalo uumoilee.

Ajallisesti LUMI-supertietokoneen laskentateho nopeutti kielimallien luomista valtavasti.

– Ei tämä olisi ollut kerta kaikkiaan mahdollista ilman LUMIn kaltaista järjestelmää. Pienemmillä järjestelmillä olisimme laskemassa tätä mallia vielä vuonna 2025, Pyysalo otaksuu.

Suomen kieli loppuu kesken

LUMI-pilottiprojektin jälkeen ryhmä jatkaa kielimallien kehittämistä LUMI Extreme Scale -projektissa, jota varten ryhmälle myönnettiin 2 miljoonaa GPU-tuntia LUMI-supertietokoneelta suomalaisille tutkijoille varatusta osuudesta.

– Tässä projektissa keskitymme siihen, miten monikielisellä- ja käännösdatalla voidaan tukea isoimpien suomenkielisten mallien kehitystä, Pyysalo kertoo.

Ongelmana mallien jatkokehityksessä on nimittäin suomen kielen rajallisuus. Ginter on työskennellyt alalla jo vuosituhannen alkupuolelta saakka ja hänen aiemmin johtamansa projekti keräsi mahdollisimman suuren osan suomenkielisestä internetistä data-aineistoksi kielimallien pohjaksi. LUMI-pilottiprojektiin saatiin suomenkielistä dataa myös Kansalliskirjastolta. Tämäkään ei riitä.

– Suomen kieltä ei kerta kaikkiaan ole niin paljon saatavilla digitaalisessa muodossa, että voisimme kouluttaa mallin pelkästään suomea käyttäen yli 100 miljardille parametrille. Suomalaiset ovat vähäpuheisia eikä suomalaisia ole paljon, Ginter naurahtaa.

Suomen kielelle malli on pelastus.

– Nämä mallit ja niihin pohjautuva teknologia aiheuttaa isoja muutoksia monilla aloilla ja nämä mallit ovat eksklusiivisesti muutaman monikansallisen firman hallussa. Mallimme on aidosti avoin ja mahdollistaa sellaisia asioita, joita ei voisi rakentaa näiden isojen monikansallisten firmojen kehittämien mallien varaan, Pyysalo toteaa.

Jatkoprojekteja LUMI-supertietokoneella

Pyysalo on mukana myös Horisontti Eurooppa -puiteohjelman High Performance Language Technologies -projektissa. Projektissa tuotetaan kielimalleja kaikille EU-kielille. Tähän projekti sai 3 miljoonaa GPU-tuntia LUMIlta. Mukana hankkeessa myös professori Jörg Tiedemann Helsingin yliopistosta.

– Kokemus suomenkielisten kielimallien kehittämisestä toimii pohjana projektissa. Muut eurooppalaiset kielet seuraavat suomen kielimallia. Kielimallit ajetaan LUMI-supertietokoneella, Pyysalo kertoo.

Lisäksi Ginter ja Tiedemann ovat mukana CSC:n kanssa Green NLP-hankkeessa, jossa kehitetään kielimallien koulutusta ja käyttöä energiatehokkaammaksi. Tavoitteena on luoda parhaita käytäntöjä energiatehokkuuden parantamiseksi luonnollisten kielten käsittelyn saralla. Myös tässä projektissa hyödynnetään LUMI-supertietokonetta.

Kirjoittaja: Anni Jakobsson, CSC

Asiantuntijatuki LUMI-supertietokone Suurteholaskenta Tekoäly

Välttämättömät evästeet

Verkkosivuston kävijätilastot