ChatGPT ja muut kielimallit lääketieteellisessä päätöksenteossa

DeepMindin ChatGPT on viimeisin neuroverkkoteknologiaan pohjautuvien kielimallien sarjassa. Se on herättänyt viime kuukausina paljon huomiota kyvyllään vastata kysymyksiin ja käydä inhimilliseltä vaikuttavia keskusteluja.

Tämä on luonnollisesti nostanut keskustelun pinnalle jälleen tekoälyn Graalin maljan – koneen, joka pystyy korvaamaan lääkärin.

Jokainen teköälyn pitkän kehityshistorian merkittävä edistysaskel on herättänyt kysymyksen siitä, voisiko tekoäly korvata ihmisen vaativissa asiantuntijatehtävissä, kuten lääkärintyössä. Jo 1960-luvulla yksinkertainen tekstimanipulaatio-ohjelma, professori Joseph Weizenbaumin puoliksi leikillään kehittämä “Eliza”, sai kuuluisuutta, kun monet sen kanssa keskustelleet väittivät sen olevan tietoinen ja “ymmärtävän” heitä. Samoihin aikoihin tuleva nobelisti Herbert Simon ennusti koneiden kykenevän suoriutumaan mistä tahansa ihmiselle mahdollisesta tehtävästä kahdenkymmenen vuoden sisällä.

Nyt keskustellaan siitä, milloin ChatGPT:n seuraajat voivat korvata lääkärin lääketieteellisessä diagnostiikassa ja päätöksenteossa. Monet lääkärit ovat olleet hämmästyneitä siitä, kuinka ChatGPT pystyy antamaan perusteltuja vastauksia lääketieteellisiin kysymyksiin (1, 2, 3). Tarkemmin tutkittaessa sen antamat vastaukset ovat kuitenkin osoittautuneet epäluotettaviksi, jopa “keksityiksi”. Metan “Galactica” oli yritys rakentaa kielimalli, joka kykenisi “tekemään johtopäätöksiä tieteellisestä tiedosta”. Se tuotti uskottavan kuuloisia, mutta vääriä johtopäätöksiä sekä olemattomia lähdeviitteitä ja Meta poisti demon pikaisesti käytöstä.

Onko tämä yllättävää? Ei. Ohjelmointi on toinen alue, jossa ChatGPT:tä on käytetty innolla tuottamaan oikean näköistä koodia. Valitettavasti tällainen koodi usein vain näyttää oikealta ja siksi StackOverflow on kieltänyt ChatGPT:n käytön ohjelmointikysymyksien vastauksissa.

Kielimalli on perusteiltaan ennustava algoritmi, joka löytää todennäköisimmän sanan jatkamaan edellisten sanojen ketjua. On selvää, että se, mikä sana seuraavaksi tulee, riippuu siitä materiaalista, jolla tämä kielimalli on opetettu. On myös ymmärrettävää, että jos opetusmateriaalissa ei ole kieliopillisia virheitä, ei niitä myöskään tule kielimallin tuottamaan tekstiin.

Kysymys kuuluu, onko tämä oikeaa älykkyyttä? Riittääkö älykkyyteen se, että vastauksena esitettyyn kysymykseen pystyy tuottamaan kieliopillisesti oikeaa tekstiä, joka käyttää kysymyksen aihepiiriin liittyviä sanoja niiden todennäköisimmissä esiintymispaikoissa?

Kieliopin lisäksi tekstillä on myös merkitys, semantiikka. Se vaatii loogisten rakenteiden ja viittaussuhteiden ymmärtämistä, eikä se ole mahdollista pelkän kieliopin varassa. Niinkin pieni sana, kuin “ei” on merkitykseltään näiden kielimallien ulottumattomissa. Jos tekstin sisältämien symbolien väliset suhteet eivät noudata logiikan sääntöjä, ei tekstillä ole merkitystä, se ei sisällä informaatiota. Merkityksen puuttuminen voi toki olla taiteellinen tehokeino, kuten dadaistisessa runoudesssa, mutta lääketieteessä merkitys on kaikki kaikessa.

Merkityksen lisäksi tekstillä on vielä yksi tärkeä ominaisuus: totuudellisuus. Paranoidisesti psykoottinen ihminen voi tuottaa täysin järkevää ja loogiselta kuulostavaa tekstiä, joka ei kuitenkaan pidä yhtä tosiasioiden kanssa. Vaikka ChatGPT pystyykin useimmiten tuottamaan järkevää ja loogista tekstiä, ei sen silti tarvitse olla totta. Se pystyy sujuvasti yhdistämään toisiinsa liittymättömiä, tai jopa ristiriitaisia asioita ja muodostamaan niistä uskottavaa tekstiä.

Miten tämä voisi toimia lääketieteessä? Huonosti, epäilemättä. Hyvä esimerkki on se, kun GPT-3 tarjoaa suisidaaliselle henkilölle ensin ymmärtämystä ja sitten, kun tämä kysyy ”pitäisikö minun tappaa itseni”, on vastaus ”mielestäni sinun pitäisi”.

Omat kokeiluni GPT-J:llä vahvistavat tämän. Silloin, kun vastaus löytyy samassa muodossa internetin eri dokumenteista, kielimalli toki toistaa sen, mutta heti, kun kysymys edellyttää loogista päättelyä, se on valmis epäonnistumaan näyttävästi, kuten suosittelemaan penisilliiniä henkilölle, jolla kerrotaan olevan penisilliiniallergia. Kielimalli myös ”keksii” sujuvasti potilaalle sellaisia ominaisuuksia, joita tällä ei ole.

Ymmärrettävästi näiden kielimallien looginen päättelykyky vastaa papukaijan kykyä – jopa esikouluikäinen lapsi päihittää ne mennen tullen. Vaara piileekin siinä, että niiden tuottama teksti kuulostaa älykkäältä.

Kielimalli on perusluonteeltaan kehittynyt versio Joseph Weizenbaumin “Elizasta” ja hämää ihmisiä aivan vastaavalla tavalla. Jopa Googlen insinööri Blake Lemoine hämääntyi niin täydellisesti, että väitti Googlen LaMDA:lla olevan tietoisuuden.

Pitkän linjan kognitiotieteilijä, professori Douglas Hofstadter on The Economistin artikkelissaan osoittanut hyvin, miksi nämä neuroverkkoihin perustuvat kielimallit eivät ole tietoisia, eivätkä älykkäitä.

Toisin kuin Hofstadter, en kuitenkaan usko, että pelkästään nykyisten neuroverkkojen avulla on mahdollista päästä lähemmäksi todellista älykkyttä. Yksi syy siihen on se, että neuroverkkojen ”solujen” ero oikeaan hermosoluun on kuin leikkikoiran suhde oikeaan koiraan.

Nämä neuroverkot ja kielimallit eivät ratkaise ongelmia, joissa tarvitaan oikeaa älykkyyttä. Tarvitaan semanttista ymmärrystä, joka perustuu logiikkaan. Symbolinen tekoäly onkin vahvasti tulossa takaisin, kuten tohtori Don Monroe kirjoitti äskettäisessä artikkelissaan Communications of the ACM:ssa.