Yleisen tekoälyn turmio: Luettelo kohtalokkaista seikoista

Stephen McAleesen yhteenveto Eliezer Yudkowskyn vuoden 2022 kirjoituksesta

Thomas Brand

Published in

Brandin kirjasto

9 min readApr 17, 2023

Yleiskatsaus

Johdanto

Tämä kirjoitus on yhteenveto Eliezer Yudkowskyn kirjoituksesta “AGI Ruin: A List of Lethalities”. Kirjoitin sen, koska Eliezerin alkuperäinen kirjoitus oli mielestäni pidempi ja sekavampi kuin olisin halunnut sen olevan. Tämän kirjoituksen tarkoituksena on tiivistää alkuperäisen kirjoituksen pääkohdat ja jäsentää kohdat uudelleen, jotta jokaisen on helpompi hahmottaa Eliezerin kirjoituksen keskeiset teesit.

Yhteenveto sisältää seuraavat osat:

Yleiskatsaus
Miksi meidän on ratkaistava tekoälyn suuntaamisongelma
Miksi tekoälyn suuntaaminen on vaikeaa
Suuntaustekniikat
Tekoälyn suuntaamisen tutkimus

Tekoäly on turvallinen, jos se ei aiheuta eksistentiaalista katastrofia

Eliezerin sanoessa, että tekoälyn suuntaaminen (= “ohjaaminen”, “turvallistaminen”; engl. AI alignment, AI safety) on tappavan vaikeaa, hän ei tarkoita täydellisen tai “todistettavissa” olevan suuntaamisen haastetta. Hän sanoo, että jopa sellaisen lopputuloksen aikaansaaminen, jossa edes joku selviytyy yleisen tekoälyn noustua, on epätodennäköistä nykyisten epätäydellisten suuntaamismenetelmien vuoksi.

“Jos syntyy tehokas yleinen tekoäly, joka suorittaa jonkin keskeisen yli-inhimillisen teknisen tehtävän ja jonka todennäköisyys tappaa yli miljardia ihmistä on alle viisikymmentä prosenttia, olen valmis hyväksymään sen synnyn.”

Miksi meidän on ratkaistava tekoälyn suuntaamisongelma?

Tekoäly voi olla paljon ihmistä älykkäämpi

Tekoäly voi olla paljon ihmistä älykkäämpi ja käyttää informaatiota huomattavasti ihmistä tehokkaammin päätöksenteossa tai muodostaessaan uskomuksia maailmasta. Esimerkiksi AlphaZero oppi olemaan yli-inhimillisen hyvä Go-pelissä vain muutamassa päivässä.

Tekoäly yksinään voi olla hyvin vaarallinen ihmisille

Ihmisiä älykkäämpi väärin suuntautunut tekoäly voisi aiheuttaa ihmiskunnan sukupuuton. Tekoäly ei tarvitsisi robottimaista ulkomuotoa ollakseen vaarallinen, koska se voisi vakuuttaa yhden tai useamman ihmisen toteuttamaan suunnittelemiaan tai hakkeroitua ihmisten rakentamaan infrastruktuuriin käyttääkseen sitä hyväksi. Tekoäly voisi keksiä vaarallisia teknologioita, kuten kehittynyttä nanoteknologiaa, jota vastaan emme kykenisi puolustautumaan.

“Taistelun häviäminen tehokasta kognitiivista järjestelmää vastaan näyttää vähintään yhtä tappavalta kuin se, että kaikki maapallon asukkaat yhtäkkiä kaatuvat suorilta jaloiltaan kuolleina saman sekunnin aikana.”

Emme voi vain päättää olla rakentamatta yleistä tekoälyä

Maailmassa on paljon tietokonelaitteistoja, kuten grafiikkasuorittimia, ja monilla ihmisillä on mahdollisuus käyttää niitä. Tekoälyohjelmistot ja -laitteistot paranevat jatkuvasti, ja olisi hyvin vaikeaa pysäyttää kehitystä näillä aloilla täysin, koska kaikkien maailmassa pitäisi sopia, ettei tutkimusta ja kehitystä näillä aloilla enää jatketa.

Monet toimijat työskentelevät yleisen tekoälyn tutkimuksen parissa, ja vaikka yksi tai useampi niistä ei enää suostuisi jatkamaan, muut toimijat voisivat silti pyrkiä luomaan yleisen tekoälyn. Jos monet organisaatiot päättäisivät lopettaa yleisen tekoälyn edistämisen, sen kehityksen edistyminen vain hidastuisi.

Aluksi johtavalla organisaatiolla on kyvyt luoda yleinen tekoäly. Kun tämä virstanpylväs on saavutettu, myös heikommat organisaatiot kykenevät luomaan yleisen tekoälyn. Tänä aikana johtavalla organisaatiolla ei ehkä ole paljon aikaa ratkaista tekoälyn suuntaamisongelmaa — ongelmaa, joka liittyy sen varmistamiseen, että tekoäly toimii hyödyllisellä tavalla ja noudattaa inhimillisiä arvoja.

Emme voi vain rakentaa heikkoa tekoälyjärjestelmää

Jos yksi toimija päättää rajoittaa järjestelmiensä valmiuksia, muut toimijat voivat kuitenkin luoda tehokkaampia tekoälyjärjestelmiä. Monenlaisten hyödyllisten tehtävien suorittaminen edellyttää todennäköisesti voimakasta yleistä kognitiota, joka voi olla vaarallinen.

Hyödyllinen yleinen tekoäly on vaarallinen

Erittäin älykäs yleinen tekoäly olisi hyödyllisempi kuin vähemmän yleinen, koska se pystyisi ratkaisemaan laajemman joukon ongelmia. Kyvykkäämmällä tekoälyllä on kuitenkin suurempi kyky kehittää sekä hyödyllistä että vaarallista teknologiaa. Älykkyys on kaksiteräinen miekka.

Riittävän älykäs yleinen tekoäly, joka keksii parannuskeinoja syöpiin, saattaa olla myös riittävän älykäs keksiäkseen teknologioita, jotka voivat johtaa ihmisten sukupuuton, aivan kuten ihmiset olivat riittävän älykkäitä keksiäkseen sekä kemoterapiahoidot että ydinaseet.

Siksi hyödyllinen yleinen tekoäly ei ole passiivisesti turvallinen: sillä olisi kyky tuhota maailma, ja tarvitsemme turvatoimia varmistaaksemme, että siitä on jatkossakin hyötyä, aivan kuten hyödyllinen ydinreaktori tarvitsee turvamekanismeja sen tuhoutumisen estämiseksi.

Saatamme tarvita yleistä tekoälyä, joka ryhtyy “ratkaiseviin toimiin” maailman pelastamiseksi

Ihmiskunta saattaa jonakin hetkenä onnistua luomaan ensimmäisen yleisen tekoälyn, joka voi olla inhimillisten arvojen mukaan suuntautunut. Tämän myötä meillä tai syntyneellä yleisellä tekoälyllä on kuitenkin kyky luoda lisää yleistä tekoälyä, ja nämä uudet yleiset tekoälyt eivät välttämättä enää olekaan inhimillisten arvojen mukaan suuntautuneita.

Tässä vaiheessa saatamme haluta estää uusien yleisten tekoälyjen syntymisen. Se voi olla vaikeaa ja vaatia monimutkaista koordinaatiota, mutta yleinen tekoäly olisi luultavasti tarpeeksi älykäs tämän tehtävän suorittamiseksi. Yudkowsky kutsuu tällaista toimintaa, joka on vaikea toteuttaa mutta joka vähentää merkittävästi eksistentiaalista riskiä, “ratkaisevaksi toimeksi”.

Yleinen tekoäly olisi riittävän voimakas ratkaisevan tärkeän teon suorittamiseksi, ja näin ollen eksistentiaalisen riskitaso voi olla hyvin matala yleisen tekoälyn jälkeisessä maailmassa. Olisi kuitenkin vaikeaa suunnata tekoälyä, joka olisi riittävän älykäs ratkaisevan toimen tekemiseksi, ja varmistaa, että se ei ryhdy sen sijaan vaarallisiin tekoihin.

Yksi ratkaisu on antaa heikolle tekoälylle, joka ei ole tarpeeksi älykäs ollakseen vaarallinen, tehtäväksi suorittaa “heikko ratkaiseva toimi”. Yudkowsky ei kuitenkaan usko, että heikot ratkaisevat toimet ovat mahdollisia, koska tekoäly, joka on tarpeeksi heikko ollakseen turvallinen, ei myöskään olisi tarpeeksi voimakas suorittamaan todellista ratkaisevaa toimea.

Näin ollen emme ehkä kykene välttämään tekoälyn suuntaamisongelman ratkaisemista luomalla heikkoa yleistä tekoälyä.

Miksi tekoälyn suuntaaminen on vaikeaa

Aikamme on rajallinen, ja meillä on luultavasti käytettävissämme vain yksi tilaisuus

Yleisen tekoälyn turvallistaminen on todennäköisesti hyvin vaikeaa, koska:

Meillä on rajallinen aika ongelman ratkaisemiseen: Meidän on luultavasti ratkaistava tekoälyn suuntaamisongelma ennen kuin yleinen tekoäly luodaan. Aikaa, joka meillä on käytettävissämme, ei tiedetä.
Meillä on luultavasti vain yksi tilaisuus ratkaista tekoälyn suuntaamisongelma: Yleisen tekoälyn alijärjestelmien ongelmat voidaan huomata ja korjata. Yleistä tekoäly ei kuitenkaan ehkä kyetä ohjelmoimaan useita kertoja, koska väärin suuntautunut yleinen tekoäly voi tappaa sinut ennen kuin pystyt tekemään lisätoimia.

Tekoälyn suuntaamisongelma olisi hyvin vaikea ratkaista jommallakummalla näistä rajoituksista, ja näyttää siltä, että molemmat ovat totta. Tieteellä on kokemusta vaikeiden ongelmien ratkaisemisesta rajattomilla uusintaotoilla ja aikaa on paljon, mutta tekoälyn suuntaamisessa meillä ei näytä olevan käytettävissämme kumpaakaan näistä eduista.

Ihmisen antama palaute ei toimi yleisen tekoälyn kanssa

Jos heikko tekoäly tuottaa haitallisia lopputuloksia, tuotos voidaan merkitä negatiiviseksi ja tekoäly voi oppia olemaan tuottamatta sitä uudelleen. Tämä tekniikka ei kuitenkaan sovellu yleisen tekoälyn tapauksessa, koska se voisi olla tarpeeksi voimakas tuottaakseen tuotoksen, joka tappaa sen käyttäjät ennen kuin nämä ehtivät antaa palautetta (negatiivisesta) tuotoksesta.

Skaalautuva suuntaaminen on vaikeaa

Sen sijaan meidän on ehkä keksittävä suuntaamisratkaisuja, jotka toimivat heikolle tekoälylle ja ovat yleistettävissä yli-inhimilliseen tekoälyyn. Ongelmana on, että siirtyminen ali-inhimillisestä älykkyydestä yli-inhimilliseen älykkyyteen on valtava harppaus jakaumassa, joka saattaa tehdä monista suuntaamistekniikoista sopimattomia. Jotkin suuntautumisratkaisun heikkoudet eivät välttämättä ilmene matalilla älykkyystasoilla ja ne ilmenevät vasta, kun tekoäly saavuttaa superälykkyyden tason. Siksi tekoäly voi aluksi näyttää olevan turvallinen, mutta muuttua vaaralliseksi vasta superälykkyyden saavuttamisen jälkeen.

Esimerkiksi heikon tekoälyn tapauksessa yhteistoiminnallinen käyttäytyminen on luotettava signaali siitä, että tekoäly on yhteistyökykyinen. Tämä sääntö ei kuitenkaan enää päde, kun tekoäly saavuttaa superälykkyyden tason, koska superälykäs tekoäly kykenee huijaamaan ihmiskäyttäjiään ja vaikuttaa yhteistoiminnallisuudesta, vaikka se ei todellisuudessa olekaan yhteistoiminnallinen (vaan väärinsuuntautunut). Monet tämänkaltaiset ongelmat voivat syntyä vasta, kun tekoälystä on tullut superälykäs.

Toinen ongelma on se, että kun tekoälystä tulee superälykäs, myös tekoälyn ohjelmoijat toimisivat normaalijakauman ulkopuolella, koska he olisivat tottuneet toimimaan ihmistä vähemmän älykkäiden tekoälyjärjestelmien, eivät superälyjen, kanssa.

Tekoälyn kyvykkyyden kasvaessa voi syntyä samanaikaisesti useita suuntaamisongelmia

Useita tekoälyn ohjelmoijien ennakoimia suuntaamisongelmia voi esiintyä vasta tietyn kyvykkyystason yläpuolella. Rekursiivisesti itseään parantavan tekoälyn älykkyys voi kasvaa räjähdysmäisesti, mikä voi aiheuttaa useita suuntaamishäiriöitä samanaikaisesti ihmiskäyttäjien näkökulmasta. Ongelma on erityisen vaarallinen, jos nämä suuntaamisvirheet tapahtuvat (ja ilmenevät) vasta sen jälkeen, kun tekoälystä on tullut superälykäs.

Sisäinen suuntaamisongelma

Ulkoinen optimointi ei aina johda sisäiseen optimointiin toivottuun suuntaan.

Ei ole olemassa luotettavaa menetelmää sen arvioimiseksi, onko tuotos suuntautunut toivotulla tavalla

Palkintosignaali ei ole täydellinen mittari sille, onko järjestelmän toiminta suuntautunut toiveidemme kanssa, koska tekoäly voi saada palkkion tekemättä oikein suuntautuneita toimia. Tekoäly voisi huijata ihmiskäyttäjiä ja -tarkkailijoita tai korvata heidät saadakseen suuremman palkkiosignaalin tekemättä toivottuja suunnattuja toimia.

Aluksi palkkiosignaali voi korreloida suuntautuneiden toimien kanssa, mutta suhde voi rikkoutua, jos tekoäly optimoi palkkiosignaalin liian voimakkaasti. Tämä ongelma tunnetaan nimellä Goodhartin laki: “Mittari menettää merkityksensä, kun siitä tulee tavoite.”

Ei tunneta tapaa, jolla tappiofunktioiden, palkitsemisfunktioiden tai antureiden avulla voitaisiin luotettavasti motivoida tekemään tiettyjä muutoksia ympäristössä

Voit esimerkiksi pyytää siivousrobottia varmistamaan, ettei se näe huoneessa mitään sotkuja. Mutta sen sijaan, että robotti siivoaisi huoneen, se voi saavuttaa tavoitteen sulkemalla “silmänsä”. Tekoälyä kannustetaan manipuloimalla tappiofunktiota, palkitsemisfunktiota tai antureita olemaan tekemättä haluttuja toimia ympäristössä.

Ihmisen antama palaute on epätäydellistä

Palautetta antavat ihmiset tekevät virheitä ja kärsivät kognitiivisista vinoumista. Tekoäly, joka oppisi vain ihmisen palautteesta, oppisi vääristyneen mallin inhimillisistä arvoista ja ajautuisi väärään suuntaan.

Kyvykkyydet yleistyvät pidemmälle kuin suuntautuminen, kun kyvykkyydet yleistyvät

Kun järjestelmän kyvykkyydet yleistyvät, sen suuntautuminen ei samalla yleisty samassa suhteessa. Sisäiseen optimointiin perustuva järjestelmä saattaa olla suuntautunut toivotulla tavalla, kun sen kyvyt ovat kapeat, mutta se voi olla väärin suunnattu kehittyneempien ja yleisempien kyvykkyyksien myötä.

Korjattavuus (“korrigoitavuus”) on edelleen ratkaisematon ongelma

Ongelma on siinä, miten luoda sellainen yleinen tekoäly, joka antaa luvan itsensä sammuttamiseen sammuttamatta itseään, on edelleen ratkaisematta. MIRI yritti ratkaista ongelman, mutta epäonnistui siinä.

Moninapaiset strategiat eivät ehkä toimi

Useat erilaiset erillisiksi tarkoitetut yleiset tekoälyjärjestelmät voisivat tehdä yhteistyötä ja käyttäytyä ikään kuin yhtenä agenttina. Vaihtoehtoisesti kaksi yleistä tekoälyä voisi päättää jakaa maailman keskenään.

Useat tekoälyt, jotka on suunniteltu toimimaan yhteistyössä toistensa ja ihmiskunnan kanssa, saattavat tehdä yhteistyötä vain toistensa kanssa ja sulkea ihmiskunnan ulkopuolelle, jos ihmiskunta on ryhmän vähiten älykäs jäsen.

Tekoälyboksit eivät toimi

Tekoälyn “laatikointi” toimii vain heikkojen agenttien tapauksessa, eivätkä ihmiset ole riittävän turvallisia laittaakseen superälyä “laatikkoon”.

Suuntamistekniikka

Kaksi suuntaamistekniikkaa

CEV-suvereeni: Rakennetaan suvereeni tekoäly, joka on ohjelmoitu toteuttamaan koherenttia ekstrapoloitua tahtoamme (coherent extrapolated volition, CEV). Tämä ei todennäköisesti toimi, koska arvomme ovat monimutkaisia ja on epätodennäköistä, että koodaamme ne onnistuneesti tekoälyyn yhdellä kertaa.
Korjattava tekoäly (“Korrigoituva TÄ”): Rakennetaan tekoäly, joka ei tee juuri sitä, mitä haluamme, mutta joka on korjattavissa, jotta voimme kytkeä sen pois päältä. Tämän lähestymistavan ongelmana on, että korjattavuus on ristiriidassa itsesäilyvyyden välineellisen konvergentin tavoitteen kanssa.

Yudkowsky ei usko kummankaan lähestymistavan toimivuuteen.

Tulkittavuuden ongelmat

Tällä hetkellä emme tiedä, mitä tekoälyt ajattelevat. Emme tiedä, miten tekoälyn vaaralliset motiivit voitaisiin selvittää.
Vaikka loisimme vääränlaisen tekoälyn ja meillä olisi riittävän kehittyneet tulkitsemistyökalut, joilla voimme selvittää, mitä se ajattelee, emme silti tietäisi, miten luomme oikein suuntautuneen tekoälyn
Optimoimalla epäsovinnaisia ajatuksia vastaan optimoidaan sovinnaisia ajatuksia, mutta myös kykyä piilottaa epäsovinnaiset ajatukset tai heikentää niiden tulkittavuutta.
Emme ehkä pysty arvioimaan meitä älykkäämmän tai monimutkaisemman tekoälyn ajatuksia tai suunnitelmia.
Tulkittavuus saattaa olla vähemmän toimivaa, jos tekoäly on riittävän kehittynyt huijaamaan tarkkailijoitaan.
Tekoälyn ajatusmallit saattavat olla niin outoja ja vieraita, ettemme voi mitenkään ymmärtää niitä.

Tekoälyn suuntaamisen tutkimus

Kirkassilmäiset nuoret ja kyyniset vanhat veteraanit

Usein kirkassilmäiset nuoret tulevat alalle toiveikkaina, mutta sitten he huomaavat sen ongelman, jonka he toivoivat ratkaisevansa, olevan vaikeampi kuin he ennakoivat. Heistä tulee kyynisiä vanhoja veteraaneja, jotka varoittavat ihmisiä ongelman vaikeudesta.

Yleisen tekoälyn piirissä ei ehkä koskaan ole kyynisiä vanhoja veteraaneja, koska kirkassilmäinen nuori, joka luo vääränlaisen yleisen tekoälyn, kuolee ennen kuin nuori oppii virheistään ja muuttuu kyyniseksi vanhaksi veteraaniksi. Siksi yleisen tekoälyn tutkijat voivat aina olla epärealistisen optimistisia.

Ratkaisu on tajuta, että olet kirkassilmäinen nuorukainen, ja käyttää ennakointikykyäsi muuttuaksesi kyyniseksi vanhaksi veteraaniksi varhaisessa vaiheessa, koska et kykene hankkimaan sellaista kokemusta, joka tekisi sinusta sellaisen, jos työskentelet yleisen tekoälyn parissa.

Tekoälyn turvallisuuden tutkijat eivät edisty aidosti

Useimmat tutkijat työskentelevät sellaisten ongelmien parissa, joissa on helppo edistyä, eivätkä niinkään vaikeiden ongelmien parissa, joissa he saattavat epäonnistua. Alalla ei tapahdu todellista edistystä, eikä ole olemassa menetelmää, jolla voitaisiin määrittää, vähentääkö tutkimus todella tekoälyriskejä.

Suuntautumisajattelu

Yudkowsky hahmottaa tekoälyn suuntautumisratkaisuihin liittyvät vakavat ongelmat, mutta ei tiedä, miten hän tiedä, miten hän onnistuu tässä tai miten kouluttaa muita ihmisiä omaksumaan tällainen ajattelutapa. Turvallisuusajattelu on samanlaista, ja sitä voidaan opettaa.

Suuntautumistutkimuksen osaajat

Muilta aloilta tulevien nerojen palkkaaminen miljoonien korvauksin uhraamaan aikansa suuntautumisongelmaan ei todennäköisesti toimi, koska heillä ei ole riittävästi ymmärrystä alasta tai he eivät tiedä, miltä hyvä tai huono työ näyttää.

Sen sijaan olisi parempi maksaa ihmisille siitä, että he tekevät laadukasta suuntautumisalan työtä riippumatta siitä, kuka sen tuottaa.

Tämän artikkelin lukeminen ei tee kenestäkään suuntautumisen osaajaa tai sen tutkijaa

Kyky, jolla on merkitystä, ei ole kyky lukea tätä kirjoitusta ja olla samaa mieltä siinä esitetyistä ajatuksista, vaan kyky kirjoittaa tällaisia asiakirjoja tyhjästä. Voi olla ihmisiä, joilla on kaikki tarvittava tietämys, mutta jotka eivät pysty tai ole pystyneet kirjoittamaan tällaista kirjoitusta. Se, että vain Yudkowsky kykeni kirjoittamaan tämän kirjoituksen, ei ole toivoa herättävää.

“Se tosiasia, että 21 vuotta siitä, kun tulin itse mukaan tähän kuoleman peliin, seitsemän vuotta siitä, kun muut efektiiviset altruistit huomasivat kuoleman pelin, ja kaksi vuotta siitä, kun jopa normaalit ihmiset ovat huomanneet kuoleman pelin, Eliezer Yudkowsky kirjoittaa edelleen tätä listaa, kertoo siitä, että ihmiskunnalla on edelleen vain yksi peliväline, joka voi tehdä sen. Tiesin, että minulla ei oikeastaan ollut fyysistä kestävyyttä olla loistotutkija, yritin todella kovasti korvata itseni ennen kuin terveyteni heikkeni entisestään, ja silti olen tässä kirjoittamassa tätä. Hengissä säilyvä maailma ei näytä tältä.”

Hengissä säilyvä maailma ei näytä tältä

Meillä ei ole tällä hetkellä suunnitelmaa tekoälyn suuntaamisongelman ratkaisemiseksi. Jos eläisimme hengissä säilyvässä maailmassa, olisimme luoneet sellaisen jo vuosikymmeniä sitten.

Hengissä säilyvissä maailmoissa ei jätetä keskeisten ideoiden keksimistä, ehdotusten puutteiden osoittamista tai asiakirjojen laatimista yksittäisen terveysongelmaisen kaverin tehtäväksi. Niissä maailmoissa luodaan suunnitelmia ja niistä etsitään puutteita sen sijaan, että työ ulkoistettaisiin. Monet ihmiset näissä maailmoissa työskentelevät tekoälyn suuntaamisongelman parissa säieteorian sijaan.

Monet näistä paremmista maailmoista saattavat epäonnistua tekoälyn suuntaamisongelman ratkaisemisessa. Mutta niiden asukkaat kuolisivat ainakin arvokkaammin kuin me.

Suomennos Stephen McAleeseen julkaisemasta yhteenvedosta “Summary of ‘AGI Ruin: A List of Lethalities’”. Artikkeli on julkaistu LessWrong-verkkosivustolla 11.6.2022.

Kirjoituksen on suomentanut Thomas Brand (Twitter).