Kaip geriausi StarCraft II žaidėjai buvo sutriuškinti dirbtinio intelekto valdomo boto

Dirbdami kartu DI ir žmonės atranda geresnius pasaulio problemų sprendimus, kurie prasprūstų, dirbant atskirai. Drauge jie pakeis patį mąstymo procesą.

Kaip ir kiti čempionai, susidūręs su oponentu, Grzegorz „MaNa“ Komincz įvertino savo galimybes. „Realistiška būtų tikėtis rezultato 4-1 mano naudai,“ sakė jis interviu prieš mačą.

Vienas iš geriausių pasaulyje StarCraft II žaidėjų, Kominczas buvo sėkmingos esporto karjeros viršūnėje. 2018 metų gruodžio 19 d. dirbtinio intelekto vystymo kompanija DeepMind pakvietė Grzegorzą susirungti su naujausiu jų DI, StarCraft II žaidžiančiu botu AlphaStar.

Kominczas tikėjosi rimtai pasipriešinti. Nepavyko. Sausas rezultatas 5-0 šią viltį palaidojo. „Nesitikėjau, kad šis DI bus toks geras,“ sakė jis. „Jaučiausi lyg mokinys.“

Tai buvo tik naujausia iš visos mašinų pergalės serijos, besitęsiančios nuo šachmatų čempiono Gario Kasparovo 1997 pralaimėjimo IBM Deep Blue. 2017 metais kitas DeepMind DI, AlphaGo Master, nugalėjo geriausią pasaulyje Go žaidėją dešimtmečiu anksčiau, nei numatė dauguma tyrėjų. Tada kompanijos DI įvaldė šachmatus ir StarCraft – žaidimą, kuriame per minutę dešimtys skirtingų veikėjų atlieka šimtus judesių.

Bet tai nėra vien žmones įveikiantį antžmogišką DI. Svarbiausia, kad kiekviena tokia pergalė suteikia galimybę pažvelgti, kaip DI antžmogiais padarys mus. Taip yra, nes mąstymas taps dviejų veiksmu. Veikdami kartu, žmonės ir DI keisis idėjomis, tobulindami kits kito idėjas, nukreipdami link sprendimų, kurie bus geresni, nei galėtų sukurti atskirai.

Ir potencialas toli gražu neapsiriboja žaidimais. Tokiu bendru darbu tikimasi atlikti proveržius energijos naudojime, sveikatos priežiūroje ir taip toliau.

Tokią viziją propaguoja DeepMind vienas iš įkūrėjų Demis Hassabis ir daugelis kitų sutinka. „Tai bus nuostabus mąstymo praplėtimas,“ sako Anders Sandberg iš Oksfordo universiteto Žmonijos ateities instituto.

Kominczui jo pralaimėjimas atrodė kaip pamoka. Kitas StarCraft II profesionalas, Dario „TLO“ Wünsch, taip pat nugalėtas 5-0, juto tą patį. „AlphaStar ima gerai žinomas strategijas ir perverčia jas,“ sakė Wünschas. „Gali būti naujų būdų žaisti šį žaidimą, kurių dar nesame išbandę.“

Jų komentarai skamba panašiai, kaip ir kitų augančio nugalėtų žmonių rato. Daugelį pribloškė DeepMind DI gebėjimas atlikti pergalę atnešančius veiksmus, apie kuriuos joks žmogus nepagalvojo, ir apie kurie neminimi daug amžių rašomose knygose apie žaidimą. Pasinaudodami DI, žaidėjai gali pereiti į kitą lygį. Praleimėjęs AlphaGo, Europos Go čempionas Fan Hui treniravosi su DI ir vos per kelis mėnesius pagerino savo pasaulinį reitingą nuo 600 iki 300.

Kompiuteriai geriau už žmones šachmatais žaidžia jau ne vieną dešimtmetį. Daugumai žaidėjų tai buvo gyvenimo faktas dar prieš istorinį Kasparovo pralaimėjimą Deep Blue. Dabar visi profesionalūs žaidėjai praktikuojasi, žaisdami šachmatais su kompiuteriu. Jie linkę žaisti gynybiškai, tad, geriausių žaidėjų žaidimas irgi tapo labiau gynybinis.

Kita DeepMind žaidimų DI karta, AlphaZero, vėl supurtė šachmatų pasaulį. Žaidimų serijose 2017 ir 2018 metais, AlphaZero nugalėjo Stockfish, vieną iš geriausių šachmatų kompiuterių pasaulyje. Kitaip nei Stockfish, AlphaZero žaidžia agresyviai, dažnai, jei tai padeda pasiekti tikslą, paaukodama figūras jau žaidimo pradžioje. „AlphaZero tiesiog metasi atakon,“ sako Natasha Regan, atstovavęs JK tiek Go, tiek ir šachmatuose.

Reganas ir grandmeisteris Matthew Sadler parašė knygą Game Changer, kurioje nagrinėja rėmus laužančias AlphaZero šachmatų strategijas pataria būsimiems žaidėjams. DI veikiau primena įstabų žaidėją žmogų, o ne tipišką šachmatų kompiuterį, dėl to jie stulbinami mokytojai, pastebi autoriai.

Išradingas agresyvumas gali būti paplitęs bruožas. Geri StarCraft žaidėjai paprastai gynybą stato jau žaidimo pradžioje. Bet Reganas su Sadleriu pastebėjo, kad AlphaStar tuo neužsiėmė. Jie atpažino kai kurias taktikas, AlphaZero naudotas šachmatuose.

„Tai išties atveria akis,“ sako Sadleris. „Iš tiesų pradedi manyti, kad šie skirtingi iššūkiai turi bendrą DI stilių.“

To rezultatas yra naujo tipo programinė įranga demonstruojanti tai, kas atrodo labai panašu į kūrybingumą ir – nedrąsu sakyti garsiai – intuiciją. Davidą Silverį iš DeepMind tokios mintys irgi aplanko. „Su AlphaGo varžęsi profesionalūs Go žaidėjai nuolat pabrėždavo sistemos kūrybingumą,“ sako jis. „Jie tikėdavosi gal kiek blankesnio, bet efektyvaus žaidimo, bet vietoje to žaidimas būdavo išties gražus ir išradingas.“ „Būtų protinga problemas spręsti tandemu su mašinomis”.

Tai kodėl gi šie DI stebina mus labiau nei ankstesnė programinė įranga? Labiausiai tikėtina priežastis – jai nebūdingos žmogiškos silpnybės. Kad ir kokios geros ankstesnės šachmatų programos, jose įdiegtos žmonių strategijos. DeepMind DI mokėsi žaisti, varžydamiesi su savimi. Jų algoritmai gal ir skirtingi, tačiau bendras principas – toks pats.

Jie visi naudoja mašininio mokymosi techniką, vadinamą giliojo sustiprinimo mokymusi deep reinforcement learning – DRL. Tam sukuriamas neuronininis tinklas – programinė įranga, bendrais bruožais primenanti smegenų modelį ir gebanti atlikti konkrečią užduotį – treniruodamasi dideliais duomenų kiekiais. Naudojant bandymų ir klaidų metodą, tokios sėkmės, kaip Go žaidimo laimėjimas, yra apdovanojamos, taip sustiprinamas konkretus elgesys.

AlphaGo ir AlphaStar išmoko patys, sekdami žmonių pavyzdžius. Bet AlphaZero naudoja tik žaidimo taisykles – „zero“ pavadinime tą ir reiškia. Jiems pateikiamos žaidimo taisyklės ir tikslas, o tada paliekami mokytis patys. Pradėdamas eiti atsitiktinius ėjimus, DI žaidžia prieš save, kol viską perpranta. Tuo pačiu susikuria nuosavą užduoties atlikimo metodą. Vos per kelias valandas AlphaZero sužaidė su savimi dešimtis milijonų kartų, ir tapo geriausiu Go žaidėju ir geriausiu šachmatininku. „AlphaZero atranda tūkstančius koncepcijų, lemiančių daugiau pergalių,“ sako Silveris. „Iš pradžių šie žingsniai gan elementarūs, bet galiausiai tas pats procesas gali atrasti žinias, kurios stebina net geriausiai žaidžiančius žmones.“

Silveris su kolegomis dėmesį sutelkė į žaidimus, nes jie yra puikios bandymų platformos, pateikiančios įvairiausius iššūkius, kurie pažįstami ir žmonėms. Bet galutinis DI vystymo tikslas yra kur kas ambicingesnis. „Kalbant apie planus, manome, mūsų būdas galėtų būti pritaikytas kai kurioms fundamentalioms mokslo problemoms,“ svarsto Silveris.

Ankstyvos galimybių užuominos išryškėjo pernai, pasirodžius AlphaFold, DeepMind DI, nuspėjančiam vidinę baltymų struktūrą. Geresnis baltymų veikimo supratimas padės kontroliuoti viską, nuo ligų iki maisto gamybos. Tačiau baltymų funkciją apsprendžia jų unikali struktūra. Šią, supainiotą virvę primenančią, struktūrą, iš baltymą sudarančių aminorūgščių sekos nuspėti sunku. Tyrėjai turi remtis daug pastangų reikalaujančiais, brangiais struktūros nustatymo metodais, kurie daugeliui baltymų nėra pritaikomi. Nustatyti baltymų „susilankstymą“ iš aminorūgščių sekos yra labai geidžiamas tikslas, tačiau nepaisant ilgiau nei 70 metų trunkančių atkaklių pastangų, didžia dalimi tai tebelieka svajone.

2018 metų liepą, AlphaFold laimėjo Critical Assessment of Protein Structure Prediction konkursą, programinės įrangos, baltymų susilankstymą numatančios programinės įrangos vertinimo auksinį standartą. Viliamasi, kad AlphaFold baltymų struktūros nustatymui suteiks tai, ką panašūs DI suteikė žaidimams. Tad, kur eiti, ar toli didesnių tikslų realizavimas?

„Žinoma, progresas milžiniškas, bet nemanau, kad kas nors iš tiesų galvoja, kad DI jau visai netoli iki žmogaus lygio,“ sako Ken Stanley iš Centrinės Floridos universiteto, įkūręs Uber kompanijos DI laboratoriją. Nors AlphaZero mokėsi žaisti Go ir šachmatais, naudodamas tą patį algoritmą, jo šachmatais žaidžiantis neuroninis tinklas nemoka žaisti Go, o jo Go žaidžiantis tinklas nemoka žaisti šachmatais. AlphaZero negeba viename žaidime išmoktų pamokų perkelti į kitą.

Kad gilusis mokymasis pasiektų kitą ilgo kopimo į žmogišką protą lygį, neuroniniai tinklai turi tapti generalizuoti. Tam gali prireikti visai naujų tarpusavio jungimosi ar naujų programinių tinklo neuronų aktyvavimo taisyklių. „Nenorime sudėtingumo vien dėl paties sudėtingumo,“ paaiškina Stanley. „Norime jo, nes taip sukuriami nuostabūs dalykai.“

Generalizavimą Stanley'is tikisi pasiekti, pasitelkdamas neuroevoliuciją: neuroninius tinklus, tobulinančius save gamtos įkvėptomis technikomis. Pagrindinis evoliucinių technikų panaudojimo kompiuterijoje būdas yra pradėti nuo atsitiktinių sprendinių, pasirinkti geriausius, sumaišyti ir pabandyti dar kartą. Pakartojus tai milijonus kartų, sistema apsistos prie pačios sukurto sėkmingo DI dizaino.

Kadangi tokios technikos veikia ir galime sukurti vis geresnius DI, perspektyviausia galimybė yra tokia, kad jie taps mūsų bendradarbiais. „Žmonės neišvengiamai užduotis atliks drauge su DI,“ tvirtina Devi Parikh iš Georgia'os technologijos instituto Atlantoje.

Kompiuteris – mano kitos smegenys

Sėkmingam sandarbiui reikia pasitikėjimo, tad būtina DI proto teorija, pabrėžia Parikh. Panaudodami proto teoriją, žmonės ir kai kurie kiti gyvūnai gali apibūdinti proto būsenas kitiems. Taip įmanoma suprasti kito perspektyvą, įsitikinimus ir intencijas.

Kuo geriau žmonės supranta, kas vyksta kolegų galvose, tuo efektyviau jie dirba kartu ir prisitaiko prie vienas kito stiprybių ir silpnybių, sako Parikh. Kodėl gi taip negalėtų būti žmonių ir DI komandose? (Žr. „Svetimas mąstymas“).

Iš dalies padės suprantamesnių ir skaidresnių DI kūrimas. Bet vaisingiausia gali tapti partnerystė ir bendras mąstymas. Visi žino, kad Kasparovas pralaimėjo Deep Blue, tačiau nedaug kas žino, kad Kasparovas ėmėsi kurti pažangesnius šachmatus, kur žmonės ir kompiuteriai aidžia poromis.

Nieko keisto, kad mėgėjas su kompiuteriu įveikia grandmeisterį. Bet net jei kompiuterius naudoja abu, mėgėjas gali įveikti grandmeisterį. Paprastai tai nutinka, kai mėgėjas yra geresnis komandinis žaidėjas už ekspertą, kuris, tikėtina, dažniau atmes mašinos pasiūlymus.

Žinoma, yra situacijų, kur galime tikėtis, kad žmonių vertinimas pranoks DI – estetika ar etika yra akivaizdžiausi kandidatai. Ar pavyzdžiui, generacinis dizainas, kai DI jau dabar sukuria tūkstančius orlaivių ir automobilių detalių projektų. Programa atsijoja daugybę galimybę iki kelių stiprių kandidatų, iš kurių paskui pasirenka žmogus. Labai nebloga mintis išlaikyti žmogaus dalyvavimą ir kuriant autonomines ginklų sistemas.

Jei išsiaiškintume, kada DI turėtų prašyti žmogaus pagalbos, kombinuotas mąstymas galėtų būti gerokai galingesnis už vien DI. Sandbergui tai turėtų būti DI, atliekanti už mus daug galvojimo, bet priimantis tik tokius sprendimus, kuriems pritariame. Sandbergo kolega iš Oksfordo universiteto Owain Evans stengiasi išmokyti DI žmogiškų vertybių. Pateikdama klausimus apie potencialius sprendimus, sistema mokosi elgtis skirtingose moralinėse situacijose. DI gali kartkartėmis susitikrinti su mūsų vertybėmis. Ar toks veiksmas būtų netinkamas? O toks rezultatas būtų OK? „Jie gal ir protingesni už mane, tačiau darytų tik tai, ką daryčiau pats,“ sako Sandbergas

Stanley'is irgi vertina žmogaus indėlį. Jis prisimena, kaip nustebo, kai atliko eksperimentus, kur neuroninis tinklas vystėsi, kad išvestų robotą iš labirinto. Kartais prisidedant žmogui, DI smarkiai pagerėjo. Prasminga pradėti spręsti problemas drauge su mašinomis. Negalime jų įveikti individualiose rungtyse, tad, prisijunkime prie jų.

„Teisingai veikdami, galime praplatinti požiūrį į problemų sprendimą,“ sako Sandbergas. „Žinome, kad spręsti problemas padeda jos įvertinimas iš skirtingų perspektyvų. Greitai galėsime turėti perspektyvas, kurios skiriasi nuo mūsų kada nors turėtų.“

Svetimas mąstymas

DI gebėjimas mąstyti neįprastai gali padėti sprendžiant didžiausias pasaulio problemas. Bet ar mums patiks tai, ką sugalvos mašinos?

Kartais DI pateiktas sprendimas būna visai netinkamas, bet netgi kai jis teisingas, galime jaustis nejaukiai. Tokias technines problemas, kaip energijos vartojimo sumažinimas ar cheminių reakcijų modeliavimas, žmonės tikriausiai patikės spręsti DI. Bet kalbant apie socialines problemas, gali būti sunku atsikratyti požiūrio, kad geriau žinome ką daryti.

Pavyzdžiui, įsivaizduokite, kad užuot balsavę už kandidatus į valdžią, prašytume DI įvertinti jų stipriąsias puses ir parinkti vietoje mūsų. O jeigu jų pasirinkimas neatitiktų mūsų lūkesčių ar preferencijų, ar pritartume jiems?

Taip gali būti ir su moralės klausimais. „Jei DI, kuri visada buvo teisi, imtų teikti moralinius patarimus, gerai pagalvočiau ar jais pasinaudoti, net jei protu ir suprasčiau, kad turėčiau,“ svarsto Andersas Sandbergas iš Oksfordo universiteto. „Gal tiesiog noriu nuspręsti pats.“ O gal ne – būtų nuostabu, nors ir kiek distopiška, jei žmonės pasitrauktų nuo sprendimų priėmimo.

Iš principo, būtų prasminga idėjas išbandyti ir tada, remiantis rezultatais, parengti DI naudojimo politiką. Bet Sandbergo nuomone, toks būdas netiks dalykams, sukeliantiems mums stiprius jausmus – pavyzdžiui, kaip reikėtų mokyti savo vaikus. Būtent todėl tokios politikos bandymai mokyklose pasirodė tokie kontroversiški.

Tikėtina, tokiomis aplinkybėmis priimti DI rekomendacijas bus dar sunkiau, ypač, jeigu jos atrodys keistos. „DI tikriausiai galės pasakyti, kaip reikėtų šviesti vaikus, bet ar mes to norėsime?“ klausia Sandbergas.