https://frosthead.com

Turing-testen måler noe, men det er ikke "intelligens"

Alan Turing, en av fedrene i datatiden, var en usedvanlig flink mann. Så smart, faktisk at han forsto at begrepet “maskinell intelligens” omtrent var meningsløst. Bedre, resonnerte han, for å snakke om hva en maskin faktisk kan gjøre: Kan den snakke? Kan det holde en samtale nede? Det er i det minste noe vi kan prøve å studere. Turing foreslo etter hvert det som har blitt kjent som "Turing-testen": Hvis en dommer ikke kan si hvilken av to skjulte enheter som er et menneske og som er en kunstig, har maskinen "bestått" testen - som er nøyaktig hva sies å ha skjedd den siste lørdagen i London.

Relatert innhold

  • Silicon Valley skylder suksessen til dette tekniske geniet du aldri har hørt om
  • Alan Turings 60 år gamle spådom om mønstre i naturen påvist

"Vi er stolte over å erklære at testen til Alan Turing ble bestått for første gang, " sa en av arrangørene, Kevin Warwick fra University of Reading, da resultatene ble kunngjort. Den vinnende chatboten heter "Eugene Goostman", et dataprogram som etterligner personligheten til en 13 år gammel ukrainsk gutt. "Eugene" klarte å overbevise 33 prosent av dommerne om at det var menneskelig på lørdagens arrangement, som ble holdt på Royal Society's kontorer i London på 60-årsjubileet for Turing's død. (Turing, en homoseksuell, ble dømt for grov usømmelighet i 1952 og ble beordret til å gjennomgå hormonell "behandling" som ledd i en bønneavtale. To år senere døde han av cyanidforgiftning i et tilsynelatende selvmord.)

Men et ord av forsiktighet er i orden. "Etterretning" har alltid vært et glatt tema, og spesielt Turing-testen har lenge vært full av kontroverser. Turing beskrev hvordan det ville fungere i et papir fra 1950 med tittelen "Datamaskiner og intelligens." Han tok ideen fra et tradisjonelt viktoriansk salongspill, der du prøver å finne ut om personen som er gjemt bak en gardin er en mann eller en kvinne, bare ved å stille spørsmål. (Svarene på spørsmålene måtte skrives ned, fordi stemmen ville være en gave.) Slik fungerer Turinges versjon: Du ville ha en dommer som satt foran to gardiner, uten noen måte å vite hva som ligger bak dem. . Bak den ene gardinen er et menneske; bak den andre er en datamaskin. Dommeren kan stille spørsmål til en av de to skjulte enhetene. Basert på svarene prøver dommeren å finne ut om den skjulte enheten er et menneske eller en maskin. (Turing så for seg at samtalen ble formidlet av teletypemaskiner; i dag kan vi bruke alle slags elektroniske, tekstbaserte grensesnitt, som den som brukes i nettpratrom, eller direktemeldinger.)

Turing spekulerte i at i år 2000 “vil en gjennomsnittlig avhør ikke ha mer enn 70 prosent sjanse for å gjøre rett identifikasjon” - det vil si at dataprogrammer vil lemme dommerne 30 prosent av tiden - etter fem minutters avhør. "Fem minutter" er viktig. Turing snakket ikke om en tidsbegrensning som en iboende del av testen, og man kunne hevde at for at en maskin virkelig skal bestå testen, burde den kunne håndtere noen spørsmål. Antagelig var kriteriene på fem minutter en vilkårlig, men nødvendig grense. Året 2000 kom og gikk, med chatbots som bare stoppet fremgangen. (I et mer edruelig øyeblikk, svarende på et spørsmål fra en BBC-intervjuer i 1952, sa Turing at det ville gå 100 år før en maskin besto testen.)

Tilbake i 2012 var jeg dommer i et "Turing-testmaraton", det største settet med Turing-tester som noensinne har blitt gjennomført. det ble holdt i Bletchley Park, i England, stedet for Turings viktige kodebrytende arbeid i løpet av de siste årene av andre verdenskrig. (Det ble organisert av det samme teamet som kjørte lørdagens arrangement, og en tidligere versjon av Eugene var vinneren også den gangen.) Oppsettet til lørdagens arrangement var det samme som i 2012: Dommerne skrev spørsmålene sine på en datamaskin, ventet på at svarene skulle vises på skjermene deres; chatbotene, sammen med de ”skjulte menneskene”, var i et annet rom ute av syne.

Det første jeg ble hyperbevisst av er at når du er dommer i en Turing-test, går fem minutter ganske raskt. Og jo kortere samtalen er, desto større er datamaskinens fordel; jo lenger avhør, jo større er sannsynligheten for at datamaskinen vil gi seg fra seg. Jeg liker å kalle dette mannequin-effekten: Har du noen gang unnskyldt et varehus mannequin, forutsatt at du nettopp hadde støtt på et levende menneske? Hvis møtet bare varer et brøkdel av et sekund, og med deg vendt mot den andre veien, kan du tenke deg at du nettopp pusset opp mot et menneske. Jo lengre møte, desto tydeligere mannequin-ness av mannequin.

Det er det samme med chatbots. En utveksling av hellos avslører ingenting - men jo lenger du kommer inn på det, desto flere problemer oppstår. Chatbots synes jeg er utsatt for å endre emne uten grunn. Ofte kan de ikke svare på enkle spørsmål. I risikoen for å høres vage høres de bare ikke ut menneskelige . I en av samtalene mine i 2012 skrev jeg inn en enkel vits - og enheten jeg snakket med, endret emnet øyeblikkelig til hamburgere. (Dataforskeren Scott Aaronson hadde nylig en lignende opplevelse da han chatte med Eugene via botens hjemmeside. Aaronson spurte Eugene hvor mange bein en kamel har; den svarte: "Noe mellom 2 og 4. Kanskje tre? :-)))" Senere, da Aaronson spurte hvor mange bein en maur har, hostet Eugene nøyaktig samme svar, trippel-smiley og alt.)

Legg også merke til at Eugene ikke etterligner en morsmål som engelsktalende; den later til å være en ung og litt flippende ukrainsk tenåring, og snakker på rimelig god (men langt fra perfekt) engelsk. Som Vladimir Veselov, en av programmets utviklere, sa til Mashable.com : "Vi har brukt mye tid på å utvikle en karakter med en troverdig personlighet." Selv om Eugene vil engasjere noen som helst tema, gjør hans alder "det helt rimelig at han ikke vet ikke alt. ”Eugene kommer ikke rett ut og kunngjør sin alder og nasjonalitet; men han vil avsløre det hvis du blir spurt - og sluttresultatet kan være en viss grad av mildhet fra dommerne, spesielt når det gjelder engelsk grammatikk og ordbruk. (Jeg antar at de fleste av dommerne på lørdag var engelsktalende, selv om jeg ikke vet dette med sikkerhet.) Tabellene ville sannsynligvis blitt snudd om Eugene noen gang skulle møte en innfødt ukrainsk som en dommer.

Kampen for å bygge en talende maskin belyser hvor komplekst språk det er. Det er ikke bare et spørsmål om å snakke - du må snakke om noe, og det du sier må være fornuftig - og det må være fornuftig i sammenheng med det den andre personen nettopp har sagt. For oss er det enkelt; for datamaskiner, ikke så mye. Og slik stoler chatbots på et utvalg av triks: Å huske megabyte hermetikk-svar, eller skure Internett for dialog som kan tilnærme samtalene de er midt i. Hva en maskin mangler i intelligens kan det med andre ord være i stand til å gjøre opp for i rå datakraft. Dette er grunnen til at Google eller Siri (iPhone personlig assistent) kan virke så smarte for oss: Siri har kanskje ikke et "sinn", men det har tilgang til en så omfattende database med informasjon, den kan fungere som om den gjør. Det var den samme typen brute-force tilnærming som tillot IBMs “Watson” å vinne på Jeopardy! i 2011.

Alt dette reiser et avgjørende spørsmål: Hva er det egentlig Turing-testen måler? Noen kritikere har antydet at det belønner lureri heller enn intelligens. NYU-psykolog Gary Marcus, som skriver på NewYorker.com, sier Eugene lykkes "med å utføre en serie" ploys "designet for å maskere programmets begrensninger.” Steven Harnad, en psykolog og informatiker ved University of Quebec i Montreal, var enda mer skeptisk og forteller The Guardian at det var "fullstendig tull" å hevde at Eugene hadde bestått Turing-testen. (Turing var godt kjent med dette problemet; han kalte ideen sin "imitasjonsspillet" og snakket kun om intelligens.) Enda mer vanskelig, er datamaskinen, i motsetning til det menneskelige, tvunget til å bedrag. "Turing-testen er virkelig en test for å være en vellykket løgner, " sa Pat Hayes, en datamaskinforsker ved Institute for Human and Machine Cognition i Pensacola, Florida, til meg etter Turing-testmaraton i 2012. "Hvis du hadde noe som virkelig kunne passere Tures imitasjonsspill, ville det være en veldig vellykket 'menneskelig etterligning.'"

Og "menneske" er det andre nøkkelpunktet: Er det ikke mulig at det finnes andre typer intelligens i verden, utover det arten viser? En virkelig intelligent maskin ville ha utallige praktiske bruksområder, men hvorfor fokusere på å skape flere “mennesker”? Vi har tross alt mange mennesker allerede. Som språklisten Noam Chomsky har påpekt, når vi bestreber oss på å bygge en maskin som beveger seg under vann, krever vi ikke at den skal "svømme" - og en ubåt er ikke mindre en prestasjon for sin manglende evne til å gjøre motstreken.

Ja, Eugene er imponerende, i alle fall i små utbrudd. Og likevel, selv de beste chatbotene snubler over spørsmål som et barn som er halve Eugens pretender, kunne takle vind. Kanskje ikke overraskende at de fleste AI-forskere bruker lite tid på å besette over Turing-testen. Maskinintelligens er faktisk fremover, og ganske raskt. Programvare for tale-til-tekst-oversettelse, som var ganske patetisk for bare noen få år siden, forbedrer seg raskt, i tillegg til språkoversettelsesprogrammer. Amazon har ofte en ganske god ide om hva du vil kjøpe allerede før du gjør det. Og Googles selvkjørende bil ville vært bare fantasi for et tiår siden. Men samtalen, som vi fortsetter å oppdage, er virkelig vanskelig, og det er ikke sannsynlig at det vil være grensen der AI lyser mest. For nå, hvis du leter etter noen å chatte med, anbefaler jeg et skikkelig menneske.

Dan Falk er en vitenskapsjournalist med base i Toronto.

Turing-testen måler noe, men det er ikke "intelligens"