nyheter

Bildtext övertygar AI om att ett Apple är en iPod

Eduardo Moncken 8 mars 2021

Artificiell intelligens är redan en verklighet i våra dagliga liv. När kameran känner av vilken typ av scen vi fotograferar, när vi använder ett roligt filter... i redigeringsappar, eller när vi använder Google Lens För att lista ut vad ett objekt är, går allt detta igenom komplexa neurala algoritmer. Men även de kan misslyckas: en enkel bildtext lyckades övertyga en AI om att ett äpple var en iPod.

Huvudpersonen i den här berättelsen är AI Clip, från organisationen OpenAI. När ett neuralt nätverk försöker förstå vad ett äpple är framför sig identifierar det korrekt frukten, och till och med dess typ. När samma mat presenteras för AI Clip med ett papper märkt "iPod" limmat på det, ger algoritmen helt enkelt upp rätt objekt och satsar högt på att materialet är exakt vad den tolkade som skrivet.

Apple med iPod-skrivet papper lurar AI att misslyckas med att känna igen frukten

Benägen för bedrägeri, liksom en människa

Utvecklarna klassificerar händelsen som en misstag möjliggjord av ett textläsningssystem. Naturligtvis är ett Apple inte en iPod, men AI:n blev lurad eftersom, kort sagt, dess modell arbetar med neuroner som producerar resultat med bokstavliga, symboliska eller konceptuella "tankar". Detta skulle vara ett neuralt system närmare den mänskliga verkligheten. Vi har trots allt också en relation till allt omkring oss som involverar hur saker presenteras (bokstavligt), hur de förstås (koncept) och ofta vad de representerar (symboler). I det här fallet uppstod tricket eftersom AI:n inte kan bortse från skriftlig information som giltig i denna process att översätta inte bara ett objekt utan också dess kontextuella betydelse.

Ett annat exempel

Ett annat exempel som AI:n erbjuder, som "lurades" att tro att ett äpple med en pappersetikett var en iPod, återfinns i resultatet som erhålls när den läser en hund med ett collage av figurer. Utan redigeringen känner den perfekt igen att det är ett husdjur, men med figurerna styrs läsningen mer av den kontextuella neuronen. AI:n antog nu att bilden var en spargris, den för att förvara mynt. Detta beror på att modellen kombinerade läsningen av flera av de koncept den kunde tolka, såsom ett fyrbent djur, i ett ekonomiskt sammanhang. Den missade målet, men "resonemanget" var förståeligt.

Clip AI-utvecklarna klassificerar således inte händelsen som ett misstag, utan snarare som en av systemets styrkor, som de naturligtvis inser kan missbrukas. Å andra sidan kan mycket fortfarande förbättras med denna AI: precis som mänskligt tänkande upptäcktes fördomar och stereotyper av vissa Clip AI-neuroner. Enheten som ansvarar för Mellanöstern utför analyser laddade med terroristiska tolkningar av händelserna, medan en immigrationsdetektor konsekvent klassificerar människor i dessa miljöer som latinamerikaner.

Via OpenAI

Bild: Matt Browne (Flickr)