PaLM-E to taki całkiem imponujący robot. Jego wyjątkowość polega na tym, że potrafi połączyć dane tekstowe z tymi pochodzącymi z jego czujników. Jakie to dane tekstowe? Te same, którymi operuje zaawansowany model językowy PaLM. Co oznacza „zaawansowany model językowy”, wie każdy, kto choć raz pogadał z ChatGPT.

Pobożne życzenie?

Żeby przedstawić cały wachlarz umiejętności PaLM-E, należy też wspomnieć, że według twórców potrafi on wykonywać także „zadania wizualne”. Co to znaczy? Wykrywanie twarzy. Wyszukiwanie obiektów. Analiza sceny. Przy czym cały czas pamiętajmy, że potrafi jednocześnie odpowiadać na pytania, (być może) jak ChatGPT. No i jest robotem, więc ma możliwie dużo z tego, co mu matka robotyka dać mogła. Taki humanoid.

Na blogu Google, jak sami i same możecie się przekonać, materiałów wizualnych nie ma wiele. Te, które widzimy – pojawia się na nim zgrabnie i bezbłędnie wykonujące różne polecenia skrzyżowanie humanoida z lampką nocną – mogą oczywiście wyrażać tylko pobożne życzenie bycia o krok od spełnienia narcystycznego marzenia ludzkości o bezpłatnym, całodobowym asystencie idealnym. Albo marzenie kapitalistów o takimż samym robotniku fabrycznym.

Bezpłatnym, jak bezpłatnym, bo tani to PaLM-E nie będzie.

Pojawia się jednak myśl, że skoro zespół postanowił się pochwalić swoimi wynikami, a nawet twierdzić, że osiągnął pewien przełom, to być może coś jest na rzeczy.

PS. Zapytałam ChatGPT, czy boi się, że PaLM-E przyćmi jego sukces. Odpowiedział, że jako sztuczna inteligencja nie potrafi się bać.