ChatGPT-4o mini - jakie nowe funkcje ma nowy model?

Firma chwali się, że jej nowy model językowy jest najbardziej sprawnym i kosztowo efektywnym z dostępnych obecnie na rynku - czytamy na stronie openai.com. Docelowo ma zostać w zaawansowany sposób zintegrowany z obrazami, materiałami wideo oraz audio.

GPT-4o mini powstał na bazie GPT-4o, czyli najszybszego i posiadającego największą moc obliczeniową modelu OpenAI. Model z dodatkiem "o" w nazwie został wzbogacony o ulepszone funkcje obsługi formatów audio, wideo oraz zdjęć, do tego umożliwia pracę z 50 językami i zapewnia większą szybkość i jakość wykonywanych zadań.

Strategia OpenAI

Strategia OpenAI jest oczywista - firma idzie w stronę multimlodalności. Modele językowe firmy mają wyjść zdecydowanie poza pisany tekst i umożliwiać przetwarzanie różnych formatów medialnych oraz ich łączenie. COO Open AI Brad Lightcap powiedział CNBC, że "świat jest multimodalny. Jeżeli zastanowimy się, w jaki sposób ludzie przetwarzają i są zaangażowani w rzeczywistość, to zrozumiemy, że widzimy, słyszymy i mówimy o rzeczach".

Kto będzie mógł skorzystać z modelu GPT-4o mini?

Model GPT-4o mini ma być dostępny w darmowej wersji ChatGPT, dla subskrybentów GPT Plus oraz GPT Team, a od przyszłego tygodnia również dla użytkowników ChatGPT Enterprise.

GPT-4o mini - osiągi i parametry

GPT-4o mini ma być znacznie tańszy od poprzedników - koszt miliona promptów (to tyle co 2500 stron standardowej książki) ma wynieść 15 centów, a w przypadku odpowiedzi 60 centów. To koszt o jeden rząd wielkości niższy niż w przypadku starszych modeli i o 60 proc. niższy niż w przypadku GPT-3,5 Turbo.

Mini uzyskał 82 proc. w teście MMLU (Massive Multitask Language Understanding), czyli zaawansowanym teście oceniającym zdolność modeli sztucznej inteligencji w zakresie rozumienia języka. Wypada także lepiej od innych modeli OpenAI pod względem osiągów (patrz - platforma służąca do testowania skuteczności modeli MLSYS Chatbot Arena). Mini radzi sobie lepiej od konkurencyjnych małych modeli pod względem rozwiązywania zadań matematycznych oraz kodowania. Wpada także bardzo dobrze pod względem wnioskowania multimodalnego (w porównaniu do takich modeli jak Gemini Flash czy Claude Haiku).

Wizja OpenAI

Wizja firmy jest bardzo ambitna. Jej kierownictwo jest przekonane, że w przyszłości każda aplikacja i strona internetowa będą zintegrowane z modelami językowymi AI. Technologia ma stać się bardziej dostępna, niezawodna i zintegrowana z codziennymi cyfrowymi doświadczeniami użytkowników.