AGI to jeszcze odległa przyszłość – AI osiąga 12% w nowym teście — AI News

0,25–0,37% vs 100% — co ten wynik mówi o rzeczywistych możliwościach AI

Nowy benchmark ARC-AGI-3 właśnie pokazał coś, o czym wielu dostawców AI woli nie mówić wprost: przepaść między tym, co ludzie uważają za możliwości sztucznej inteligencji, a tym, co ona faktycznie potrafi, jest wciąż ogromna.

Wyniki są jednoznaczne: czołowe modele językowe — GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro — osiągają od 0,25% do 0,37%. Ludzie — 100%. I to nie w jakimś akademickim teście z brzegów teorii — to test z setkami środowisk i tysiącami poziomów, zaprojektowany bez reguł i bez instrukcji. Dokładnie tak, jak wygląda większość realnych, nowatorskich sytuacji w biznesie.

Czym jest ARC-AGI-3 i dlaczego warto zwrócić na to uwagę

ARC-AGI to seria testów stworzonych po to, żeby zmierzyć coś konkretnego: czy AI potrafi rozwiązywać nowe problemy bez gotowych wzorców. Nie chodzi o to, ile danych model „widział" podczas treningu — chodzi o zdolność do rozumowania w nieznanym kontekście.

ARC-AGI-3 to kolejna — i zasadniczo odmienna — wersja tego benchmarku. Zamiast statycznych układanek z siatki, które testowały poprzednie wersje, ARC-AGI-3 zawiera setki oryginalnych środowisk interaktywnych i tysiące poziomów w stylu gier. Nie ma żadnych reguł wstępnych, żadnych instrukcji, żadnych podanych celów. Agent — człowiek lub model AI — dostaje zadanie i musi sam odkryć, co jest wymagane, eksplorując środowisko przez interakcję.

Wyniki przy oficjalnym launchu (25 marca 2026):

System	Wynik
Gemini 3.1 Pro	0,37%
GPT-5.4	0,26%
Claude Opus 4.6	0,25%
Grok 4.2	0,00%
Człowiek	100%

Warto odnotować jeden dodatkowy wynik: w 30-dniowej fazie developer preview (przed oficjalnym launchu) najlepszy agent — nie model językowy, lecz system oparty na uczeniu przez wzmocnienie i przeszukiwaniu grafów — osiągnął 12,58%. Wynik ten, często cytowany w mediach jako „wynik AI", pochodzi od specjalistycznego, niefrontierowego systemu algorytmicznego i nie reprezentuje możliwości modeli językowych takich jak GPT, Claude czy Gemini.

To nie jest kwestia mocy obliczeniowej ani rozmiaru modelu. To fundamentalna różnica w sposobie rozumowania.

Co to oznacza dla kogoś, kto planuje wdrożenie AI

Jeśli rozważasz inwestycję w AI dla swojej firmy, ten wynik jest sygnałem do konkretnej refleksji — nie do paniki, ale też nie do ignorowania.

Gdzie AI działa dobrze (i gdzie warto inwestować)

Obecne modele świetnie radzą sobie z zadaniami powtarzalnymi, dobrze zdefiniowanymi i opartymi na wzorcach:

generowanie treści według szablonu
kategoryzowanie dokumentów
odpowiadanie na często zadawane pytania
analiza danych w ustrukturyzowanych zbiorach
kodowanie według znanych wzorców

W tych obszarach zwrot z inwestycji jest mierzalny i realny. Firmy, które wdrożyły chatboty do obsługi klienta w oparciu o konkretne scenariusze, raportują redukcję średniego czasu obsługi o 33–45% (Fullview, 2025) i defleksję 30–60% powtarzalnych zgłoszeń bez udziału agenta. To ma sens.

Gdzie AI zawodzi (i gdzie nie warto przepłacać)

Problemy zaczynają się tam, gdzie brakuje reguł i precedensów — czyli dokładnie tam, gdzie ARC-AGI-3 mierzy wyniki poniżej 0,4% dla czołowych modeli:

nowe, nieznane sytuacje bez historycznych danych
zadania wymagające oceny kontekstu społecznego lub biznesowego
decyzje w warunkach niepewności i sprzecznych priorytetów
negocjacje, zarządzanie kryzysowe, relacje z kluczowymi klientami

Jeśli Twój dostawca AI obiecuje, że model „poradzi sobie ze wszystkim" — ten benchmark jest odpowiedzią na taką obietnicę.

Gdzie leży praktyczne ryzyko dla przedsiębiorcy

Problem nie leży w tym, że AI jest bezużyteczna. Problem leży w przecenianiu jej możliwości podczas planowania wdrożeń.

Scenariusze, które regularnie kończą się rozczarowaniem:

1. Automatyzacja procesów decyzyjnych bez nadzoru człowieka
Firmy wdrażają AI do podejmowania decyzji kredytowych, rekrutacyjnych lub zakupowych, zakładając, że model „rozumie" kontekst. W nowych sytuacjach — nie rozumie.

2. Zastępowanie ekspertów zamiast wspierania ich
AI jako narzędzie wspomagające analityka lub prawnika — tak. AI zamiast analityka w złożonych, niestandardowych sprawach — nie, przynajmniej nie teraz.

3. Długoterminowe prognozy oparte na marketingu dostawców
Dostawcy modeli mają interes w tym, żeby opowiadać o AGI jako bliskiej perspektywie. Benchmark ARC-AGI-3 mówi co innego: przepaść jest nadal wyraźna, mierzalna i wynosi 99,6 punktu procentowego między najlepszym modelem frontierowym a człowiekiem.

Jak podejść do budżetu na AI bez przepłacania

Kilka zasad, które wynikają wprost z tego, co mierzy ARC-AGI-3:

Najpierw zdefiniuj problem, potem szukaj narzędzia — jeśli zadanie wymaga rozumowania w nowym kontekście, AI prawdopodobnie nie wystarczy samodzielnie
Testuj na małej skali przed skalowaniem — wdrożenie pilotażowe na 10% procesów zanim zainwestujesz w pełną automatyzację
Uwzględnij koszt nadzoru — każde wdrożenie AI w obszarach innych niż w pełni ustrukturyzowane wymaga człowieka w pętli
Pytaj dostawców o konkretne benchmarki — nie „czy model jest dobry", ale „jak radzi sobie z tym konkretnym typem zadań"

Podsumowanie

Wyniki ARC-AGI-3 — poniżej 0,4% dla czołowych modeli językowych, 100% dla człowieka — to nie powód do rezygnacji z AI. To powód do realistycznego planowania. Obecne narzędzia są skuteczne w dobrze zdefiniowanych zastosowaniach i tam generują realną wartość. Ale AGI — czyli ogólna inteligencja zdolna do rozwiązywania dowolnych nowych problemów — to wciąż odległa perspektywa, niezależnie od tego, co mówią nagłówki w prasie branżowej.

Decyzje inwestycyjne warto opierać na tym, co AI potrafi dzisiaj i co da się zmierzyć — nie na tym, co może potrafić za kilka lat.

Źródła

ARC Prize Foundation — oficjalny launch ARC-AGI-3, 25 marca 2026. Wyniki frontierowych modeli językowych: Gemini 3.1 Pro 0,37%, GPT-5.4 0,26%, Claude Opus 4.6 0,25%, Grok 4.20 0,00%. Ludzie: 100%. Nagroda: ponad 2 miliony dolarów.
https://arcprize.org/blog/arc-agi-3-launch
https://arcprize.org/leaderboard
The Decoder — „ARC-AGI-3 offers $2M to any AI that matches untrained humans, yet every frontier model scores below 1%", 26 marca 2026. Potwierdzenie wyników: Gemini 3.1 Pro 0,37%, GPT-5.4 0,26%, Claude Opus 4.6 0,25%. Opis mechaniki benchmarku i metodologii oceniania.
https://the-decoder.com/arc-agi-3-offers-2m-to-any-ai-that-matches-untrained-humans-yet-every-frontier-model-scores-below-1/
Awesome Agents — „ARC-AGI-3 Launches — AI Agents Must Learn, Not Memorize", 25 marca 2026. Wynik 12,58% agenta z fazy developer preview (system CNN/graph-search, nie model językowy); frontier LLMs poniżej 1%.
https://awesomeagents.ai/news/arc-agi-3-interactive-benchmark/
DEV Community (CodePawl) — „GPT-5, Claude, Gemini All Score Below 1% — ARC AGI 3 Just Broke Every Frontier Model", 26 marca 2026. Potwierdzenie rozróżnienia: frontier LLMs <1% vs. proste podejścia CNN/graph-search 12,58%.
https://dev.to/codepawl/gpt-5-claude-gemini-all-score-below-1-arc-agi-3-just-broke-every-frontier-model-5dbj
MindStudio — „ARC AGI 3 Results: GPT-5.4, Claude Opus 4.6, and Gemini 3.1 All Score 0%", marzec 2026. Analiza strukturalnych przyczyn wyniku 0% dla modeli językowych.
https://www.mindstudio.ai/blog/arc-agi-3-results-gpt-claude-gemini-score-zero
Revolution in AI — „ARC-AGI-3 Launched: Best AI Scores 0.37% While Humans Score 100%", marzec 2026. Wynik 12,58% to agent RL/graph-search z fazy preview — przewyższa frontier LLMs ponad 30-krotnie.
https://www.revolutioninai.com/2026/03/arc-agi-3-benchmark-ai-scores-openai-spud-anthropic-2026.html
Winbuzzer — „ARC-AGI-3 Offers $2M for AI Matching Human Reasoning", 30 marca 2026. Oficjalna tablica wyników; mediana czasu rozwiązania przez człowieka: 7,4 minuty; opis mechaniki oceniania (kara kwadratowa).
https://winbuzzer.com/2026/03/30/arc-agi-3-offers-2m-ai-matching-human-reasoning-benchmark-xcxwbn/
Fullview — „100+ AI Chatbot Statistics and Trends in 2025". Kluczowe ustalenie: chatboty redukują średni czas obsługi o 33–45%; defleksja 30–60% powtarzalnych zgłoszeń przez samoobsługę.
https://www.fullview.io/blog/ai-chatbot-statistics

AGI to jeszcze odległa przyszłość – AI osiąga 12% w nowym teście