0,25–0,37% vs 100% — co ten wynik mówi o rzeczywistych możliwościach AI
Nowy benchmark ARC-AGI-3 właśnie pokazał coś, o czym wielu dostawców AI woli nie mówić wprost: przepaść między tym, co ludzie uważają za możliwości sztucznej inteligencji, a tym, co ona faktycznie potrafi, jest wciąż ogromna.
Wyniki są jednoznaczne: czołowe modele językowe — GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro — osiągają od 0,25% do 0,37%. Ludzie — 100%. I to nie w jakimś akademickim teście z brzegów teorii — to test z setkami środowisk i tysiącami poziomów, zaprojektowany bez reguł i bez instrukcji. Dokładnie tak, jak wygląda większość realnych, nowatorskich sytuacji w biznesie.
Czym jest ARC-AGI-3 i dlaczego warto zwrócić na to uwagę
ARC-AGI to seria testów stworzonych po to, żeby zmierzyć coś konkretnego: czy AI potrafi rozwiązywać nowe problemy bez gotowych wzorców. Nie chodzi o to, ile danych model „widział" podczas treningu — chodzi o zdolność do rozumowania w nieznanym kontekście.
ARC-AGI-3 to kolejna — i zasadniczo odmienna — wersja tego benchmarku. Zamiast statycznych układanek z siatki, które testowały poprzednie wersje, ARC-AGI-3 zawiera setki oryginalnych środowisk interaktywnych i tysiące poziomów w stylu gier. Nie ma żadnych reguł wstępnych, żadnych instrukcji, żadnych podanych celów. Agent — człowiek lub model AI — dostaje zadanie i musi sam odkryć, co jest wymagane, eksplorując środowisko przez interakcję.
Wyniki przy oficjalnym launchu (25 marca 2026):
| System | Wynik |
|---|---|
| Gemini 3.1 Pro | 0,37% |
| GPT-5.4 | 0,26% |
| Claude Opus 4.6 | 0,25% |
| Grok 4.2 | 0,00% |
| Człowiek | 100% |
Warto odnotować jeden dodatkowy wynik: w 30-dniowej fazie developer preview (przed oficjalnym launchu) najlepszy agent — nie model językowy, lecz system oparty na uczeniu przez wzmocnienie i przeszukiwaniu grafów — osiągnął 12,58%. Wynik ten, często cytowany w mediach jako „wynik AI", pochodzi od specjalistycznego, niefrontierowego systemu algorytmicznego i nie reprezentuje możliwości modeli językowych takich jak GPT, Claude czy Gemini.
To nie jest kwestia mocy obliczeniowej ani rozmiaru modelu. To fundamentalna różnica w sposobie rozumowania.
Co to oznacza dla kogoś, kto planuje wdrożenie AI
Jeśli rozważasz inwestycję w AI dla swojej firmy, ten wynik jest sygnałem do konkretnej refleksji — nie do paniki, ale też nie do ignorowania.
Gdzie AI działa dobrze (i gdzie warto inwestować)
Obecne modele świetnie radzą sobie z zadaniami powtarzalnymi, dobrze zdefiniowanymi i opartymi na wzorcach:
- generowanie treści według szablonu
- kategoryzowanie dokumentów
- odpowiadanie na często zadawane pytania
- analiza danych w ustrukturyzowanych zbiorach
- kodowanie według znanych wzorców
W tych obszarach zwrot z inwestycji jest mierzalny i realny. Firmy, które wdrożyły chatboty do obsługi klienta w oparciu o konkretne scenariusze, raportują redukcję średniego czasu obsługi o 33–45% (Fullview, 2025) i defleksję 30–60% powtarzalnych zgłoszeń bez udziału agenta. To ma sens.
Gdzie AI zawodzi (i gdzie nie warto przepłacać)
Problemy zaczynają się tam, gdzie brakuje reguł i precedensów — czyli dokładnie tam, gdzie ARC-AGI-3 mierzy wyniki poniżej 0,4% dla czołowych modeli:
- nowe, nieznane sytuacje bez historycznych danych
- zadania wymagające oceny kontekstu społecznego lub biznesowego
- decyzje w warunkach niepewności i sprzecznych priorytetów
- negocjacje, zarządzanie kryzysowe, relacje z kluczowymi klientami
Jeśli Twój dostawca AI obiecuje, że model „poradzi sobie ze wszystkim" — ten benchmark jest odpowiedzią na taką obietnicę.
Gdzie leży praktyczne ryzyko dla przedsiębiorcy
Problem nie leży w tym, że AI jest bezużyteczna. Problem leży w przecenianiu jej możliwości podczas planowania wdrożeń.
Scenariusze, które regularnie kończą się rozczarowaniem:
1. Automatyzacja procesów decyzyjnych bez nadzoru człowieka
Firmy wdrażają AI do podejmowania decyzji kredytowych, rekrutacyjnych lub zakupowych, zakładając, że model „rozumie" kontekst. W nowych sytuacjach — nie rozumie.
2. Zastępowanie ekspertów zamiast wspierania ich
AI jako narzędzie wspomagające analityka lub prawnika — tak. AI zamiast analityka w złożonych, niestandardowych sprawach — nie, przynajmniej nie teraz.
3. Długoterminowe prognozy oparte na marketingu dostawców
Dostawcy modeli mają interes w tym, żeby opowiadać o AGI jako bliskiej perspektywie. Benchmark ARC-AGI-3 mówi co innego: przepaść jest nadal wyraźna, mierzalna i wynosi 99,6 punktu procentowego między najlepszym modelem frontierowym a człowiekiem.
Jak podejść do budżetu na AI bez przepłacania
Kilka zasad, które wynikają wprost z tego, co mierzy ARC-AGI-3:
- Najpierw zdefiniuj problem, potem szukaj narzędzia — jeśli zadanie wymaga rozumowania w nowym kontekście, AI prawdopodobnie nie wystarczy samodzielnie
- Testuj na małej skali przed skalowaniem — wdrożenie pilotażowe na 10% procesów zanim zainwestujesz w pełną automatyzację
- Uwzględnij koszt nadzoru — każde wdrożenie AI w obszarach innych niż w pełni ustrukturyzowane wymaga człowieka w pętli
- Pytaj dostawców o konkretne benchmarki — nie „czy model jest dobry", ale „jak radzi sobie z tym konkretnym typem zadań"
Podsumowanie
Wyniki ARC-AGI-3 — poniżej 0,4% dla czołowych modeli językowych, 100% dla człowieka — to nie powód do rezygnacji z AI. To powód do realistycznego planowania. Obecne narzędzia są skuteczne w dobrze zdefiniowanych zastosowaniach i tam generują realną wartość. Ale AGI — czyli ogólna inteligencja zdolna do rozwiązywania dowolnych nowych problemów — to wciąż odległa perspektywa, niezależnie od tego, co mówią nagłówki w prasie branżowej.
Decyzje inwestycyjne warto opierać na tym, co AI potrafi dzisiaj i co da się zmierzyć — nie na tym, co może potrafić za kilka lat.
Źródła
ARC Prize Foundation — oficjalny launch ARC-AGI-3, 25 marca 2026. Wyniki frontierowych modeli językowych: Gemini 3.1 Pro 0,37%, GPT-5.4 0,26%, Claude Opus 4.6 0,25%, Grok 4.20 0,00%. Ludzie: 100%. Nagroda: ponad 2 miliony dolarów.
https://arcprize.org/blog/arc-agi-3-launch
https://arcprize.org/leaderboardThe Decoder — „ARC-AGI-3 offers $2M to any AI that matches untrained humans, yet every frontier model scores below 1%", 26 marca 2026. Potwierdzenie wyników: Gemini 3.1 Pro 0,37%, GPT-5.4 0,26%, Claude Opus 4.6 0,25%. Opis mechaniki benchmarku i metodologii oceniania.
https://the-decoder.com/arc-agi-3-offers-2m-to-any-ai-that-matches-untrained-humans-yet-every-frontier-model-scores-below-1/Awesome Agents — „ARC-AGI-3 Launches — AI Agents Must Learn, Not Memorize", 25 marca 2026. Wynik 12,58% agenta z fazy developer preview (system CNN/graph-search, nie model językowy); frontier LLMs poniżej 1%.
https://awesomeagents.ai/news/arc-agi-3-interactive-benchmark/DEV Community (CodePawl) — „GPT-5, Claude, Gemini All Score Below 1% — ARC AGI 3 Just Broke Every Frontier Model", 26 marca 2026. Potwierdzenie rozróżnienia: frontier LLMs <1% vs. proste podejścia CNN/graph-search 12,58%.
https://dev.to/codepawl/gpt-5-claude-gemini-all-score-below-1-arc-agi-3-just-broke-every-frontier-model-5dbjMindStudio — „ARC AGI 3 Results: GPT-5.4, Claude Opus 4.6, and Gemini 3.1 All Score 0%", marzec 2026. Analiza strukturalnych przyczyn wyniku 0% dla modeli językowych.
https://www.mindstudio.ai/blog/arc-agi-3-results-gpt-claude-gemini-score-zeroRevolution in AI — „ARC-AGI-3 Launched: Best AI Scores 0.37% While Humans Score 100%", marzec 2026. Wynik 12,58% to agent RL/graph-search z fazy preview — przewyższa frontier LLMs ponad 30-krotnie.
https://www.revolutioninai.com/2026/03/arc-agi-3-benchmark-ai-scores-openai-spud-anthropic-2026.htmlWinbuzzer — „ARC-AGI-3 Offers $2M for AI Matching Human Reasoning", 30 marca 2026. Oficjalna tablica wyników; mediana czasu rozwiązania przez człowieka: 7,4 minuty; opis mechaniki oceniania (kara kwadratowa).
https://winbuzzer.com/2026/03/30/arc-agi-3-offers-2m-ai-matching-human-reasoning-benchmark-xcxwbn/Fullview — „100+ AI Chatbot Statistics and Trends in 2025". Kluczowe ustalenie: chatboty redukują średni czas obsługi o 33–45%; defleksja 30–60% powtarzalnych zgłoszeń przez samoobsługę.
https://www.fullview.io/blog/ai-chatbot-statistics
