AI Fluency Index: Anthropic mierzy, jak dobrze ludzie współpracują z AI
23 lutego 2026. Anthropic opublikował raport edukacyjny "The AI Fluency Index", który stawia fundamentalne pytanie: skoro adopcja AI rośnie, to czy ludzie faktycznie wykorzystują te narzędzia dobrze?
Metodologia
Badanie objęło analizę 9 830 zanonimizowanych, wieloetapowych konwersacji na platformie Claude.ai w ciągu 7 dni (20-26 stycznia 2026). Każda rozmowa została oceniona pod kątem 11 obserwowalnych zachowań, wybranych z szerszego zestawu 24 wskaźników. Przykładowe zachowania to iteracyjne dopracowywanie wyników, kwestionowanie rozumowania modelu czy identyfikowanie brakującego kontekstu.
Badanie klasyfikuje obecność lub brak każdego z 11 zachowań binarnie (tak/nie) w każdej konwersacji. Jedna rozmowa mogła wykazywać wiele zachowań jednocześnie.
85,7% użytkowników iteruje, ale niewielu weryfikuje
Najważniejsze ustalenie: zdecydowana większość (85,7%) analizowanych konwersacji zawierała iterację i dopracowywanie. Użytkownicy budowali na poprzednich wymianach, zamiast akceptować pierwszą odpowiedź i przechodzić do nowego zadania. Rozmowy z iteracją wykazywały średnio 2,67 dodatkowych zachowań "fluency", czyli dwukrotnie więcej niż rozmowy bez iteracji (1,33).
Jest jednak niepokojący wzorzec: gdy AI generuje dopracowane artefakty (gotowy kod, sformatowany dokument, kompletną analizę), użytkownicy znacznie rzadziej kwestionują rozumowanie modelu lub identyfikują braki. Badanie mierzy ten efekt precyzyjnie. W konwersacjach z artefaktami:
- identyfikowanie brakującego kontekstu spada o 5,2 pp
- sprawdzanie faktów spada o 3,7 pp
- kwestionowanie rozumowania modelu spada o 3,1 pp
Im bardziej "profesjonalny" wygląda output, tym mniejsza czujność. Anthropic łączy ten wzorzec z podobnymi obserwacjami ze swoich badań nad kompetencjami kodowania.
85,7% iteruje, ale mniejszość weryfikuje. Im lepszy output, tym mniejsza czujność. To paradoks, z którym muszą zmierzyć się organizacje wdrażające AI.
11 zachowań, nie trzy poziomy
Badanie nie definiuje formalnych "poziomów biegłości". Zamiast tego operuje 11 obserwowalnymi zachowaniami, z których iteracja i dopracowywanie są najczęściej występujące (85,7%), a zachowania krytyczne (weryfikacja, kwestionowanie, identyfikowanie luk) są istotnie rzadsze, szczególnie w konwersacjach z artefaktami (12,3% próby). Warto dodać, że tylko w 30% rozmów użytkownicy określają z góry, jak chcą, żeby Claude z nimi współpracował, np. prosząc o wyjaśnienie rozumowania lub sygnalizowanie niepewności.
Wnioski dla praktyków
Raport potwierdza to, co praktycy inżynierii promptów wiedzą intuicyjnie: samo używanie AI to za mało. Wartość powstaje w iteracji, weryfikacji i krytycznym podejściu do wyników. Warto świadomie budować nawyk sprawdzania, szczególnie wtedy, gdy odpowiedź AI wygląda "zbyt dobrze, żeby ją kwestionować".
Anthropic zaznacza, że próba prawdopodobnie jest przechylona w stronę wczesnych adoptujących, a wyniki mają charakter korelacyjny. AI Fluency Index ma być aktualizowany cyklicznie, tworząc bazę odniesienia do śledzenia, jak kompetencje współpracy z AI ewoluują w czasie.
Źródło: Anthropic, "The AI Fluency Index", 23 lutego 2026. anthropic.com/research/AI-fluency-index
