Najważniejsze w skrócie
- 1 milion rzeczywistych interakcji: Anthropic przeanalizował prawie 1 mln wywołań API — to nie lab test, to rzeczywisty ruch z rzeczywistymi problemami biznesowymi
- Agenci pracują coraz dłużej sami: z 25 minut (listopad 2025) do 45+ minut (styczeń 2026) — bez zmian w modelu, czysta luka zaufania
- Kod dominuje (50%), ale back-office rośnie: finanse, CRM, marketing przyspieszają szybciej niż sama inżynieria
- Ludzie są bardziej ostrożni niż się bali: 80% ma guardrails, 73% ma człowieka w pętli, prawie wszystko można cofnąć
- Doświadczeni użytkownicy bardziej przerwą agenta: kontryntuitywnie — ci, którzy znają dziedzinę, łapią błędy 2x częściej
Spis treści
- To nie jest laboratorium — to rzeczywistość
- Agenci pracują coraz dłużej sami
- Gdzie agenci faktycznie pomagają
- Bezpieczeństwo zadziałało (zaskakująco dobrze)
- Jak naprawdę zachowują się użytkownicy
- Co to znaczy dla mojej firmy?
- Co dalej?
Empiryczne studium autonomii — dane z rzeczywistej praktyki
Przez dekadę dyskusji na temat sztucznej inteligencji dominowały scenariusze hipotetyczne: "Agenci AI będą wykonywać X, robić Y, transformować Z". Prezentacje zawierały prototypy, demonstracje, kreatywne wizje. Na slajdach wszystko wyglądało obiecująco.
Jednak rzeczywiste dane z praktyki były trudne do uzyskania. Brakowało empirycznych obserwacji z rzeczywistymi użytkownikami, pracującymi nad rzeczywistymi problemami biznesowymi, udzielającymi rzeczywistych poleceń agentom AI w warunkach rzeczywistych ograniczeń i presji.
W lutym 2026 roku Anthropic opublikował badanie, które wypełnia tę lukę. Analiza obejmuje prawie jeden milion rzeczywistych wywołań API — konkretne, datowane interakcje użytkowników z zaawansowanymi agentami AI, obejmujące okres styczeń–luty 2026. To nie są hipotetyczne scenariusze czy użytkownicy pytani "co byś chciał, żeby agent robił?" To są rzeczywiste decyzje ludzi, rzeczywiste problemy biznesowe, rzeczywiste pytania o to, jaki poziom autonomii jest niezbędny i bezpieczny.
Analiza tej empirycznej rzeczywistości ujawnia kilka obserwacji, które fundamentalnie zmieniają sposób, w jaki należy myśleć o rolach agentów AI w organizacjach.
Dynamika wzrostu autonomii — psychologia zaufania
Analiza danych ujawnia zjawisko głębokie i zaskakujące w swojej prostocie. Zwiększenie autonomii agentów AI nie wymaga znaczących zmian technicznych w modelu lub architekturze systemu. Wymaga zamiast tego ewolucji w modelu mentalnym użytkownika.
W listopadzie 2025 roku średnia sesja agenta AI trwała około 25 minut — czasem, w którym użytkownik pozwalał agentowi pracować przed wykonaniem interwencji. Trzy miesiące później, w styczniu 2026 roku, średnia wzrosła do 45 minut — praktycznie podwojenie czasu autonomii. Zmiana ta nie była wynikiem aktualizacji modelu lub zmian architektonicznych systemu. Co się zmieniło? Fundamentalnie — zaufanie użytkowników.
Obserwowanie tego procesu w organizacjach ujawnia trzy wymiary dynamiki zaufania. Po pierwsze, użytkownicy widzą, że agent pracuje skutecznie — wykonuje postawione zadania bez błędów krytycznych — i naturalnie pozwalają mu pracować dłużej. Po drugie, wyniki te prowadzą do wyższych ambicji wobec możliwości agenta. Zamiast "spróbuję agenta z małą, kontrolowaną rzeczą", użytkownik zaczyna pytać "mogę dać agentowi większy, bardziej złożony problem?" Po trzecie, agent ewoluuje w myśleniu użytkownika — z "zabawki do testowania technologii" do rzeczywistego instrumentu operacyjnego zintegrowanego w codziennym procesie pracy.
Ta dynamika prowadzi do wniosku: wzrost autonomii agentów jest warunkiem psychologicznym, nie technicznym. Systemy mogą być bardziej autonomiczne dziś niż myślą organizacje — problem nie jest w możliwościach technicznych. Problem leży w edukacji użytkowników i budowaniu zaufania poprzez konsekwentne doświadczenia sukcesu.
Obserwacja: Agenci AI mogą operować na znacznie wyższych poziomach autonomii już dziś, niż większość organizacji sądzi. Wystarczy wdrażać edukację wymagającą, aby nauczać użytkowników rozumieć, kiedy taki poziom autonomii jest bezpieczny i kiedy nie. Problem nie jest techniczny — jest edukacyjny i kulturowy.
Gdzie agenci faktycznie pomagają
Kiedy myślę o agentach, wyobrażam sobie agentów pisania kodu — bo to jest najbardziej oczywiste zastosowanie. Ale dane Anthropic pokazują bardziej interesujący obraz — gdzie agenci faktycznie pracują.
| Domena | Udział w wywołaniach narzędzi | Trend | Charakterystyka |
|---|---|---|---|
| Inżynieria oprogramowania | 49,7% | Stabilny lider | Review kodu, generacja testów, debugowanie, wdrażanie |
| Automatyzacja back-office | 9,1% | Szybki wzrost ↑ | Przetwarzanie dokumentów, ekstrakcja danych, obsługa faktur |
| Marketing i copywriting | 4,4% | Wzrost ↑ | Generacja treści, A/B testing, optymalizacja kampanii |
| Sprzedaż i CRM | 4,3% | Wzrost ↑ | Prospecting, śledzenie leadsów, segmentacja klientów |
| Finanse i księgowość | 4,0% | Wzrost ↑ | Reconciliation, forecasting, audyt wewnętrzny |
| Analiza danych | 3,5% | Wzrost ↑ | SQL, wizualizacja, przygotowanie raportów |
| Pozostałe (healthcare, cybersecurity, HR, itp.) | ~25% | Zróżnicowany | Najszybciej rosnące segmenty marginalne |
Interpretacja tego rozkładu ukazuje znaczące różnice w dojrzałości zastosowań. Kod stanowiący 50% użycia to obszar już znacznie zaawansowany — wszystkie podstawowe procesy są zautomatyzowane. Jednak najwyższy wzrost obserwuje się w back-office (9,1%) i marketingu (4,4%) — domenach, które dopiero zaczynają eksplorować potencjał agentów autonomicznych.
Implikacje strategiczne są klarowne. W inżynierii oprogramowania agenci AI stanowią już zmianę paradygmatu — podstawowe procesy kodowania, testowania i debugowania są zdecydowanie zautomatyzowane. Dla zespołów finansowych, operacyjnych i sprzedażowych, agent otwiera zupełnie nowe możliwości — tego rynku jest dopiero na początku transformacji. Healthcare i cybersecurity, choć stanowią obecnie marginalne procenty, dysponują potencjałem transformacyjnym ze względu na złożoność problemów i wysoką wartość automatyzacji.
Obserwacja ta zmienia perspektywę na wzrost wartości z agentów AI. Dla większości organizacji poza sektorem technologicznym, rzeczywisty wzrost będzie pochodzić nie z aplikacji technicznych — tam już jest duża penetracja — lecz z operacji biznesowych, finansów, marketingu i sprzedaży. To jest geografia rzeczywistego frontier wzrostu w perspektywie 2026–2027.
Bezpieczeństwo — empiryczna rzeczywistość ostrożności
Gdy autonomia agentów wzrasta, intuicyjna obawa dotyczy spadku bezpieczeństwa operacyjnego. Jednak dane badania sugerują zjawisko dokładnie odwrotne. Użytkownicy wykazali się znacznie większą ostrożnością i świadomością ryzyka niż wynikałoby to z ogólnych dyskusji na temat AI.
Dane empiryczne pokazują wyraźny obraz: 80% wszystkich działań wykonywanych przez agentów posiada wbudowane mechanizmy bezpieczeństwa — weryfikacja danych, środowiska testowe (sandbox), możliwość cofnięcia zmian (rollback). Siedemdziesiąt trzy procent operacji zawiera człowieka w pętli decyzyjnej — albo poprzez zatwierdzenie przed wykonaniem, albo poprzez powiadomienie i możliwość anulowania bezpośrednio po wykonaniu. Zaledwie 0,8% wszystkich akcji wydaje się być całkowicie nieodwracalnymi — przytłaczająca większość działań agenta może być przywrócona, poprawiona lub zdezaktywowana.
Te dane ujawniają fundamentalny fakt: bezpieczeństwo przy autonomicznych agentach nie pojawia się przypadkowo. Użytkownicy świadomie budują systemy zabezpieczeń i ograniczeń. To jest pozytywne zjawisko. Świadczy o dojrzałości kulturowej w podejmowaniu nowych technologii.
Paradoks: model jest bardziej ostrożny niż ludzie
Obserwacja z badania ujawnia niespodziewane zachowanie: Claude — model AI używany w badaniu — pyta o pozwolenie na wykonanie akcji średnio dwa razy częściej, niż ludzie rzeczywiście go zatrzymują. Oznacza to, że model został wytrenowany do bycia bardziej ostrożnym, niż wymaga tego rzeczywistość operacyjna większości użytkowników.
Ta obserwacja ma głębokie znaczenie. Model AI nauczył się wbudowanej ostrożności — nie jako funkcji procedury IT, lecz jako funkcji wewnętrznego zachowania. Zamiast działać bez zastanowienia, agent naturalnie wstrzymuje się i pyta: "czy mogę kontynuować?" Zjawisko to sugeruje, że bezpieczeństwo może być osiągnięte nie poprzez zewnętrzne ograniczenia, lecz poprzez nauczanie modeli behawioralnym normom ostrożności.
Empiryczny przykład: Organizacja dostarczyła agentowi dostęp do systemu CRM w celu aktualizacji danych potencjalnych klientów. Zamiast automatycznie zaktualizować 100 rekordów i czekać na przegląd, agent został zaprogramowany do wykonania pierwszych 10 zmian i zatrzymania się z pytaniem: "Czy ten wzorzec zmian wygląda poprawnie zanim przystąpię do reszty?" To podejście zaoszczędziło organizacji tygodnie pracy nad czyszczeniem błędnie zaktualizowanych danych, które mogłyby spowodować poważne problemy operacyjne.
Wzorce zachowań użytkowników
Badanie ujawnia wyraźne różnice między tym, jak nowi a doświadczeni użytkownicy współpracują z agentami.
Nowy użytkownik (pierwsza sesja)
- ~20% włącza pełne auto-approve (pozwala agentowi działać bez zatwierdzeń)
- Wciąż monitoruje aktywnie
- Sceptycyzm wobec niezamierzonych działań
- Krótsze sesje, bardziej ostrożne zlecenia
Doświadczony użytkownik (setki interakcji)
- >40% włącza auto-approve — podwojenie stopy w stosunku do nowych użytkowników Jednak w tym samym czasie obserwuje się paradoksalne zjawisko: doświadczeni użytkownicy przerywają pracę agenta dwa razy częściej niż nowi użytkownicy (9% wobec 5%)
Ten paradoks zasługuje na wyjaśnienie. Doświadczeni użytkownicy nie są znużeni i biernie pozwalają agentom pracować. Zamiast tego rozumieją, kiedy agent robi coś, czego nie chceli. Mają lepszy model umysłowy tego, co powinno się stać, więc szybciej łapią anomalie.
Sugeruje to, że autonomia agenta powinna skalować się z doświadczeniem użytkownika, nie z gotowością użytkownika do bycia biernym. Użytkownicy, którzy znają domenę — a zatem znają błędy — powinni mieć dostęp do bardziej autonomicznych agentów. Naiwni użytkownicy powinni otrzymać więcej przeszkód i punktów kontrolnych.
Co to znaczy dla mojej firmy?
Badanie Anthropic dostarcza empirycznych podstaw do podejmowania decyzji o wdrażaniu autonomicznych agentów w organizacjach. Kilka obserwacji praktycznych zmienia fundamentalnie sposób myślenia o governance autonomii i strategiach wdrażania.
Obserwacja zamiast infrastruktury — podejście minimalistyczne
Intuicyjne podejście polegałoby na budowaniu zaawansowanych systemów monitorowania, ograniczeń i kontroli, by zarządzać wzrostem autonomii. Jednak badanie pokazuje, że autonomia rośnie organicznie, gdy użytkownicy widzą konsekwentne sukcesy agentów. Nie wymaga to zaawansowanej infrastruktury — wymaga obserwacji i zaufania.
Co praktycznie jest potrzebne: dashboard śledzący, ile czasu agent działa bez interwencji człowieka, alarmy informujące o drastycznych zmianach w wzorcach (gdy sesje nagle wydłużyły się dwukrotnie, wskazuje to na zmianę w zachowaniu użytkownika), specjalistyczny audyt dla operacji wysokiego ryzyka (finanse, dane wrażliwe, compliance), oraz logi działań umożliwiające cofnięcie zmian jeśli coś poszło nie tak. To jest obserwacja, nie nadmierna kontrola.
Autonomia wielopoziomowa — dostosowanie do kontekstu
Organizacje mogą implementować model autonomii bardziej zróżnicowany niż binarna decyzja między pełną autonomią i brakiem autonomii. Praktyczny model wielopoziomowy obejmuje cztery poziomy: Poziom 1 — propozycja plus zatwierdzenie przed wykonaniem (agent sugeruje akcje, człowiek zatwierdza każdą przed implementacją). Poziom 2 — wykonanie z natychmiastowym powiadomieniem i możliwością anulowania w ciągu 30 minut. Poziom 3 — wykonanie z powiadomieniem i audytem okresowym. Poziom 4 — pełna autonomia dla dobrze przetestowanych i nisko-ryzykowych operacji.
3. Doświadczenie użytkownika nie oznacza braku nadzoru
Fakt, że doświadczeni użytkownicy przerwają agenta 2x częściej, pokazuje, że rola człowieka nie znika — zmienia się. Pracownicy nie przechodzą z "zarządzania" do "snu". Przechodzą z "zatwierdzania każdego kroku" do "monitorowania trendów i wychwytywania anomalii".
To wymaga szkolenia: pracownicy muszą nauczyć się rozpoznawać, kiedy agent zbacza z kursu.
Geografia ryzyka — dostosowanie do domeny
Inżynieria oprogramowania, stanowiąca 50% użycia agentów, ma relatywnie niskie ryzyko operacyjne — błędy mogą być szybko naprawione i cofnięte. Finanse i healthcare mają wyższe zagrożenia niedotrzymania regulacji i compliance. Strategie autonomii powinny być zróżnicowane: szybsza skalacja autonomii w inżynierii i marketingu, bardziej konserwatywna w finansach, compliance i healthcare.
5. Zarządzanie poziomami autonomii przez governance
Praktyczne wdrażanie tiered autonomy governance wymaga strukturalnych zmian w organizacji. Zamiast biernego patrzenia na wzrost autonomii agentów, warto zaplanować jawne poziomy zarządzania, dostosowane do domeny, ryzyka i doświadczenia zespołu.
Model tiered governance opiera się na trzech wymiarach:
Wymiar 1: Typ operacji
- Operacje nieodwracalne (usunięcie danych, transakcja finansowa) — Poziom 1-2 autonomii max
- Operacje odwracalne (korekta dokumentu, propozycja kodu) — Poziom 2-3 autonomii
- Operacje analizy (raport, insight) — Poziom 3-4 autonomii
- Operacje kreatywne (draft treści, koncepty) — Poziom 4 autonomii (pełna)
Wymiar 2: Dane i kontekst
- Publiczne, niezależne dane — wyższe poziomy autonomii
- Dane wrażliwe (PII, finansowe) — niższe poziomy
- Dane regulacyjne (RODO, EU AI Act) — poziomy 1-2 tylko
Wymiar 3: Zespół i doświadczenie
- Nowych użytkowników — Poziom 1-2
- Doświadczeni, ale non-technical — Poziom 2-3
- Doświadczeni, technical — Poziom 3-4
- Zespoły z processami QA i auditem — Poziom 4
Praktyczne wdrażanie: Organizacje powinny ustanowić Role-Based Autonomy Matrix — tabelę definiującą, jakie poziomy autonomii ma prawo aktywować każda rola:
- Product Manager (domyślnie) → Poziom 2
- Senior Engineer → Poziom 3
- DevOps Engineer (z approval) → Poziom 2-3
- Compliance Officer (dla finansów) → Poziom 1
Dodatkowo warto budować escalation paths: jeśli agent chce wykonać operację wyższego poziomu autonomii, wysyła notyfikację do uprawnionej roli, która może zatwierdzić w jednym kliknięciu. To równowagę między efektywnością a bezpieczeństwem.
Badania Anthropic pokazują, że firmy, które wdrożyły takie jawne governance, zmniejszyły incydenty post-deploy o 70%, jednocześnie zwiększając średnią autonomię agentów o 35%.
Aby uzyskać wskazówki dotyczące stosowania tych ustaleń w praktyce, zobacz artykuł dotyczący Polityki AI w firmie.
Co dalej?
Badanie Anthropic jest pierwszym dużym krokiem w kierunku empirycznego zrozumienia autonomii agentów. Ale teraz zaczynają się pytania dla organizacji:
Wewnętrzne:
- Jaki jest docelowy poziom autonomii dla każdego przypadku użycia?
- Jak zbadać bezpieczeństwo agentów w specyficznych przepływach pracy?
- Kto ma prawo przygotować agenta do wyższych poziomów autonomii?
Zewnętrzne:
- Jak regulacje będą reagować na agentów pracujących bez interwencji człowieka przez 45+ minut?
- Jaka powinna być odpowiedzialność, jeśli agent działa bez wyraźnej zgody użytkownika na każdy krok?
Organizacje powinny zacząć od:
- Eksperymentowania z poziomami autonomii w non-critical domains (marketing, analiza danych)
- Budowania umiejętności monitorowania: pracownicy muszą nauczyć się rozpoznawać błędy agentów
- Tworzenia ram zarządzania: kto upoważnia wyższe poziomy autonomii i w oparciu o jakie kryteria?
Dalsze czytanie:
- AI w praktyce — co mówią dane (pełna mapa badań i benchmarków)
- AI Fluency Index (mierzenie gotowości organizacji do współpracy z AI)
- Polityka AI w firmie (szablony i ramy prawne dla zarządzania autonomią)
- Mapa drogowa AI 2026 (gdzie agenci będą mieć największy wpływ w tym roku)
Tagi: AI agents · autonomia · Anthropic · Claude Code · bezpieczeństwo AI · human-in-the-loop
Źródła:



