Integracja detektora AI z ATS: jak oceniać te API

CHRO przesłał artykuł o CV generowanych przez AI. Ktoś w zespole szuka API detektorów do podłączenia pod ATS. Zanim podpiszecie umowę, oto, co naprawdę warto ocenić — bo większość zespołów odkrywa, że sygnał nie jest wart szumu.

Chodzi nie o to, czy API wykrywa AI. Chodzi o to, czy wynik detekcji poprawia decyzje rekrutacyjne.

Narracja integracyjna

Dostawcy API detekcji AI sprzedają prostą historię: wyślij tekst CV na endpoint, dostaniesz prawdopodobieństwo autorstwa AI (0–100%) i użyjesz wyniku do flagowania lub odrzucania kandydatów.

Integracja techniczna zwykle jest prosta. Większość API przyjmuje zwykły tekst przez POST i zwraca JSON w kilka sekund. Dostawcy powiedzą, że „wpada” w istniejący workflow.

Tego wam nie powiedzą: co zrobić z tym wynikiem.

Co testować: wskaźnik fałszywych pozytywów

To liczba, która powinna zabić większość integracji zanim wystartują.

Testy niezależne pokazują, że GPTZero osiąga ok. 62% trafności w realnych warunkach mimo obietnic ~99% w kontrolowanych benchmarkach (PCWorld, 2026). Originality.ai ma 8–12% fałszywych pozytywów w porównaniach zewnętrznych — czyli nawet co dziesiąte ludzkie CV oznaczane jako AI.

Dane z DataForSEO Labs (USA, angielski) pokazują rosnącą niszę zapytań typu „ai detection for ats”. Zespoły eksplorują temat, ale dane o trafności powinny skłonić do pauzy.

Oceniając API, nie ufaj benchmarkowi dostawcy. Zróbcie własny test:

Wyślijcie 50 CV, o których wiecie, że napisały je ludzie z waszej bazy
Wyślijcie 50 CV wygenerowanych w ChatGPT lub Claude
Policzcie, ile ludzkich zostało błędnie oznaczonych (fałszywe pozytywy)
Policzcie, ile z AI przeszło niewykryte (fałszywe negatywy)

Jeśli więcej niż 2–3% ludzkich CV jest flagowanych, integracja zaszkodzi bardziej niż pomoże.

Co testować: stronniczość językowa i demograficzna

Detektory AI analizują wzorce językowe — przewidywalność zdań, zakres słownictwa, spójność struktury. Te wzorce korelują z tłem językowym.

Osoby piszące po angielsku jako po drugim języku piszą inaczej. Tak samo kandydaci z różnych środowisk edukacyjnych, branż i kultur. Detektor trenowany głównie na akademickim angielskim zachowa się inaczej na CV inżyniera mechaniki niż na liście motywacyjnej dyrektora marketingu.

Zapytajcie dostawcę:

Jakie dane treningowe?
Czy narzędzie testowano na różnych językach i grupach demograficznych?
Czy jest opublikowany audyt stronniczości?

Brak odpowiedzi = brak walidacji pod rekrutację.

Co testować: koszt za skan

Ceny mocno się różnią:

TurnitinEye: ok. 3,99 USD za sprawdzenie, bez subskrypcji (użytek indywidualny)
AI Detector Pro: ok. 0,09 USD za jednostkę (do 4000 znaków)
Fake Applicant Detector (Apify): ok. 0,099 USD za audyt kandydata, rzędu 99 USD za 1000 skanów

Przy 500 aplikacjach miesięcznie koszty miesięczne mogą sięgać od ~45 do ~2000 USD w zależności od dostawcy — zanim policzycie czas inżynierski na integrację i utrzymanie.

Przy niższym końcu skali koszt jest marginalny. Przy wyższym płacicie realne pieniądze za sygnał, który może nie być użyteczny.

Co testować: czy sygnał jest użyteczny?

Tu większość ocen powinna się zatrzymać. Zapytajcie zespół: co zrobicie z wynikiem „75% prawdopodobieństwa AI”?

Automatyczne odrzucenie? Odrzucicie kwalifikowanych kandydatów.
Flaga do ręcznego przeglądu? Recenzenci i tak nie zweryfikują autorstwa AI niezależnie — spojrzą na CV, uzgodnią, że wygląda OK, i pójdą dalej (cel integracji znika).
Dodanie do profilu jako metryka? Wprowadzacie liczbę, która stronniczo wpływa na każdą kolejną ocenę, bez udowodnionego związku z jakością kandydata.

Jeśli odpowiedź na „co robimy z tym wynikiem?” jest niejasna, integracja jest przedwczesna.

Lepsze użycie automatyzacji

Zamiast warstwy detekcji z niejednoznacznymi wynikami, włóżcie budżet automatyzacji w kroki, które bezpośrednio podnoszą jakość rekrutacji.

Hiring Automation w Canviderze pozwala budować reguły oparte na triggerach: przesuwanie etapów, e-maile, alerty dla zespołu. Działają na konkretnych kryteriach — „kandydat spełnia wszystkie must-have” albo „hiring manager nie przeglądnął w 48 godzin” — nie na probabilistycznych zgadywaniach co do autorstwa.

Collaborative Candidate Assessment daje wspólną przestrzeń do dokumentowania decyzji z powodami — każdy kandydat oceniany według tych samych standardów. Ślad decyzji da się audytować, co ma znaczenie przy pytaniach compliance.

Więcej o scoringu bez detekcji: scoring kandydatów przez AI.

Uczciwa ramka oceny

Zanim zintegrujecie jakiekolwiek API detekcji AI, odpowiedzcie na pięć pytań:

Jaki jest zmierzony wskaźnik fałszywych pozytywów na CV podobnych do waszych?
Czy narzędzie testowano pod kątem stronniczości językowej i demograficznej?
Jaką akcję podejmie zespół na podstawie wyniku?
Czy koszt za skan uzasadnia jakość sygnału?
Czy ten sam budżet mógłby poprawić inny fragment lejka?

Większość zespołów, które przejdzie tę ramkę uczciwie, dochodzi do wniosku, że integracja nie jest gotowa.

Skupcie automatyzację ATS na krokach poprawiających jakość kandydatów, a nie zgadywaniu co do autorstwa.

Poznaj Hiring Automation