Uważaj, co mówisz chatbotowi. Jak Big Tech trenuje AI na naszych rozmowach

Rozmowy z chatbotami coraz częściej dotyczą zdrowia, relacji, pracy i osobistych kryzysów. Traktujemy AI jak powiernika, tymczasem – jak pokazują najnowsze badania zespołu ze Stanford University – nasze konwersacje mogą być wykorzystywane do trenowania modeli językowych. Często domyślnie, bez realnej możliwości sprzeciwu i bez świadomości użytkowników. Co to oznacza dla prywatności w erze generatywnej AI?

Jeszcze do niedawna rozmowa z chatbotem wydawała się czymś prywatnym, a nawet – co stanowi pewien problem, o którym później – intymnym. Dlaczego? Jak się okazuje, coraz częściej pytamy AI o zdrowie, relacje, pracę i związane z nimi kryzysy. A do tego: wklejamy dokumenty, notatki, CV, czasem nawet fragmenty korespondencji, e-maili czy SMS-ów. Traktujemy AI nie jak narzędzie, lecz jak powiernika. Tymczasem coraz więcej wskazuje na to, że te nasze rozmowy nie znikają po zamknięciu okna przeglądarki – przeciwnie, stają się dosłownie wręcz paliwem dla kolejnych wersji modeli językowych.

Najnowsze badanie zespołu ze Stanford University pokazuje jasno: wiodące firmy rozwijające tzw. modele graniczne (frontier models) regularnie wykorzystują rozmowy użytkowników do trenowania swoich systemów. Czasem bez realnej możliwości sprzeciwu ze strony użytkownika, zazwyczaj – bez świadomości. A to wszystko w ramach polityk prywatności – tych „umów”, które klikamy na początku, których przeciętny użytkownik przecież nigdy nie czyta w całości.

W ostatnich miesiącach Anthropic firma stojąca za chatbotem Claude, po cichu zmieniła warunki korzystania z usługi. Od tej pory rozmowy użytkowników są domyślnie wykorzystywane do trenowania modeli – chyba, że użytkownik aktywnie z tego trybu zrezygnuje. Anthropic nie jest tu wyjątkiem. Jak pokazuje analiza naukowców ze Stanford, podobne praktyki stosuje sześć największych firm technologicznych rozwijających chatboty w USA.

Autonomia w erze algorytmów. Refleksje po Festiwalu Sektor 3.0

Czy to oznacza, że korzystając z AI, powinniśmy martwić się o prywatność? „Zdecydowanie tak” – mówi Jennifer King, współautorka badania i ekspertka ds. polityki prywatności w Stanford Institute for Human-Centered AI. Jej zespół podkreśla, że do danych treningowych mogą trafiać nie tylko same wpisywane pytania, ale także pliki dołączane do rozmów: dokumenty, arkusze, teksty robocze.

Problem nie dotyczy wyłącznie AI. Polityki prywatności – te długie dokumenty, które „akceptujemy”, chcąc skorzystać z usługi – od dawna są uznawane za fikcję informacyjną. Formalnie dają zgodę, praktycznie nie zapewniają zrozumienia ani kontroli.

W przypadku chatbotów ta logika zostaje po prostu przeniesiona na nowy obszar: rozmowę. A rozmowa – w przeciwieństwie do kliknięcia czy wyszukiwarki – bywa bardzo osobista i wciągająca.

Przez ostatnie lata firmy technologiczne masowo zbierały dane z publicznego Internetu, by trenować swoje modele językowe. Proces ten często „przy okazji” obejmował dane osobowe. Teraz skala problemu rośnie: codziennie setki milionów ludzi wchodzi w interakcje z chatbotami, dostarczając im świeżych, kontekstowych, często wrażliwych informacji. Jak zauważa King, badań nad realnymi praktykami prywatności w tych narzędziach jest zaskakująco mało, a regulacje, zwłaszcza w USA, są nieaktualne, fragmentaryczne i niespójne.

Co dokładnie sprawdziła King i jej zespół?

Zespół ze Stanforda przeanalizował polityki prywatności sześciu firm: Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) oraz OpenAI (ChatGPT). W sumie przyjrzano się 28 dokumentom – od głównych polityk prywatności po podstrony, FAQ i wyjaśnienia dostępne z poziomu interfejsów czatów. Punktem odniesienia była metodologia Kalifornijskiej Ustawy o Prywatności Konsumentów (CCPA), uznawanej za jedną z najbardziej kompleksowych regulacji w USA.

Badacze zadali trzy zasadnicze pytania:

czy rozmowy użytkowników są wykorzystywane do trenowania modeli,
jakie kategorie danych osobowych są zbierane i przetwarzane,
oraz czy użytkownik ma realną możliwość wyrażenia zgody lub sprzeciwu.

Wnioski są niepokojące.

Wszystkie badane firmy wykorzystują dane z rozmów do trenowania modeli — i to domyślnie. Część z nich przechowuje te dane przez czas nieokreślony. Niektóre deklarują anonimizację informacji, inne dopuszczają udział ludzi w przeglądaniu rozmów w celach treningowych.

Szczególnie problematyczna okazuje się sytuacja w przypadku firm oferujących całe ekosystemy usług. U Google, Mety, Microsoftu czy Amazona dane z czatów mogą być łączone z informacjami z innych produktów: wyszukiwarki, zakupów, aktywności w mediach społecznościowych. Granica między „rozmową z chatbotem” a profilem użytkownika zaczyna się zacierać.

To rodzi realne konsekwencje. Wyobraźmy sobie prostą sytuację: pytamy AI o przepisy bez cukru albo diety przyjazne dla sercowców. Model może wyciągnąć wniosek, że należymy do grupy osób „wrażliwych zdrowotnie”. Taka klasyfikacja nie znika — może wpływać na reklamy, rekomendacje, a w dłuższej perspektywie trafić do systemów, które współpracują z ubezpieczycielami czy innymi podmiotami. Jak mówi King, skutki takich decyzji są zmienne w czasie i będą się zmieniać – nie wiemy, co się stanie z naszymi danymi i czy nie zostaną użyte przeciwko nam.

Kolejnym alarmującym obszarem jest prywatność dzieci i młodzieży. Praktyki firm są tu niespójne. Google zapowiedział trenowanie modeli na danych nastolatków – jeśli – „oczywiście” wyrażą zgodę. Microsoft przyznaje, że zbiera dane osób poniżej 18. roku życia, choć deklaruje, że nie wykorzystuje ich do trenowania modeli. Anthropic twierdzi, że nie zbiera danych dzieci, ale… nie stosuje weryfikacji wieku.

Problem polega na tym, że dzieci nie mogą legalnie wyrażać świadomej zgody na przetwarzanie danych. A jednak ich rozmowy z AI mogą zasilać systemy, których działania będą miały długofalowe skutki.

AI, która szanuje prywatność

Badacze ze Stanforda podkreślają jednoznacznie: obecne polityki prywatności są niewystarczające. Brakuje jasności, odpowiedzialności i realnej kontroli po stronie użytkownika. Wśród rekomendacji pojawiają się m.in. federalne regulacje prywatności, domyślna rezygnacja (opt-in zamiast opt-out) z trenowania na danych z rozmów oraz automatyczne filtrowanie danych osobowych.

Stawka jest wysoka. Jako społeczeństwo musimy zdecydować, czy wzrost możliwości AI rzeczywiście uzasadnia tak daleko idącą ingerencję w prywatność. I czy innowacja technologiczna nie powinna iść w parze z równie intensywnym rozwojem narzędzi chroniących użytkowników.

Bo jeśli rozmowa z chatbotem ma stać się nową formą interakcji cyfrowej – a wszystko wskazuje, że to się już po prostu dzieje – musi być oparta na zaufaniu. A zaufanie bez przejrzystości jest iluzją.

O komentarz w tej sprawie poprosiliśmy Katarzynę Drożdżal, ekspertkę w tym zakresie, którą znacie m.in. z Funduszu Sektor 3.0 i publikacji „Jak bezpiecznie wprowadzić sztuczną inteligencję do organizacji społecznej? Prawo, dane, etyka, pomiar efektów”. Katarzyna jest psycholożką i badaczką, prowadzi własną agencję Selkie, koncentrując się na dziedzinach obejmujących projektowanie produktów i usług cyfrowych oraz interakcje człowiek-komputer (User Experience, Human Computer Interaction, Product Design, Customer Experience oraz Service Design).

Katarzyna Drożdżal podczas Śniadania z AI | Etyka: jak korzystać z AI w organizacji w zgodzie z misją?, Wrzenie Świata, Warszawa, 23.10.2025 r. | Fot. Karolina Szczepocka

– Te wyniki badań ze Stanford University kompletnie mnie nie zdziwiły – mówi badaczka. – Co więcej, uważam, że ten temat jest osadzony w znacznie szerszym kontekście problemów z prywatnością, z którymi mierzą się dziś użytkownicy. Z jednej strony dlatego, że nie są w stanie nadążyć za ciągłymi zmianami (politykami firm, regulaminami, zasadami odpowiedzialności). Z drugiej – dlatego, że nie mają realnych narzędzi ani kompetencji, by tę odpowiedzialność samodzielnie weryfikować – podkreśla Drożdzal.

Czaty i wszelkie interfejsy konwersacyjne wyjątkowo sprzyjają otwieraniu się. To środowiska, które zachęcają do mówienia więcej, swobodniej, bardziej osobiście. I to jest kolejny element ryzyka, który bardzo łatwo przeoczyć. Tutaj warto oddzielić dwa rodzaje błędów. Po pierwsze – błędy wynikające z niewiedzy. Po drugie – błędy, które wynikają z czegoś, co od lat opisywane jest jako paradoks prywatności. Polega on na tym, że użytkownicy często wiedzą bardzo dużo o zagrożeniach związanych z ujawnianiem danych wrażliwych i o tym, że korporacje te dane nadużywają, a mimo to niewiele z tą wiedzą robią. Nie do końca wiadomo, dlaczego tak się dzieje i skąd bierze się ta ogromna asymetria pomiędzy tym, co wiemy, a tym, jak faktycznie się zachowujemy. Jedna z teorii mówi o cyfrowej rezygnacji – o poczuciu bezradności wobec wielkich korporacji, które i tak „zrobią swoje”. Z drugiej strony jesteśmy silnie przyzwyczajeni do określonych usług i interfejsów, do wygody, jaką oferują. I nawet mając świadomość zagrożeń, po prostu z nich nie rezygnujemy

– mówi Katarzyna Drożdzal.

Pytana o to, czy podejrzliwość i ostrożność są tu rozwiązaniem, mówi: – W idealnym świecie musielibyśmy każdą taką rozmowę traktować z ogromną podejrzliwością. Wchodząc w konwersację, należałoby za każdym razem mentalnie się przygotować na to, że rozmawiamy z maszyną. Z systemem opartym na algorytmach, których działania ani logiki przeciętny użytkownik nie musi rozumieć i nie ma realnej możliwości ich zrozumienia w toku interakcji.

Nie daj się wciągnąć: jak rozpoznać i ograniczyć nadmierną ekspozycję danych

Co jest więc na liście „do zrobienia”, zanim zaczniemy interakcje z AI? Jednym z kluczowych „do’s” jest świadomość tego, co dzieje się z nami samymi w kontakcie z interfejsem konwersacyjnym. Zachowujemy się w nim inaczej. Jesteśmy skłonni ujawniać więcej. Bardzo szybko uruchamia się mechanizm antropomorfizacji – przypisujemy maszynie cechy ludzkie, intencje, empatię – mówi psycholożka i badaczka. I wskazuje na konkrety – m.in. techniki wydobywania danych wrażliwych, na przykład medycznych opierają się właśnie na naszych naturalnych skłonnościach do wchodzenia w interakcje społeczne. To jest sztuczna relacja, ale reagujemy w niej bardzo prawdziwie.

Drożdzal zwraca także uwagę na szerszy kontekst.

Uruchamiają się też społeczne skrypty. W trakcie rozmowy zaczynamy funkcjonować tak, jakbyśmy rozmawiali z ekspertem albo osobą zaufaną. Dlatego tak ważne jest, żeby cały czas mieć w świadomości, gdzie przebiega granica i jaka jest różnica między człowiekiem a systemem. I tutaj znowu pojawia się podział. Osoby, które wiedzą, że zagrożenie prywatności istnieje, mogą w pewnym momencie wyczuć granicę i się zatrzymać. Osoby, które tej świadomości nie mają, po prostu „płyną”. Korzystają nieświadomie, często dlatego, że integracja dużych modeli językowych z wyszukiwarkami wzmacnia istniejące już nawyki.

Bardzo istotna jest więc warstwa nawyku: tego, jak dziś wyszukujemy informacje w Internecie w ogóle, nie tylko wtedy, gdy świadomie uruchamiamy konkretny model językowy. W grudniu pojawił się komentarz „Guardiana” do dużego raportu AI Trends przygotowanego przez brytyjski AI Security Institute. – To są badania prowadzone od 2023 roku, w tym duże badania ilościowe na reprezentatywnej próbie użytkowników – tłumaczy ekspertka. – Jedna z bardzo ważnych jego części dotyczyła ujawniania emocjonalnego i szukania wsparcia w rozmowach z chatbotami. Na podstawie tych danych można spodziewać się, że około jedna trzecia Brytyjczyków korzysta z chatbotów właśnie w takim kontekście. To pokazuje skalę zjawiska – komentuje psycholożka.

Jeżeli pytamy chatboty o problemy zdrowotne, opisujemy objawy, to naprawdę warto ograniczać kontekst. Modele potrafią wydobywać informacje właśnie z kontekstu, a nie tylko z deklaracji wprost. Dlatego trzeba uważać, żeby ten kontekst nie ujawniał wrażliwych informacji dotyczących stanu zdrowia fizycznego czy psychicznego.

Pytam Katarzynę Drożdzal, co Big Techy mogą z tymi danymi zrobić? – Przede wszystkim trenują na tym swoje modele. To oznacza, że te dane są gdzieś przechowywane. I nigdy nie możemy mieć stuprocentowej pewności, że zabezpieczenia stosowane przez firmy będą wystarczające. Zawsze istnieje ryzyko, że dane zostaną ujawnione. Jeśli rozmowy są bardzo intymne i dotyczą zdrowia, zdrowia psychicznego czy problemów emocjonalnych, warto zadać sobie pytanie, czy chcielibyśmy, aby te informacje kiedykolwiek mogły zostać upublicznione. To jest jeden z argumentów, który może działać na wyobraźnię – mówi Katarzyna Drożdzal. I dodaje:

– Jest też drugi wątek, o którym rzadziej się mówi: nasze pasje, zainteresowania, proces twórczy. Warto się zastanowić, czy chcemy, aby sposób, w jaki myślimy, szukamy informacji, budujemy idee, był wykorzystywany do trenowania modeli, które potem użyją tego w innych kontekstach i wobec innych osób. Nasz ludzki wkład – wiedza, doświadczenie, refleksja – zostaje przetworzony w wartość biznesową dla firm technologicznych – podkreśla badaczka.

To także ważne tło: duże modele zaczęły odnosić spektakularne sukcesy tuż po pandemii, w momencie ogromnej intensyfikacji aktywności online. Te systemy są zbudowane na naszej aktywności. Oddajemy im coś bardzo osobistego – czasem wręcz kawałek siebie.

Z rzeczy praktycznych dodaje: – Warto pamiętać, że relatywnie bezpieczniejsze są wersje płatne, objęte paywallem. Modele dostępne „za darmo” zawsze oznaczają płatność danymi. Szczególnie ostrożnie trzeba podchodzić do narzędzi zintegrowanych z wyszukiwarkami, gdzie wpisywane treści łatwo stają się częścią większego ekosystemu danych. Nie ma nic za darmo. Albo płacimy pieniędzmi, albo płacimy danymi – mówi Katarzyna Drożdzal.

Masz wiele umiejętności, których nie będzie mieć AI. Korzystaj z nich przede wszystkim!

Na koniec jeszcze jeden kontekst od Katarzyny Drożdzal, psycholożki. – Pojawiają się boty terapeutyczne i usługi zaprojektowane właśnie po to, byśmy się ujawniali. One również wymagają bardzo wysokich standardów bezpieczeństwa, a jednak oswajają nas z myśleniem, że chatbot może być formą emocjonalnego wsparcia, „kontenerem” na trudne treści. Jeżeli społeczne narracje mówią nam, że maszyny są już zdolne do udzielania wsparcia emocjonalnego, to nic dziwnego, że zaczynamy się w takich rozmowach otwierać. To bardzo kontrowersyjny obszar, który dynamicznie się rozwija – w Europie jeszcze ostrożnie, ale na przykład w Niemczech rozwiązania tego typu zostały już dopuszczone jako forma wsparcia przez system ochrony zdrowia psychicznego – mówi ekspertka. To wszystko sprawia, że coraz łatwiej przyzwyczajamy się do ujawniania bardzo wrażliwych treści w rozmowach z maszynami. Przyjrzyjmy się temu w nowym roku.

Czytaj także:

Katarzyna Drożdżal: badaczka i projektantka. Psycholożka z ponad 15-letnim doświadczeniem. Od ponad dekady zajmuje się projektowaniem produktów i usług cyfrowych oraz badaniem interakcji człowiek–technologia. Od 2018 roku prowadzi agencję badawczą Selkie. Współorganizuje konferencję WUD Silesia i wykłada na Uniwersytecie SWPS. Swoje zainteresowania naukowe rozwija w Pracownia Psychologii Osobowości (Instytut Psychologii PAN). W badaniach szczególną uwagę poświęca procesom samoregulacji użytkowników produktów cyfrowych.

Uważaj, co mówisz chatbotowi. Jak Big Tech trenuje AI na naszych rozmowach

Co dokładnie sprawdziła King i jej zespół?

AI, która szanuje prywatność

Nie daj się wciągnąć: jak rozpoznać i ograniczyć nadmierną ekspozycję danych

Znajdź: pętla indukcyjna i Pacjenci pacjentom laureatami Funduszu Sektora 3.0

Czy AI odbiera nam sprawczość? Zachowaj kontrolę nad technologią

UX, czyli User Experience w organizacji pozarządowej