Znaki wodne w tekstach AI. Jak algorytmy je ukrywają?
W mediach społecznościowych coraz częściej mówi się o dodawaniu znaków wodnych do tekstach generowanych przez AI. Temat ten nie jest nowy, a co ciekawe zaskakuje nawet osoby, które na co dzień pracują z programami AI. Niestety świadczy to tylko o jednym … Spora grupa osób zajmuje się rzeczami o których nie ma pojęcia. Echhh. Najgorsze w tym wszystkim jest to, że osoby te, mając na oczach zasłonę łatwego zarobku, niby dla „dobra” klientów polecają programy AI do generowania treści, a docelowo po prostu działają na ich szkodę. Kto będzie ponosił konsekwencje, kiedy dojdzie do złamania praw autorskich? Klient, czy osoba, która polecała dany program do generowania treści i uczyła jak z niego korzystać?
Odpowiedź jest prosta. Odpowiedzialność spada na każdą osobę, która jest ostatnim ogniwem w publikowaniu treści. Czyli jeżeli zlecamy pisanie artykułów, postów osobom trzecim, a my je u siebie publikujemy, albo sami korzystamy z generatorów treści, kopiując je 1:1, to czy tego chcemy czy nie, odpowiedzialność spada na nas.
Dlatego warto być świadomym, że nieprawidłowe wykorzystanie narzędzi AI, może mieć wpływ na konsekwencje prawne, widoczność firmy w przestrzeni online oraz wyniki finansowe. Osoba, która nie rozumie w pełni programu z którego korzysta, zazwyczaj nie potrafi naprawić szkód, które sama wyrządziła.
Od kliku dobrych lat analizuję algorytmy programów do generowania treści. W tym także CzatGPT. Dlatego dobrze wiem, że już wcześniej, w czasach mniej zaawansowanych modeli, znaki wodne były obecne w tekstach. Co więcej, takie znaki używane są nie tylko przez AI, ponieważ sięgają po nie również ludzie i inne systemy. Zmienia się jedynie ich forma, subtelność oraz sposób ich ukrywania w treści. Pisałam o tym w jednym z poprzednich artykułów – Jak google rozpoznaje treści CzatGPT W tym artykule opisałam, jak wcześniejsze wersje AI stosowały znaki wodne w generowanych tekstach. Dlatego uważam, że warto sobie uświadomić, że to, co dzisiaj wygląda na nowy problem, tak naprawdę towarzyszy nam już od dawna.
W tym artykule wyjaśnię, czym dokładnie są znaki wodne w tekstach AI. Jak działają. Jak je skutecznie usunąć. Gdzie mogą się pojawiać i jakie realne zagrożenia, albo ograniczenia niosą dla naszej działalności. Bez względu na to, czy tworzymy bloga, markę, sklep internetowy, czy korzystamy z AI w pracy twórczej.
Jeżeli chcemy świadomie korzystać z możliwości, jakie daje nam sztuczna inteligencja, ale jednocześnie chcemy mieć pewność, że treści rzeczywiście należą do nas, to uważam, że warto przeczytać ten artykuł.
Spis treści:
- Czym są znaki wodne w tekstach AI?
- Jak naprawdę działają znaki wodne generowane w tekstach AI?
- Znaki wodne w tekstach AI. Jak algorytmy je ukrywają?
- Jak unikać znaków wodnych w tekstach AI? Praktyczne i skuteczne metody.
- Jak wykrywać znaki wodne w tekstach AI?
- Naukowa wersja znaków wodnych w tekstach AI.
- Błędy modeli AI i ich konsekwencje.
- Q&A
Czym są znaki wodne w tekstach AI?
Programy AI wprowadzają do tekstów subtelne, ukryte oznaczenia tzw. znaki wodne, które umożliwiają identyfikację źródła, autora, albo narzędzia, które generuje treści. Głównym celem tych znaków jest przede wszystkim ochrona praw autorskich, zapobieganie plagiatom oraz monitorowanie rozpowszechniania treści w przestrzeni online.
Znaki wodne, które są ukryte w tekstach mogą przybierać różne formy. Często znaki te są trudne do zauważenia przez przeciętnego użytkownika. Najczęściej są to np. unikalne wzorce, specyficzne błędy językowe, czy zmodyfikowane sekwencje słów. Takie ślady mogą być ukrywane przy użyciu niewidocznych znaków z systemu Unicode, np. ZWJ (zero-width joiner), czy ZWS (zero-width space). Dzięki temu możliwe jest skuteczne śledzenie i ochrona treści tworzonych np przy użyciu technologii AI.
Co to jest Unicode?
Unicode to międzynarodowy standard kodowania znaków, który niezależnie od języka, alfabetu, czy systemu, przypisuje unikalny kod każdemu znakowi pisma. Dzięki Unicode możemy zapisywać i wyświetlać w jednym pliku tekstowym litery, cyfry, symbole, emoji oraz znaki z różnych alfabetów. Taki Unicode przypisuje każdemu znakowi kod punktowy np. litera „A” to U+0041.
Unicode sam w sobie nie jest znakiem wodnym. Jest to tylko system zapisu znaków, jednak może on zostać wykorzystany jako narzędzie do ukrywania znaków wodnych. Wtedy mamy do czynienia z techniką celowego ukrywania informacji w tekście po to, aby mieć możliwość identyfikacji, albo monitorowania tekstu w momencie np. kopiowania. Czyli możemy wprowadzić do tekstu unikalne sekwencje niewidocznych znaków np. między literami, albo wyrazami.
W tekstach AI wszystko dzieje się w ukryciu. Dlatego użytkownik, który nie zna programu z którego korzysta, często nie jest świadomy, że w momencie kopiowania tekstu razem z treścią otrzymuje ukrytą sygnaturę. Dlatego znaki wodne w tekstach AI to temat, który w dzisiejszym świecie, każdy twórca treści, powinien dobrze zrozumieć.
Ślady wodne to nie tylko te, które są zostawiane przez programy AI w kodzie HTML. Każdy autor pisząc jakiś tekst, pisze go w specyficzny dla siebie sposób, zostawiając swoje „odciski palców” w treści. Ten artykuł, także posiada takie znaki, mimo tego, że specjalnie ich nie stosuję.
Jak naprawdę działają znaki wodne generowane w tekstach AI?
- ZWS (Zero-Width Space) – działa jak spacja, ale jest niewidzialna.
- ZWJ (Zero-Width Joiner) – łączy znaki bez wizualnej zmiany wyglądu.
- ZWNJ (Zero-Width Non-Joiner) – separuje znaki, które normalnie by się połączyły.
Z czasem pojawiają się sposoby na obejście zabezpieczeń związanych ze znakami wodnymi zostawianymi w tekstach. Wystarczy np. przepisać tekst, skorzystać z parafrazy, albo narzędzi do redagowania. Dlatego skuteczność znaków wodnych w tekstach AI wciąż jest przedmiotem badań.
Znaki wodne w tekstach AI. Jak algorytmy je ukrywają?
Coraz bardziej powszechne staje się generowanie treści przez sztuczną inteligencję. Do tego dochodzą przepisy związane z ochroną praw do wygenerowanych treści AI. Dlatego znaki wodne są kluczowymi elementami, które pozwalają śledzić pochodzenie wygenerowanego tekstu. Dla użytkownika są one niewidoczne, jednak pełnią ważną rolę w zapewnianiu zgodności z prawem autorskim i identyfikowaniu źródła treści.
Algorytmy, które są wykorzystywane w narzędziach AI takich jak np. ChatGPT, ukrywają znaki wodne na różne sposoby. Chociaż takie ukrywanie znaków wodnych w tekstach AI może wydawać się proste, nie jest łatwo je wykryć, ani usunąć. Z tego powodu osoby, które tworzą treści oparte na AI muszą być świadome, że publikacja tekstu bez odpowiednich działań w zakresie edycji i weryfikacji oraz publikacji może prowadzić do nieświadomego udostępniania treści z ukrytymi oznaczeniami. A za tym mogą stać poważne konsekwencje prawne, mimo tego, że firma pozwala nam na publikowanie wygenerowanego tekstu.
Algorytmy AI stosują różne metody wstawiania znaków wodnych do tekstów:
- Modyfikacja prawdopodobieństw tokenów – podczas generowania tekstu, algorytmy mogą delikatnie zmieniać prawdopodobieństwa wyboru poszczególnych słów. Docelowo prowadzi to do wstawienia specyficznych wzorców w tekście.
- Analiza statystyczna – niektóre techniki polegają na wprowadzaniu subtelnych, statystycznych odchyleń w strukturze tekstu. Są one trudne do zauważenia dla ludzkiego oka, ale mogą być wykryte przez specjalistyczne narzędzia.
- Użycie specjalnych znaków Unicode – proponowane są również metody wstawiania unikalnych znaków Unicode, które mogą działać dla tekstów generowanych przez AI jako językowe, cyfrowe odciski palców.
Postawowe techniki, które wyżej wymieniłam zapewniają nas, że treści, które są wygenerowane mogą być później zidentyfikowane jako te, które pochodzą od AI. Jest to dość istotne w kontekście walki z dezinformacją i ochroną praw autorskich.
Jednym ze znanych programów, który pozwala na niewidoczne znakowanie treści generowanych przez AI jest SynthID od DeepMind. Szczegółowe informacje dostępne są na oficjalnej stronie SynthID – Google DeepMind. Podobne możliwości oferuje także OpenAI Watermark Detector, który analizuje teksty i wykrywa ślady wygenerowania przez sztuczną inteligencję. Narzędzie to można przetestować m.in. na stronie Humbot AI Watermark Detector.
Uważam, że warto także wiedzieć o tym, że firma Meta (właściciel Facebook.a, Instagram.a i Threads) wprowadziła już ponad rok temu odpowiednie oznaczenia dla treści generowanych przez sztuczną inteligencję. Oznaczenia te dotyczą obrazów, nagrań wideo i audio. Treści te zawierają etykietę „Made with AI” (Stworzone przez AI). Etykieta została wprowadzona po to, aby zwiększyć przejrzystość treści i walczyć z dezinformacją.
Obecnie Meta planuje rozszerzyć politykę na treści tekstowe w tym posty, komentarze i opisy. Dokładna data wprowadzenia oznaczeń dla tekstów nie została jeszcze ogłoszona. Jednak firma intensywnie pracuje nad opracowaniem odpowiednich narzędzi i standardów technicznych, które pozwolą na identyfikację tekstów generowanych przez AI.
Wprowadzenie oznaczeń dla treści tekstowych ma na celu dalsze zwiększenie transparentności na platformach społecznościowych. Dodatkowo umożliwia to użytkownikom lepsze zrozumienie pochodzenia prezentowanych treści. Dzięki temu my jako użytkownicy będziemy mogli łatwiej odróżnić treści stworzone przez ludzi, od tych wygenerowanych przez sztuczną inteligencję, a to jest istotne w kontekście rosnącej obecności AI w mediach społecznościowych.
Dla mnie to dość ważny temat. Już od kilku dobrych lat widać treści zostawiane w komentarzach, postach, które zostały wygenerowane przez AI. Rozumiem dobrze osoby, które korzystają z takich „ułatwień”, jednak treści te dość często odbiorców wprowadzają w błąd. A co ciekawe, osoby, które generują taką treść, w sposób logiczny są w stanie wytłumaczyć rzeczy, które są wyssane z palca, tylko dlatego, że sami wciągnęli się w „halucynacje” AI.
Jak unikać znaków wodnych w tekstach AI? Praktyczne i skuteczne metody.
- Redaguj, zanim opublikujesz – zawsze przejmujmy kontrolę nad tekstem. AI to narzędzie, nie gotowy produkt. Przepisujmy zdania, zmieniajmy szyk, stosujmy własny styl pisania. Przekształcenie treści eliminuje potencjalne znaki wodne w tekstach AI, ale także zwiększa jej unikalność i wiarygodność. Warto także wiedzieć o tym, że … Google lepiej ocenia treści autentyczne i oryginalne.
- Pamiętaj o prawach autorskich – programy AI generują treści, które zostały już opublikowane na jakiejś stronie. Jeżeli podczas generowania treści pojawią się odniesienia do artykułów, to warto je uwzględnić w swoim źródle.
- Używaj modeli, które nie stosują znaków wodnych – nie wszystkie systemy generowania treści AI wprowadzają ukryte znaczniki w kodzie HTML. Wybierajmy narzędzia, które jawnie deklarują brak technik znakowania, albo oferują kontrolę nad tym procesem. Korzystajmy z płatnych, certyfikowanych modeli o transparentnych warunkach zamieszczanych w licencjach. To minimalizuje ryzyko problemów prawnych i jakościowych. Jednak i tak docelowo to my będziemy ponosić odpowiedzialność za opublikowaną treść.
- Mieszaj źródła i styl – teksty generowane z różnych modeli rzadziej zdradzają „odcisk palca”. Łączmy fragmenty pisane przez AI z własnym komentarzem. Przeplatajmy je cytatami, przykładami z praktyki, albo unikalnymi wnioskami. To sposób, który pozwala na unikanie znaków wodnych, a także na zbudowanie pozycji eksperta w oczach czytelnika i algorytmu.
- Edukuj się regularnie – techniki wykrywania znaków wodnych w tekstach AI szybko się zmieniają. Śledźmy nowe badania, aktualizacje platform i rekomendacje specjalistów. Bierzmy udział w spotkaniach branżowych, takich jak SuperBizWizje, na których omawiamy najnowsze ryzyka i praktyczne przykłady z marketingu, AI, psychologii i prawa. Świadomość to najlepsza ochrona.
- Unikaj zautomatyzowanego publikowania – masowe generowanie i publikowanie tekstów bez redagowania, to prosta droga do deindeksacji strony, utraty zaufania i potencjalnych roszczeń prawnych. Nawet jeżeli narzędzie deklaruje brak znaków wodnych, zbyt „maszynowy” styl, działa jak znak sam w sobie, który jest widoczny tylko dla algorytmów wyszukiwarek.
Znaki wodne w tekstach AI to realny problem w świecie cyfrowego content marketingu. Nie chodzi tylko o technologię, ale także o etykę, bezpieczeństwo i reputację marki. Zadbajmy o własną redakcję, świadomy wybór narzędzi i rozwój kompetencji. W dzisiejszym świecie to fundament tworzenia wartościowych i bezpiecznych treści.
Myślę, że warto także pamiętać o tym, że całkowite usunięcie śladów jest zazwyczaj niemożliwe. Programy do generowania treści AI działają na takiej zasadzie, jak kiedyś działały miksery (tak mówiłam na programy z których korzystały agencje, albo osoby, które tworzyły treści). Działania ich polegają na tym, że zbierają różne treści dotyczące konkretnego tematu z przestrzeni online, miksują i generują „nowe” teksty. Miksując je, automatycznie usuwają znaki wodne (ze zdań) z pobranych artykułów, jednak do wygenerowanego tekstu wkładają swoje znaki.
Jeżeli chcemy usunąć ślady z tekstu wygenerowanego przez AI i zmienimy cały tekst, to i tak głębsze znaki wodne pierwszego autora zazwyczaj zostaną. I tutaj wchodzimy na grunt łamania praw autorskich. Aktualnie w algorytmach programów AI jest sporo zmian. Zapewne niebawem pojawią się także pierwsze zmiany w prawie.
Dlatego jeżeli chcemy unikać znaków w tekstach AI, to warto postawić na umiejętne posługiwanie się programami AI. Nie musimy stawiać na kopiowanie tekstów. Warto wykorzystać program do tego, aby nas wspomógł w tworzeniu treści. Tworzenie swoich tekstów, pisanych z tzw palca jest najskuteczniejszą metodą unikania obcych znaków zostawianych w tekstach.
Jak wykrywać znaki wodne w tekstach AI?
Wykrywanie znaków wodnych w tekstach AI to zadanie znacznie trudniejsze niż w przypadku obrazów, czy zdjęć. W tekstach często nie znajdziemy wyraźnych oznaczeń. Modele językowe zostawiają ślady z ukrytymi sygnaturami zakodowanymi w stylu, rytmie językowym i strukturze tekstu.
Co naprawdę możemy wykryć w tekstach AI?
- Układ językowy – narzędzia takie jak GPTZero, AI Writing Check, czy Writer AI Detector analizują powtarzalność struktur, długość zdań i styl pisania. Nie są w pełni wiarygodne, jednak czasami potrafią wskazać podejrzane fragmenty.
- Znaki specjalne – Zero-Width Space (ZWS), Zero-Width Joiner (ZWJ), a także inne symbole Unicode, mogą być zaszyte w tekście. Możemy je ujawnić eksportując tekst do pliku HTML i analizując go za pomocą edytora kodu.
- Wzorce statystyczne – zaawansowane modele detekcji, takie jak BypassGPT, wykorzystują analizę rozkładu tokenów. Dla specjalistów to często lepsza metoda niż zwykła edycja manualna, jednak nie zawsze skuteczna.
- Analiza porównawcza – zestawienie kilku wersji treści generowanych z różnych modeli, może pomóc nam ujawnić wspólne „ślady” algorytmu.
Ślad wodny może przyjmować różne formy. Mogą to być jak jawne dopiski w treści, ukryte znaki wodne w tekstach AI umieszczone w kodzie HTML (np. ZWS – Zero Width Space, lub ZWJ – Zero Width Joiner).
Jak wygląda znak wodny w kodzie HTML?
Przykład fragmentu HTML z ukrytym znakiem ZWS:
Na stronie zobaczymy zwykły tekst. W środku w kodzie znajduje się ukryty znak „​”, który jest niewidoczny, ani w edytorze treści, ani dla użytkownika końcowego. Może zostać odczytany przez algorytmy jako wykrywające źródło tekstu. Aby ułatwić wykrywanie takich znaków stworzyłam program, który opiera się na aktualnej wiedzy i jak na razie najlepiej sobie radzi z analizą wklejonego znaku do kodu HTML. Program ten pokazuje, gdzie występują potencjalne znaczniki w kodzie HTML i od razu je usuwa – Usuń znak wodny.
Warto pamietać, że narzędzia AI do wykrywania znaków wodnych nie są nieomylne. Zdarza się, że błędnie oznaczają teksty, które zostały napisane przez człowieka jako generowane przez AI, albo odwrotnie. Dlatego zawsze warto łączyć analizę techniczną z doświadczeniem edytorskim. Trenerzy językowi i redaktorzy tekstów potrafią wykryć nienaturalną składnię, która wymyka się nawet algorytmom.
Co jakiś czas wracam do różnych popularnych narzędzi i sprawdzam, czy w ich działaniu coś się zmieniło. Każdy z programów zapewnia nas, że w 99% wykrywa tekst AI. Wklejam tekst 1:1 wygenerowany np przez CzatGPT i sprawdzam, czy program rozpozna, że tekst pochodzi od AI. Nawet dzisiaj w trakcie pisania tego artykułu, wkleiłam tekst do kilku takich wykrywaczy. Tylko jeden program uznał, że tekst stworzyła AI i to jedynie w 60%.
Jak wyglądają ukryte znaki wodne w tekście?
Poniżej podaję przykładowy tekst, który zawiera ukryte znaki wodne włożone do treści. Użyłam słów, fraz, konstrukcji językowych, które zostały wplecione w taki sposób, aby działały jak identyfikator autora, albo źródło pochodzenia tekstu. Takie „tekstowe znaki” są często trudne do zauważenia zwłaszcza dla zwykłych użytkowników, ponieważ nie wpływają znacząco na płynność czytania.
„Jak budować trwały wizerunek marki w świecie online?
W erze natychmiastowej komunikacji kluczowe staje się nie tylko to, co mówisz, ale jak długo odbiorca to zapamięta. Jedną z najczęściej pomijanych zasad jest powracająca przejrzystość , czyli zdolność marki do klarownego powtarzania swoich wartości, niezależnie od kanału komunikacji.
Kiedy projektujemy treści marketingowe, warto kierować się zasadą trójpoziomowego rozpoznania co:
Odbiorca widzi na pierwszy rzut oka,
Zapamięta po kilku godzinach,
Powie o marce za tydzień.
Właśnie ten efekt narracyjnego przesycenia, sprawia, że odbiorca nie tylko konsumuje treść, ale zaczyna ją powtarzać, adaptować i oswajać – jak coś, co już zna.
Nie chodzi dziś o to, by mówić głośno – chodzi o to, by mówić zmyślnie bez echa.”
Czy widzisz w tekście jakieś znaki? Zapewne nie. A jednak są. Dzięki nim, nawet jeżeli ktoś skopiuje ten tekst i zmieni kilka słów, to ja jako autor spokojnie mogę łatwiej zidentyfikować kopię i udowodnić swoje autorstwo. To metoda stosowana jest m.in. przez niektóre profesjonalne agencje copywriterskie, czy twórców treści AI.
Znaki wodne, które ukryłam w tym tekście to:
– Jedną z najczęściej pomijanych zasad jest powracająca przejrzystość – (znak wodny to unikalna fraza, niespotykana w języku potocznym) – czyli zdolność marki do klarownego powtarzania swoich wartości, niezależnie od kanału komunikacji.
– Kiedy projektujemy treści marketingowe, warto kierować się zasadą trójpoziomowego rozpoznania (znak wodny to zmyślona, ale logiczna koncepcja):
– Właśnie ten efekt narracyjnego przesycenia (znak wodny to termin stworzony na potrzeby konkretnego autora) sprawia, że odbiorca nie tylko konsumuje treść, ale zaczyna ją powtarzać, adaptować i oswajać – jak coś, co już zna.
– Nie chodzi dziś o to, by mówić głośno – chodzi o to, by mówić zmyślnie bez echa (znak wodny to poetycka, ale trudna do spontanicznego wymyślenia fraza).
Jak widać wykrycie znaków nie jest prostą i łatwą sprawą. Dlatego warto się zastanowić, czy chcemy narażać się na konsekwencje prawne będąc tzw mistrzem kopiowania. Czy może chcemy być autorem tekstów, które pozwalają na budowanie prawdziwego, trwałego wizerunku eksperta w danej dziedzinie.
Naukowa wersja znaków wodnych w tekstach AI.
Temat znaków wodnych w treściach generowanych przez AI stał się także przedmiotem licznych badań. Naukowcy z OpenAI i University of Maryland zaproponowali tzw. „statystyczne znakowanie”. Metoda ta polega na modyfikowaniu struktury językowej. W tekście powstaje trudny do usunięcia wzorzec, który pozwoli rozpoznać konkretne źródło. Inne zespoły badawcze eksperymentują z ukrywaniem znaków Unicode, takich jak ZWS (zero-width space).
Autorzy badania A Watermark for Large Language Models wykazali, że można skutecznie wykrywać znaki wodne w tekstach AI, nawet po ich lekkiej edycji. Chociaż nie są one całkowicie odporne na parafrazowanie, czy „czyszczenie” przez inne modele.
Artykuł naukowców z Cornell University przedstawia ciekawy temat dotyczący znaków wodnych. Możemy w nim przeczytać, że cyt.” Modele wielkojeślowe (LLM) wykazały niezwykłe możliwości generowania tekstów przypominających ludzki język. Przestępcy mogą nadużywać tych znaków, tworząc oszukańcze treści, takie jak fałszywe wiadomości i e-maile phishingowe, co budzi obawy etyczne. Znakowanie wodne jest kluczową techniką rozwiązywania tych problemów, która osadza wiadomość (np. Bit string) w tekście wygenerowanym przez LLM. Dzięki osadzeniu identyfikatora użytkownika (reprezentowanego jako bitowy ciąg) do wygenerowanych tekstów, możemy śledzić generowane teksty do użytkownika, zwane śledzeniem źródeł treści. Głównym ograniczeniem istniejących technik sygnalizacji wodnej jest to, że osiągają one nieoptymalną wydajność dla śledzenia źródeł treści w rzeczywistych scenariuszach. Powodem jest to, że nie mogą dokładnie lub skutecznie wyodrębnić długiej wiadomości z wygenerowanego tekstu. Naszym celem jest zajęcie się ograniczeniami.
W tej pracy wprowadzamy nową metodę znakowania wodnego dla tekstu LG wytwarzanego przez LLM ugruntowaną w przypisaniu segmentu pseudolosowym. Proponujemy również wiele technik, aby jeszcze bardziej zwiększyć wytrzymałość naszego algorytmu sygnalizacji wodnej. Przeprowadzamy szeroko zakrojone eksperymenty w celu oceny naszej metody. Nasze wyniki eksperymentalne pokazują, że nasza metoda znacznie przewyższa istniejące wartości bazowe zarówno pod względem dokładności, jak i solidności w zakresie zbiorów danych porównawczych. Na przykład, przy osadzeniu wiadomości o długości 20 w 200-token wygenerowany tekst, nasza metoda osiąga szybkość dopasowania 97,6%, podczas gdy najnowocześniejsza praca Yoo i in. osiągają tylko 49,2% Dodatkowo udowadniamy, że nasz znak wodny może tolerować edycję w odległości edycji wynoszącej średnio 17 dla każdego akapitu w tym samym ustawieniu.”
Badacze z Cornell University zaprezentowali tutaj nową, skuteczną metodę znakowania wodnego tekstów, które wygenerowały modele językowe (LLM). Metoda ta dzięki osadzaniu ukrytych informacji (bit stringów) pozwala śledzić źródło treści. Ich rozwiązanie znacząco przewyższa dotychczasowe metody pod względem dokładności i odporności na edycję tekstu. Ma to kluczowe znaczenie w kontekście walki z nadużyciami, takimi jak phishing, czy dezinformacja.
Błędy modeli AI i ich konsekwencje.
Nie wszystkie znaki wodne w tekstach AI są celowe. Czasem to sam model dodaje takie znaki przez błędy w treningu, konstrukcji, albo przez nieprawidłowe wdrożenie ze strony użytkownika.
Znaki wodne w tekstach AI mają służyć transparentności, jednak w praktyce ich obecność może prowadzić do wielu nieoczywistych komplikacji:
- Błędy treningowe – źle wytrenowane modele mogą automatycznie dodawać ukryte znaki wodne do tekstów AI, nawet wtedy, kiedy nie zostały do tego zaprogramowane. Takie błędy mogą prowadzić do nieprawidłowej indeksacji w Google, błędów w narzędziach do analizy treści, fałszywych sygnałów w systemach antyplagiatowych. Ale nie zawsze błędy w kodzie wpływają na pozycjonowanie, czy SEO.
- Półautomatyczne „mutacje” treści – niektóre platformy CMS, albo zewnętrzne integracje mogą modyfikować tekst w trakcie kopiowania, albo publikacji np. przez nieświadome wprowadzenie niewidzialnych znaków. W efekcie tekst wygląda poprawnie, ale zawiera cyfrowe „zanieczyszczenia”, które mogą wpłynąć na SEO i legalność treści.
- Konsekwencje prawne – osoby korzystające z AI mogą świadomie, albo i nie, wprowadzać do treści znaki wodne, które później mogą posłużyć jako dowód naruszenia licencji. Właściciele technologii mają prawo dochodzić roszczeń, szczególnie gdy ktoś publikuje treści wygenerowane przez AI bez odpowiednich uprawnień. Taki znak może ujawniać kto wygenerował tekst, jakim modelem, a nawet w jakim czasie.
Uważam, że warto wiedzieć także o tym, że niedopasowany prompt = nietypowa sygnatura. Źle sformułowana komenda (prompt) także może spowodować, że AI wygeneruje treść z charakterystycznymi błędami. Te błędy będą się powtarzać w kolejnych tekstach, tworząc unikalny „profil” użytkownika. W rezultacie, zamiast unikalnego tekstu, będziemy publikować wariację powtarzalnych schematów, które łatwo będzie można przypisać do konkretnego narzędzia, albo konta.
W świecie, w którym każda treść może być śledzona, analizowana i zakwestionowana, znaki wodne w tekstach AI stają się czymś więcej niż tylko technologiczną ciekawostką. To narzędzia, które służą do weryfikacji, dowodu w procesach sądowych, ale i są symbolem cyfrowej odpowiedzialności. Dzisiaj nie wystarczy już tylko stworzyć „ładny tekst”. Warto wziąć odpowiedzialność za publikowane treści. Uważam, że warto także wiedzieć o tym, czy można tekst legalnie opublikować, do kogo on wcześniej należał i jakie publikacja skopiowanego tekstu niesie ze sobą ryzyka.
Kluczem do bezpiecznego budowania marki, bloga, czy komunikacji eksperckiej jest zrozumienie tego, jak działają znaki wodne w tekstach AI. Jak je wykrywać i jakie błędy mogą wynikać z ich ignorowania. Bez względu na to, czy pracujemy w marketingu i edukacji oraz mediach, czy e-commerce, warto przestać traktować AI jako źródło darmowego tekstu wygenerowanego do artykułu, czy publikacji. Generator treści to narzędzie, które ma za zadnie wspierać nas, ale nie zwalniać z odpowiedzialności.
Świadoma publikacja treści z AI wymaga uważności i znajomości licencji, edycji tekstów oraz umiejętności zadawania niewygodnych, ale jakże ważnych pytań. To nie jest tylko moda, to nowy alfabet twórczości.
Jeżeli chcemy naprawdę tworzyć, a nie tylko kopiować, zaufajmy sobie, swojej wiedzy, a nie tylko algorytmom. AI powinno być wsparciem, ale nie tylko substytutem.
Q&A
Czy każdy tekst AI zawiera znak wodny?
Wszystkie modele, które generują treści wstawiają do nich swoje znaki wodne. Jednak nie wszystkie zostawiają je tylko w kodzie HTML. Programy używane w biznesach komercyjnych często posiadają mechanizmy monitorujące, które mogą wykrywać ukryte ślady. Warto założyć, że nie zawsze będziemy wiedzieć, jakie dany program wprowadza znaki wodne do tekstów AI. Brak informacji w regulaminie nie oznacza braku znaków.
Czy redagowanie tekstu usuwa znaki wodne w tekstach AI?
Redagowanie tekstu nie zawsze usuwa znaki wodne w tekstach AI. Głębokie przekształcenie struktury zdań może „rozbić” algorytmiczny wzorzec. Jednak znaki ukryte w kodzie (np. ZWS) trzeba usunąć ręcznie, albo za pomocą odpowiednich narzędzi. Warto już dzisiaj założyć, że jeżeli chcemy usnąć znaki wodne z treści, to powinniśmy sami napisać tekst.
Czy ślady wodne zostawiane w tekstach są legalne?
Znaki wodne zostawiane w tekstach są legalne o ile są stosowane w celu weryfikacji, albo ochrony treści. Problem pojawia się wtedy, kiedy użytkownik nie ma świadomości ich istnienia, a mimo to ponosi prawne konsekwencje. Dlatego niebawem zapewne zmienią się przepisy prawa zawiązane z generowanymi treściami oraz regulaminy i licencje programów AI
Czy AI może wykryć tekst AI?
AI może wykryć tekst AI, ale z ograniczoną skutecznością. Narzędzia działają na zasadzie statystycznej analizy stylu. Im bardziej redagujemy treść, tym trudniej jest wykryć tekst AI. Na dzień dzisiejszy nie spotkałam się z programem, który posiadałby aktualny algorytm, który pozwoliłby mu na wykrycie tekstu wygenerowanego przez AI. Programy, które generują treści rozwijają algorytmy, więc programy, które wykrywają je, także powinny się zmieniać.
Czy mogę opublikować bez obaw tekst wygenerowany przez AI?
Można opublikować bez obaw tekst wygenerowany przez AI, zwłaszcza wtedy kiedy znamy warunki licencji programu. Jeżeli wykonaliśmy własną redakcję, sprawdziliśmy tekst pod kątem ukrytych znaków i nie publikujemy treści 1:1 skopiowanej z generatora AI. Niektóre firmy zastrzegają sobie prawa do wygenerowanej treści. Przed publikacją sprawdźmy dokładnie regulaminy.
Czy znaki wodne w tekstach AI mogą być dowodem w sądzie?
Ukryty „watermark” może służyć jako dowód naruszenia licencji, szczególnie w przypadku nieautoryzowanego wykorzystania tekstu w celach komercyjnych.
Czy znaki wodne wpływają na SEO?
Znaki wodne umieszczone w tekstach mogą zaburzyć analizę treści przez algorytmy wyszukiwarek. Mogą także powodować błędne indeksowanie, albo obniżenie pozycji strony w wynikach Google.
Źródła:
Kirchenbauer, J., Geiping, J., Goldblum, M., Carlini, N., & Goldstein, T. (2023). A Watermark for Large Language Models. arXiv preprint arXiv:2301.10226
Wiedza zawarta w tym artykule opiera się na doświadczeniu, własnych analizach, obserwacjach oraz dostępnych źródłach.
Zdjęcie pochodzi ze stock Pixabay