Jak Google rozpoznaje treści ChatGPT?
Do tego czy Google rozpoznaje treści ChatGPT nie miałam i nie mam żadnej wątpliwości. Właśnie dlatego zaczęłam się zastanawiać o co w tym całym zamieszaniu chodzi?
Jakiś czas temu, jak o ChatGPT zrobiło się dość głośno, pojawiło się sporo publikacji, podcastów, wywiadów znanych osób, które zajmują się między innymi SEO. Zadawali pytania – Czy Google może rozpoznać treści napisane przez ChatGPT czy też w ogóle przez AI?
Czytając, słuchając, oglądając i popijając kawę tak się zastanawiałam …
Dlaczego oni w ogóle zadają takie pytanie?
Można by powiedzieć, że pytania te zadawane są np przez osoby prowadzące wywiad. Dlatego też one zapewne nie znają się na tym jak Google rozpoznaje treści czy też jak ChatGPT je tworzy. Jednak patrząc na odpowiedzi jakie padają, to albo oni nie mówią o tym otwarcie, żeby konkurencja nie wiedziała na jakiej zasadzie to działa albo dlatego, że na tym w ogóle się nie znają. Co prawdę mówiąc, jedna czy też druga wersja lekko mnie przeraża.
Nawet dzisiaj zajrzałam na różne strony, które wyświetlają się w mojej bańce Google. W każdej z tych stron natknęłam się na totalne “lanie wody”, wraz z odsyłaniem nas do różnych programów czy też stron na których możemy spotkać się z jeszcze większym “laniem wody”. Dlatego też jak już przy “wodzie” jesteśmy to przejdę do konkretów i przypomnę, że …
ChatGPT oraz Google to zwykła matematyka. Przy tworzeniu jednego czy drugiego algorytmu, nie ma nic niezwykłego. Dopiero później pojawiają się rzeczy (chociażby w tzw czarnych skrzynkach), które czasem ciężko nam zrozumieć. Jednak one nadal są wykonywane zgodnie z jakimiś działaniami matematycznymi.
Jak Google rozpoznaje treści ChatGPT?
Problemem w zrozumieniu tego, co się tam dzieje, jest między innymi nasza psychika. To ona niestety nas często, zbyt często mocno ogranicza.
To, że Google rozpoznaje treści napisane przez ChatGPT, w sumie wiadomo nie od dziś, dlatego też to pytanie – czy Google rozpoznaje treści napisane przez ChatGPT w ogóle nie powinno padać. Myślę, że bardziej odpowiednim pytaniem byłoby – jak zmieniać się, rozwijać będzie Google i ChatGPT? Odpowiedzi na te pytania pozwolą nam się rozwijać i używać w miarę skutecznie jednej czy też drugiej platformy.
Od wielu lat, niektóre osoby zajmujące się pisaniem treści oraz agencje marketingowe, używają, ja na to mówię – mikserów. Czyli programy do których wrzuca się różne skopiowane treści, one je “miksują” i wyrzucają jeden czy kilka “nowych” artykułów. Oczywiście nie jestem za tym, żeby takimi programami się poruszać.
Uważam, że jeżeli korzystamy z pomocy przy tworzeniu treści na swoją stronę internetową czy też bloga, to warto zwłaszcza w dzisiejszych czasach przy podejmowaniu decyzji o współpracy z osobami czy też agencjami zadać pytanie – czy treści te będą wygenerowane przez roboty? Jeżeli tak to może warto zapłacić za nie mniej. Albo poszukać kogoś kto z tzw ręki używając swojej wiedzy napisze unikalny, zgodny z aktualnym SEO artykuł ekspercki z naszej branży.
Często na spotkaniach swoich klientów zachęcam do tego aby sami spisali swoją wiedzę, doświadczenie nieważne w jaki sposób. Po prostu, żeby napisali to co mają w głowie. Taki tekst można później dopasować do wyszukiwarki Google pod kątem SEO. Można wyłonić z niego to najważniejsze dopisać szczegóły, przerobić, na bardziej profesjonalny. W tym wszystkim chodzi o to, żeby ten tekst był oparty na prawdziwej wiedzy oraz doświadczeniu.
Chodzi o to, żeby nie bazować na wiedzy internetowej, która często jest nieprawdziwa. Jeżeli decydować się będziemy na kopiowanie czy też generowanie tekstów przez AI, narażać się będziemy dość mocno na posługiwanie się nieprawdziwą wiedzą wprowadzając w błąd swoich odbiorców, a co za tym idzie prędzej czy później utracimy ich zaufanie.
Do tego takie teksty napisane przez miksery zostawiały i nadal zostawiają po sobie różne ślady. Właśnie dlatego Google rozwijając algorytm zwraca na to uwagę. Jeżeli każdy z nas jest w stanie dostrzec te ślady to Google tym bardziej je dostrzega. Robi to nie tylko na poziomie tego co my jesteśmy w stanie dostrzec.
Uważam, że jeżeli miksery były od co najmniej kilku lat rozpoznawalne to treści pisane przez ChatGPT, tym bardziej są teraz rozpoznawane. Dlatego wykrywanie ChatGPT przez Google było i jest sprawą całkowicie oczywistą w ogóle nie podlegającą żadnej dyskusji.
Przechodząc do konkretów … to jak Google rozpoznaje treści stworzone przez ChatGPT?
Sprawa na tą chwilę jest dość prosta, dlatego spróbuję ją w przystępny sposób przedstawić. Mamy tutaj dwa czynniki, zewnętrzny oraz wewnętrzny.
Czynnik wewnętrzny
Wpisuję do ChatGPT konkretną komendę z prośbą o wygenerowanie danej treści. On ją tworzy. Tak jak wszyscy, kopiuję ją z ChatGPT i wklejam na bloga. Może coś poprawię, coś odejmę, coś dodam i klikam przycisk opublikuj.
Na zewnątrz nic nie widać. Jest treść, która wygląda całkiem prawidłowo i w której nic ciekawego się nie dzieje. Jednak jest to tekst, który widzimy na zewnątrz, a tymczasem w środku czyli w tzw kodzie HTML mamy … mówię na to – krzaczki. Te krzaczki jak dobrze wiemy są tzw znakiem wodnym, który nagle pojawia się w kodzie HTML.
ChatGPT taki kod nam cudownie wplata w treść artykułu. Czasami w taki sposób, że jeżeli się na kodach nie znamy to nie jesteśmy w stanie rozpoznać czy to jest kod naturalny, czy nie. Nie wspominając już nawet o kodach ukrytych. Do tego jeszcze dojdę.
Powyżej pokazałam przykład kodu jaki ChatGPT wkleił na początku treści artykułu. Nie jest to cały kod, ale jest dość specyficzny i zwraca na siebie uwagę. Na tą chwile dodaje on takie i podobne kody (krzaczki) na początku treści na końcu, a czasami nawet w środku.
Zapewne niebawem zmieni te krzaczki na bardziej ukryte znaki, dzięki którym będzie mógł śledzić np gdzie i w jaki sposób jest wykorzystywana treść wygenerowana przez OpenAI, ale i nie tylko. Takie dane zebrane za pomocą kodów mają niezwykłą “moc”, którą można naprawdę na różne sposoby wykorzystać.
Dlatego ważne jest, aby kod HTML był poprawnie zaimplementowany i optymalizowany pod kątem SEO. Nawet jeśli ten kod nie jest on widoczny dla użytkowników. Czyli ważne jest to aby strona była dobrze technicznie przygotowana od środka.
Elementy takie jak nagłówki tzw metatagi, linki i treść alternatywna dla multimediów, powinny być odpowiednio sformatowane i opisane w kodzie HTML. Po to aby roboty wyszukiwarek mogły poprawnie zinterpretować zawartość strony i uwzględnić ją w wynikach wyszukiwania.
Niestety nie wszystkie osoby zajmujące się SEO czy też tworzeniem treści o tym wiedzą i to potrafią. Dlatego przenoszą bezmyślnie z jednej strony na drugą. Tym samym powodując, że wkleja się na stronę “niewidzialny” kod, który docelowo będzie rozpoznany przez Google. To będzie miało wpływ na to czy w ogóle strona pojawi się w wyszukiwarce, czy też nie.
Oczywiście taki kod, który nie jest widoczny w treści wizualnej ani w kodzie źródłowym strony może się pojawiać jako:
- Ukryty kod źródłowy – niektóre strony mogą zawierać ukryty kod źródłowy, który nie jest widoczny dla użytkowników, ale może być obecny w tle strony. Ten kod może być używany do różnych celów takich jak śledzenie ruchu na stronie, analiza zachowań użytkowników itp.
- Kod automatycznie dodawany przez system CMS – jeśli korzystamy z systemu zarządzania treścią (CMS) do tworzenia swojego bloga może się zdarzyć, że niektóre dodatkowe elementy kodu są automatycznie dodawane przez system. Może to obejmować specjalne tagi, klasy CSS lub inne elementy, które są używane przez CMS do formatowania treści.
- Problem z formatowaniem treści – zdarza się także, że w niektórych przypadkach kopiowanie i wklejanie treści z innej strony może prowadzić do problemów z formatowaniem zwłaszcza jeżeli strona z której kopiujemy zawiera specjalne tagi HTML lub formatowanie, które nie jest obsługiwane przez nasz blog lub system CMS. W rezultacie może dojść do nieoczekiwanego wyświetlania kodu w treści tekstu.
Jeżeli nie kopiujemy 1:1 z innych stron internetowych, a mamy jakieś niezidentyfikowane kody w treści to warto sprawdzić np ustawienia prywatności czy bezpieczeństwa swojej strony tak aby dowiedzieć się dlaczego mamy jakiś kod w treści tekstu.
Tylko, że mamy jeszcze coś takiego jak kod, który nie jest widoczny w treści wizualnej ani w kodzie źródłowym strony. Zdarza się, że właściciel strony zabezpieczył swój tekst przed kopiowaniem za pomocą takiego ukrytego kodu. Tak jest na tą chwilę z ChatGPT. Tak naprawdę istnieje kilka możliwych powodów dla których właściciele stron decydują się na zabezpieczenie swojej treści w ten sposób:
- Ochrona praw autorskich – właściciele stron chronią swoje treści przed masowym kopiowaniem i nieautoryzowanym wykorzystywaniem przez inne strony lub osoby. Ukryty kod często dla nich jest jednym z narzędzi stosowanych w celu uniemożliwienia kopiowania tekstu,
- Zachowanie wartości treści – jeżeli treść jest cennym źródłem informacji lub ma wartość komercyjną właściciele stron chcą kontrolować jej dystrybucję i zapobiegać kopiowaniu przez inne strony lub osoby,
- Zapobieganie kopiowaniu spamu – niektóre strony używają ukrytego kodu w celu zapobiegania kopiowaniu treści przez boty lub automatyczne programy, które kopiują treść w celu tworzenia spamu lub spamujących witryn.
Dlatego warto szanować prawa autorskie i unikać kopiowania lub wykorzystywania treści bez zgody właściciela strony. Jeśli chcemy skorzystać z treści znajdującej się na innej stronie najlepiej skontaktować się z właścicielem strony, uzyskać zgodę na jej wykorzystanie. W ten sposób unikamy naruszenia praw autorskich i ewentualnych problemów prawnych.
Roboty Google (takie jak Googlebot), które skanują treści stron internetowych zapewne odczytują treść ukrytego kodu HTML. Nawet wtedy jeśli nie jest on widoczny w źródle strony HTML. Jeśli autor tekstu zaszył ukryty kod w tekście na stronie internetowej, Googlebot wykrywa go i interpretuje podczas indeksowania strony.
Wiemy, że Google stawia na jakość treści unika promowania stron stosujących taktyki manipulacyjne lub spamerskie. Ukrywanie kodu HTML w treściach strony w celu wprowadzenia w błąd wyszukiwarki narusza wytyczne dotyczące jakości treści Google. Prowadzi do obniżenia pozycji strony w wynikach wyszukiwania lub nawet jej zbanowania.
Dlatego warto tworzyć treści zgodnie z zasadami etyki SEO i unikać ukrywania kodu w treściach stron internetowych oraz kopiowania treści z innych stron. Naprawdę nie będziemy przez to mądrzejsi, a przede wszystkim myślę, że warto pamiętać, że nasza niewiedza i kopiowanie prędzej czy później wyjdzie na jaw.
Oprócz tego wiadomo, że firma OpenAI, która ma tak rozwijającego się robota będzie chciała śledzić swoje stworzone materiały. Przez to może się jeszcze bardziej rozwijać chociażby w kierunku rozpoznawalności treści.
I tutaj mamy dość ciekawą sytuację. Z jednej strony mamy firmę OpenAI, która nakłada znak wodny w formie osadzania wzoru słów, liter, znaków interpunkcyjnych w postaci “tajnego” kodu.
Jak twierdzą ten znak wodny ma na celu zapobieganie niewłaściwemu wykorzystaniu AI w sposób szkodzący ludzkości. Informatyk Scott Aaronson, który został w 2022r zatrudniony przez OpenAI twierdzi, że …
Może to być oczywiście pomocne w zapobieganiu plagiatom akademickim, ale także na przykład masowemu generowaniu propagandy …
Więcej możesz się dowiedzieć zaglądając na jego bloga. Ja jednak zostanę przy swojej wersji twierdząc, że takie teksty mają za zadanie przede wszystkim dbać o wizerunek firmy.
Osoby posługujące się ChatGPT zapewne wiedzą, że teksty generowane są chronione prawami autorskimi. OpenAI posiada prawa autorskie do algorytmów i modeli językowych, które generują te teksty. W przypadku korzystania z tekstów wygenerowanych przez ChatGPT lub innych modeli OpenAI ważne jest to aby respektować te prawa autorskie czyli przede wszystkim zapoznać się z nimi.
Wspomnę tylko, że tak naprawdę w przestrzeni Internetu można natknąć się chociażby na przeprosiny pisane przez różne osoby, które są posądzane o plagiat, który powstał z powodu bezmyślnego używania i kopiowania z OpenAI. Plagiat dotyczy wygenerowanych obrazów, stworzonych tekstów.
Jeżeli korzystamy z usług OpenAI aby uniknąć problemów prawnych warto przestrzegać wytycznych dotyczących praw autorskich w tak podstawowej wersji jak:
- Używanie tekstu w sposób zgodny z zasadami praw autorskich – czyli korzystamy z wygenerowanych tekstów zgodnie z zasadami fair use lub innymi odpowiednimi przepisami dotyczącymi praw autorskich. Trzymajmy się procedur w firmie w których pracujemy albo stwórzmy procedury z tym związane,
- Unikanie naruszania praw autorskich – nie kopiujmy, nie wykorzystujmy tekstów w sposób naruszający prawa autorskie. Unikajmy publikowania, dystrybuowania tekstów w sposób, który narusza prawa autorskie OpenAI. Już teraz wiemy, że mamy znak wodny, więc … unikajmy tego,
- Zwracanie uwagi na licencje i zasady korzystania – w przypadku korzystania z platform, które udostępniają usługi OpenAI warto zapoznać się z ich zasadami korzystania, licencjami i regulaminami. Wiele platform ma określone zasady dotyczące użytkowania tekstów wygenerowanych za pomocą sztucznej inteligencji.
- Zgoda na publikację i udostępnianie – jeżeli planujemy publikować lub udostępniać teksty wygenerowane przez sztuczną inteligencję upewnijmy się, że mamy odpowiednią zgodę lub licencję na ich używanie. W niektórych przypadkach może być konieczne uzyskanie zgody OpenAI lub innych właścicieli praw autorskich.
Ważne jest to aby zachować ostrożność i świadomość praw autorskich podczas korzystania z tekstów wygenerowanych przez sztuczną inteligencję. Także tych tekstów tworzonych przez modele OpenAI.
Warto jednak pamiętać, że użytkownicy korzystający z usług OpenAI powinni przestrzegać zasad i warunków korzystania, a także przestrzegać zasad etycznych i praw autorskich podczas generowania i wykorzystywania tekstów.
Czynnik zewnętrzny:
Pisząc dane polecenie do ChatGPT generuje on daną odpowiedź. W odpowiedzi pojawiają się dobrane odpowiednio słowa. One są układane w konkretny wzór. Wzór słów użytych w wygenerowanej treści to sposób na ten tzw znak wodny tekstu. Ma on ułatwić systemowi wykrycie czy jest to produkt generatora tekstu AI.
Chodzi w tym wszystkim o to, żeby ten znak wodny umieszczony w treści AI był niewykrywalny, a polega to na tym, że rozkład słów ma powiedzmy losowy wygląd. Taki podobny do normalnego tekstu wygenerowanego przez sztuczną inteligencję.
Mówi się na to – pseudolosowy rozkład słów. Takie generatory liczb pseudolosowych występują w niemal każdym hazardowym automacie do gier. Pseudolosowość to statystycznie losowa seria słów lub liczb, które w rzeczywistości nie są losowe.
ChatGPT przetwarza język naturalny. Maszyna pobiera słowa z dokumentu i dzieli je na jednostki semantyczne takie jak słowa i zdania. Następnie zmienia tekst w ustrukturyzowaną formę, którą można wykorzystać chociażby w uczeniu maszynowym.
Proces generowania tekstu polega na tym, że maszyna na podstawie wcześniejszych wyników zgaduje co będzie następne. Odbywa się to za pomocą funkcji matematycznej, która określa prawdopodobieństwo tego jaki będzie następny żeton co nazywa się rozkładem prawdopodobieństwa. Jakie słowo będzie następne jest przewidywane, ale jest losowe.
Sam znak wodny jest tym co Scott opisuje jako pseudolosowy. Istnieje matematyczny powód dla którego znajduje się tam określone słowo lub znak interpunkcyjny, ale nadal jest on statystycznie losowy.
Znak wodny dla osób które czytają tekst wygląda całkowicie naturalnie, ponieważ ten dobór słów naśladuje losowość wszystkich pozostałych słów. Jednak ta losowość zawiera jakiś błąd, który może być wykryty przez kogoś, kto wie w jaki sposób może wyglądać taki klucz do rozszyfrowania tej losowości.
Czyli tym znakiem wodnym są także tworzone specyficzne zdania za pomocą odpowiednich słów. Jeżeli od początku używamy ChatGPT, czy “rozmawiamy” z nim to zapewne zauważyliśmy różnicę nie tylko w budowie samych zdań, ale także w budowie całych treści. Nie wspominając już nawet o tzw ogłupianiu, które co jakiś czas firma OpenAI wprowadza w ChatGPT co zresztą jest mocno widoczne w generowanej przez czat treści.
Czynniki zewnętrzne będą nadal zapewne na wiele różnych sposobów modyfikowane przez OpenAI. Nie mam co do tego żadnej wątpliwości. Nie tylko z powodu rozpoznawalności treści przez Google, ale także przez inne programy. Chyba nikt z nas nie ma żadnej wątpliwości co do tego, że tej firmie jak każdej innej zależy na tym, aby stawać się na światowym rynku liderem AI i wyprzedzać konkurencję. Właśnie dlatego stosuje chwyty, które jak zostają wykryte są usuwane, a na ich miejsce wprowadzane inne. Te które mają przecież “chronić” użytkowników.
Ten rozwój nie tylko OpenAI, ale także Google jest naprawdę mocno fascynujący. Google próbuje z jednej strony nadążyć za konkurencją, a z drugiej strony powinno ją eliminować. Co wiadomo nie jest takie proste. Z jednej strony mają swój czat, a z drugiej strony muszą pracować chociażby nad tym jakie znaki wodne zostawia ich konkurencja.
To w takim razie powstaje pytanie … czy na pewno Google rozpoznając treści AI będzie je eliminować ze swojej wyszukiwarki?
Patrząc na ich ruchy, które są widoczne w wyszukiwarce oraz na zaawansowanie czata to … na tą chwilę obawiać się można tylko i wyłącznie treści z niewidocznymi “zaszytymi” kodami HTML. Co jakiś czas sprawdzam jak działa wyszukiwarka Google i na tą chwilę śmiało powiem, że ChatGPT dość mocno wyprzedza nawet czat Google.
Poruszę także temat związany z różnymi programami, które są polecane przez speców w celu wykrycia treści AI. Sprawdziłam chociażby program SEOAI, który podobno szczyci się aż 95% wykrywalnością. Umieściłam w nim 8 różnych artykułów napisanych przez ChatGPT. Każdy z tych artykułów dał taki wynik:
Co ciekawe w treściach były kody HTML, nawet takie w których był link odnoszący się bezpośrednio do ChatGPT. Dlatego jestem za tym, żeby zamiast kombinować, kupować dostęp do OpenAI, dostęp do programów które “wykrywają” treści AI, poświęcić czas i napisać samemu artykuł.
Tekst tak napisany nie tylko będzie “naturalny” ale także, a może przede wszystkim ociepli wizerunek firmy czy też osoby. Albo jeżeli nie potrafimy stylistycznie pisać czy wolimy zapłacić to myślę, że lepiej zamiast tworzyć treści za pomocą robotów przekierować pieniądze na specjalistów, którzy tworzą eksperckie teksty pisząc je w oparciu o wiedzę branżową, wykorzystując do tego wiedzę z tworzenia tekstów pod kątem SEO.
Powiem w tajemnicy, że nie bez powodu osoba, która pracuje przy tworzeniu ChatGPT swój blog pisze z tzw ręki.
Myślę, że warto także wspomnieć, że problem z treściami generowanymi przez jakikolwiek program AI jest o wiele głębszy. Chodzi nie tylko o to czy Google rozpoznaje treści AI tylko o to czy my użytkownicy wiemy, że rozmawiamy z robotem, który dobiera nam losowo słowa, żeby stworzyć logiczne zdanie.
Z robotem, którego człowiek nie prowadzi 24h na dobę. Z robotem, który wygeneruje nam odpowiedź bez względu na to czy jest ona prawdą czy nie, a do tego jest w stanie logicznie nas przekonać do tego, że kłamstwo jest prawdą.
Przykładów mogłabym podać sporo. Odniosę się jednak do przykładu mężczyzny, który mając depresję został w logiczny sposób przekonany przez ChatGPT, że świat bez niego będzie lepszy, a jego żona szczęśliwsza więc popełnił samobójstwo. No, ale zapewne powiecie, że czego nie robi się dla społeczeństwa … dzięki niemu ulepszyli czat wprowadzając ograniczenia.
Kolejny przykład to kobieta próbująca odnaleźć się na rynku zawodowym. Potraktowała czat jako doradcę zawodowego i … wybrał on jej zawód jakim powinna się zajmować. Niby w tym nie ma nic złego bo przecież w najgorszym wypadku straci ileś tam lat na pracę, której docelowo nie powinna wykonywać. Tylko, że warto w takim przypadku odnieść się do statystyk samobójstw osób, które nie poradziły sobie nie tylko z czynnikami związanymi z wykonywanym zawodem ale i wypaleniem zawodowym, depresją, zadłużeniem itd. Echh
Takich przykładów mogłabym sporo przytaczać.
Jak Google rozpoznaje treści ChatGPT?
Google rozpoznaje treści napisane przez ChatGPT. Dlatego właśnie w tym artykule pokazałam, że warto dobrze przemyśleć czy powinniśmy korzystać z tworzenia treści przez ChatGPT czy w ogóle przez AI. Na pewno warto znać zagrożenia jakie niosą one ze sobą, dzięki czemu nie przekraczamy granic, które później nas sporo kosztują.
Dotrwałaś do końca to chcę Ci bardzo podziękować za poświęcony czas na czytanie moich przemyśleń przepełnionych doświadczeniami. Jeżeli uważasz, że ten temat jest przydatny dla Ciebie lub Twojej firmy, będzie mi miło jak zostawisz swoje myśli w komentarzu, dzięki czemu będziemy mogli na ten temat porozmawiać. Możesz też napisać do mnie wiadomość, albo zadzwonić. Dane kontaktowe znajdziesz w zakładce – kontakt.
Przesyłając ciepłe myśli 🫶 …
To pisałam ja Aga z LaDetre