W ostatnich miesiącach wszyscy radośnie testowaliśmy możliwości ChatGPT i podobnych mu narzędzi. Sztuczna inteligencja daje ogrom możliwości, zarówno jeśli chodzi o tworzenie grafik, jak i tekstów. Jednak problem zaczyna się wtedy, kiedy chcemy potem wykorzystywać te twory. Grafiki – czego już niejednokrotnie doświadczyliśmy i doświadczać będziemy – mogą służyć do siania dezinformacji, podobnie jak tekst. Jednak w tym wypadku sprawa jest dużo poważniejsza, niż może się wydawać na pierwszy rzut oka.
Nie ma się co łudzić, ChatGPT i inne generatory tekstu oparte na sztucznej inteligencji nie są nieomylne
Bardzo często zmyślają lub przeinaczają fakty i to właśnie może być ogromnym problemem. Bo wiecie, jeśli użyjemy takiego wygenerowanego tekstu w szkolnym wypracowaniu nic specjalnego się nie stanie, po prostu dostaniemy złą ocenę za ewentualne błędy. Jednak sytuacja wygląda inaczej, jeśli ktoś posłuży się sztuczną inteligencją do napisania pracy naukowej. Bez odpowiedniej weryfikacji bardzo łatwo jest zaprezentować w naukowy sposób totalne bzdury, które potem mogą być powielane dalej. To z kolei może doprowadzić do zaśmiecenia wiarygodnych i rzetelnych źródeł.
Dlatego tak istotne jest, byśmy mieli narzędzia, które mogą wykrywać tego typu teksty generowane przez SI. Heather Desaire, chemiczka z University of Kansas przedstawiła rozwiązanie, która z 99-procentową skutecznością jest w stanie to zrobić.
ChatGPT i wszystkie inne generatory tekstu oparte na sztucznej inteligencji zmyślają fakty. W akademickich publikacjach naukowych — pismach o nowych odkryciach i krańcach ludzkiej wiedzy — naprawdę nie możemy sobie pozwolić na zanieczyszczanie literatury wiarygodnie brzmiącymi kłamstwami. Nieuchronnie trafiłyby one do publikacji, gdyby generatory tekstu SI były powszechnie używane. O ile mi wiadomo, nie ma niezawodnego sposobu na automatyczne znalezienie tych „halucynacji”, jak się je nazywa. Kiedy zaczniesz wypełniać prawdziwe fakty naukowe zmyślonymi bzdurami SI, które brzmią całkowicie wiarygodnie, te publikacje staną się mniej wiarygodne i mniej wartościowe. — powiedział Desaire.
Badaczka twierdzi, że jej metoda w dużej mierze zależy od zawężenia zakresu analizowanych pism do pism naukowych, które są powszechnie spotykane w recenzowanych czasopismach. Poprawia to dokładność w porównaniu z istniejącymi narzędziami do wykrywania sztucznej inteligencji, takimi jak detektor RoBERTa, które mają na celu wykrywanie sztucznej inteligencji w bardziej ogólnym tekście. Wykładowcy uniwersyteccy, podmioty przyznające granty i wydawcy potrzebują precyzyjnego sposobu wykrywania danych wyjściowych SI prezentowanych jako wytwór ludzkiego umysłu. W takim przypadku 90% pewności to nadal za mało, zwłaszcza gdy w grę wchodzi oskarżenie kogoś o plagiat czy korzystanie z narzędzi opartych na sztucznej inteligencji.
Dlatego badacze z Desaire na czele użyli znacznie mniejszego zestawu danych i znacznie większej interwencji człowieka, aby weryfikować kluczowe różnice. Do zbudowania swojego narzędzia użyli zaledwie 64 dokumentów napisanych przez ludzi i dwa razy tyle tekstów, które wyszły spod „pióra” SI. To 100 tys. razy mniej niż w przypadku innych narzędzi, ale właśnie tak ograniczony zestaw danych pozwolił badaczom samemu zapoznać się ze wszystkimi tekstami, by znaleźć różnice w zestawach dokumentów. Dzięki temu nie musieli oni polegać na strategiach rozróżniania ludzi i sztucznej inteligencji, które zostały opracowane wcześniej.
Trochę wstyd się przyznać, ale nawet nie zapoznaliśmy się z literaturą na temat wykrywania tekstu AI, dopóki nie mieliśmy własnego narzędzia roboczego w ręku. Robiliśmy to nie w oparciu o to, jak informatycy myślą o wykrywaniu tekstu, ale zamiast tego korzystaliśmy z naszej intuicji dotyczącej tego, co zadziała – twierdzi Desaire.
Kolejną różnicą w metodzie opracowywanej przez zespół jest to, że naukowcy nie skupiali się na tekście stworzonym przez sztuczną inteligencję. Więcej czasu poświęcili tym, które zostały napisane przez ludzi. Zamiast szukać odpowiedzi na pytania typu „Jak wygląda tekst generowany przez sztuczną inteligencję?”, próbowali odpowiedzieć na inne – „Jak wygląda ta wyjątkowa grupa pisma ludzkiego i czym różni się od tekstów AI?”.
Teksty pisane przez naukowców nie są zwykłymi tekstami ludzkimi. To teksty naukowców. A my, naukowcy, jesteśmy bardzo szczególną grupą – mówi badaczka.
Właśnie dzięki temu podejściu udało się opracować narzędzie, które z 99-procentową skutecznością odróżnia teksty naukowców od tych stworzonych przez sztuczną inteligencję. Co najważniejsze, Desaire udostępniła kod źródłowy będący efektem ich prac, by inni badacze mogli z niego korzystać.