Analiza primaaprilisowych żartów może pomóc w rozpoznawaniu fake newsów - przekonują całkiem serio naukowcy z Lancaster University. Wyniki ich badań pokazują, że mechanizmy językowe stosowane w przypadku zarówno tych pierwszych, jak i drugich historii, są w wielu wypadkach analogiczne. Ich cel jest w końcu podobny, mają wykorzystać nasze zaufanie i nas oszukać. Czasem dla żartu, czasem niestety nie. Swoją pracę na ten temat przedstawią podczas międzynarodowej konferencji "20-th International Conference on Computational Linguistics and Intelligent Text Processing", która rozpocznie się w La Rochelle... 7 kwietnia.
Eksperci zajmujący się na Lancaster University zagadnieniami przetwarzania języka naturalnego zbudowali bazę danych, obejmującą 500 zmyślonych, primaaprilisowych historii, wybranych z publikacji 370 portali z ostatnich 14 lat. Z ich pomocą analizowali techniki używane przez autorów do takiego przedstawienia zmyślonej historii, by wydawała się jak najbardziej prawdopodobna.
Żarty primaaprilisowe są bardzo użyteczne, dają nam okazję analizy technik lingwistycznych, stosowanych przez autorów w celu uwiarygodnienia nieprawdziwej informacji - mówi pierwszy autor pracy, Edward Dearden. Przyglądając się językowi wykorzystywanemu 1 kwietnia i porównując go z fake newsami, możemy zyskać wyraźny obraz chwytów, stosowanych przez ich autorów - tłumaczy.
Badaczy interesowały różnice stylistyczne, poziom komplikacji tekstu, jego przejrzystość, liczba szczegółów, wreszcie mniej lub bardziej oficjalny charakter. Badacze z Lancaster University porównali wyniki analizy swojej bazy primaaprilisowych żartów z bazą fake newsów stworzoną wcześniej przez inny zespół naukowców. Nie wszystkie elementy się powtarzały, ale podobieństwa były znaczne.
I jedne, i drugie fałszywe historie pisane są nieco prostszym językiem niż prawdziwe, są łatwiejsze do przeczytania i zawierają dłuższe zdania. Szczegóły dotyczące nazwisk, miejsc, dat i czasu podawane są w primaaprilisowych żartach i fake newsach nieco rzadziej niż w prawdziwych informacjach. Wyjątkiem są nazwiska polityków, wyraźnie częstsze tylko w fake newsach. Fałszywe historie obu rodzajów podawane są częściej w pierwszej osobie, także liczby mnogiej. To pewne zaskoczenie, do tej pory dominowało przekonanie, że kłamcy pierwszej osoby nie używają.
W porównaniu z prawdziwymi informacjami żarty primaaprilisowe są przeważnie krótsze, używają więcej rzadkich słów, mają dłuższe zdania, są prostsze w czytaniu, często odnoszą się do mglistych wydarzeń z przyszłości, zawierają też więcej odniesień do teraźniejszości, mało zwracają uwagę na przeszłość, zawierają mniej nazw własnych, a więcej zaimków w pierwszej osobie.
Fake newsy w porównaniu do informacji prawdziwych są krótsze i prostsze, łatwiejsze w czytaniu, zawierają mniej znaków przestankowych, więcej nazw własnych, są często mniej formalne, zawierają więcej wulgaryzmów i błędów literowych. Znajdujemy w nich mniej dat, więcej zaimków w pierwszej osobie.
Autorzy pracy stworzyli program, który wykorzystując metody uczenia maszynowego ma klasyfikować informacje do różnych kategorii, prawdziwych, fake newsów i żartów primaaprilisowych. Jego skuteczność wyniosła w przypadku dowcipów na 1 kwietnia 75 proc., a w przypadku fake newsów około 72 proc. Gdy algorytm "uczący się" tylko na żartach primaaprilisowych miał wykrywać fake newsy, jego dokładność przekraczała 65 proc.
Jeśli chcemy sprawdzić, czy dany artykuł nie jest oszustwem, powinniśmy zwracać uwagę i na szczegóły, i na złożoność całej struktury. Choć między żartami primaaprilisowymi i fake newsami jest wiele różnic, z naszych badań wynika, że mają też wiele wspólnego, choćby w swojej strukturze - mówi współautor pracy, dr Alistair Baron. Obie formy dezinformacji mają pewne podobieństwa, które można wykorzystać w dalszych badaniach metod ich rozpoznawania - dodaje.