Naukowcy z Oxford University odkryli, dlaczego głębokie sieci neuronowe (DNN), które napędzają nowoczesną sztuczną inteligencję, są tak skuteczne w uczeniu się na podstawie danych. W najnowszym wydaniu czasopisma "Nature Communications" piszą, że modele te mają wbudowany rodzaj brzytwy Ockhama, co oznacza, że gdy przedstawiane są im różne rozwiązania pasujące do danych treningowych, mają tendencję do wyboru tych prostszych. Co ważne, ta wersja brzytwy Ockhama równoważy wykładniczy wzrost liczby możliwych rozwiązań wraz ze wzrostem złożoności problemu.
William Ockham, słynny filozof późnego średniowiecza, argumentował, że to właśnie najprostsze wyjaśnienie problemu jest prawdopodobnie najlepsze i właściwe. Ta idea testowania prawdy - znana właśnie jako brzytwa Ockhama, została potem dość powszechnie przyjęta. I dziś naukowcy chętnie się na nią powołują. Badacze z Oxford University postawili hipotezę, że po to, by dokonywać trafnych prognoz na nowych, nieznanych wcześniej danych - nawet gdy liczba parametrów jest miliony lub nawet miliardy razy większa, niż liczba punktów danych treningowych - głębokie sieci neuronowe też muszą mieć wbudowany jakiś rodzaj brzytwy Ockhama. Szczegóły były jednak nieznane.
"Istnieje wiele wersji brzytwy Ockhama. Dokładna natura tej używanej przez DNN pozostawała nieuchwytna" - mówi główny autor pracy, prof. Ard Louis z Wydziału Fizyki Uniwersytetu w Oksfordzie. Aby odkryć zasadę przewodnią DNN, autorzy zbadali, jak te sieci uczą się funkcji Boole'a - podstawowych zasad w informatyce, gdzie wynik może mieć tylko jedną z dwóch możliwych wartości: prawda lub fałsz, 0 lub 1. Odkryli, że mimo iż DNN mogą technicznie dopasować dowolną funkcję do danych, mają wbudowaną preferencję dla prostszych funkcji, które są łatwiejsze do opisania. Oznacza to, że DNN są naturalnie skłonne do prostych reguł zamiast złożonych.
Co więcej, autorzy odkryli, że ta wrodzona brzytwa Ockhama ma unikalną właściwość: dokładnie przeciwdziała wykładniczemu wzrostowi liczby złożonych funkcji wraz ze wzrostem rozmiaru systemu. Pozwala to DNN identyfikować rzadkie, proste funkcje, które dobrze się uogólnia, dokonując trafnych prognoz zarówno na danych treningowych, jak i tych wcześnie nie widzianych. W ten sposób unika się też ogromnej większości złożonych funkcji, które pasują dobrze do danych treningowych, ale słabo sprawdzają się na nowych danych. Ta zasada pomaga głębokim sieciom neuronowym dobrze sobie radzić, gdy dane podążają za prostymi wzorcami. Jednak gdy dane są bardziej złożone i nie pasują do prostych wzorców, sieci nie działają tak dobrze, czasami nie lepiej niż losowe zgadywanie. Na szczęście dane rzeczywiste są często dość proste i uporządkowane, co sieciom odpowiada.
By zbadać ten mechanizm, autorzy pracy badali, jak zmieniała się wydajność sieci, gdy proces uczenia się został zmieniony poprzez zmianę pewnych funkcji matematycznych, które decydują, czy neuron powinien "odpalić" czy nie. Odkryli, że mimo iż te zmodyfikowane sieci nadal preferują proste rozwiązania, nawet niewielkie korekty preferencji znacznie zmniejszały ich zdolność do uogólniania, czy dokonywania trafnych prognoz na prostych funkcjach Boole'a. Problem ten występował również w innych zadaniach dotyczących uczenia się, co pokazuje, że obecność właściwej formy brzytwy Ockhama jest kluczowa dla efektywnego uczenia się sieci.
Nowe ustalenia pomagają naukowcom nieco otworzyć "czarną skrzynkę" tych modeli i odsłonić, jak sieci dochodzą do pewnych wniosków. Utajnienie tych mechanizmów obecnie utrudnia wyjaśnienie lub zakwestionowanie decyzji podejmowanych przez systemy AI. Niestety, choć opublikowane dziś ustalenia odnoszą się do sieci ogólnie, nie wyjaśniają w pełni, dlaczego niektóre konkretne modele działają na określonych typach danych lepiej niż inne.