Naukowcy nie mają wątpliwości, że w nowym roku badania z wykorzystaniem sztucznej inteligencji staną się jeszcze powszechniejsze. Na praktyczne zastosowania, na przykład w postaci nowych leków, trzeba będzie jednak jeszcze poczekać - mówi RMF FM dr Jan Kosiński z Europejskiego Laboratorium Biologii Molekularnej w Hamburgu. W rozmowie z Grzegorzem Jasińskim przyznaje, że metody AI, na przykład wyróżniona ubiegłoroczną Nagrodą Nobla metoda przewidywania kształtu białek, nie zastępują do końca eksperymentu. W jego laboratorium program AlphaFold2 pomaga m.in. w badaniach dużych kompleksów białkowych i analizie oddziaływań białek wirusa grypy z białkami człowieka.

Grzegorz Jasiński: Jednym z ważnych faktów roku było przyznanie Nagrody Nobla za osiągnięcia w wykorzystywaniu sztucznej inteligencji. W dziedzinie chemii przyznano ją między innymi twórcom programu AlphaFold2. Pan wykorzystuje AlphaFold2 w swojej bieżącej pracy. W związku z tym jest pan idealnym adresatem pytania, dlaczego ten program i sztuczna inteligencja do tych zastosowań jest tak ważna?

Jan Kosiński: Rzeczywiście jedna z nagród została przyznana za AlphaFold2, który jest programem do przewidywania struktur białek. I zanim wyjaśnię dokładnie konsekwencje tego wynalazku, może najpierw wyjaśnię słuchaczom, co to są białka, a szczególnie ich struktura...

I dlaczego jest tak skomplikowana...

Dokładnie. Białka są to takie cząsteczki, które są podstawowym budulcem życia. Komórki, wirusy - wszystko zbudowane jest z białek. Białka budują organizmy, tak jak np. kolagen jest elementem budowy naszego ciała, ale też robią różne rzeczy, np. enzymy, które trawią pokarm, są też białkami. Są to bardzo skomplikowane cząsteczki, które zbudowane są z tzw. aminokwasów, mniejszych cząsteczek, które są połączone ze sobą w łańcuchy, jak koraliki. I te koraliki nie mają losowego ułożenia, ale zbijają się w określone kształty. Każdy typ białka ma swój kształt i my nazywamy ten kształt strukturą. I na przykład jeśli białko ma trawić pokarm, to białko miałoby jakieś kieszonki, jakieś takie miejsca, które by pasowały do wiązań w tych cząsteczkach pokarmu, żeby je związać i pociąć. I te struktury my zazwyczaj poznawaliśmy metodami doświadczalnymi, np. z pomocą tzw. krystalografii rentgenowskiej, albo mikroskopią elektronową, tak jak np. u nas w naszym Instytucie. Tutaj w Europejskim Laboratorium Biologii Molekularnej w Hamburgu używamy krystalografii rentgenowskiej, mamy taki wielki, ogromny synchrotron, który kosztuje wiele miliardów. I mamy takie urządzenia, które kosztują wiele milionów, żeby włożyć kryształy tych białek i żeby je tam oświecić tymi promieniami rentgenowskimi i otrzymać ich strukturę. Często trwa to wiele lat. Cały doktorat można zrobić, żeby otrzymać kolejną strukturę. A AlphaFold2 jest programem, który jakby zgaduje, przewiduje, jak ta struktura wygląda. I przez wiele, wiele dekad próbowaliśmy tworzyć takie programy i one w miarę działały, ale AlphaFold2 potrafi przewidywać te struktury z taką dokładnością, jak te metody doświadczalne.

Dodajmy jeszcze, dlaczego to jest tak istotne, bo funkcje białka zależą właśnie nie tylko od tego, jaki ma skład aminokwasów, ale właśnie od tego, jak ono się ostatecznie ułoży. To ta struktura ma bardzo duże znaczenie dla jego funkcji...

Dokładnie. W badaniach podstawowych, jak poznajemy strukturę białka, to dużo łatwiej jest zrozumieć, jak to białko działa, rozumiemy te funkcje, mechanizmy, jak się tam wszystko rusza, łączy w komórce. To w badaniach podstawowych. A w badaniach klinicznych czy zastosowaniach jest to też super wiedza, bo na przykład wiele leków działa w ten sposób, że wiąże się do tych struktur białek. I te leki zwykle pasują tak, jak klucz do zamka, do tych różnych kieszonek w tym białku. Więc jak znamy tę strukturę, znamy te kieszonki i to białko ma udział w jakiejś chorobie, my znając strukturę możemy projektować, wymyślać, jakie kształty leków wiązały się od tych kieszonek i wtedy komputerowo proponować takie cząsteczki, które może by się związały. A później można je syntetyzować chemicznie i przetestować w laboratorium. Więc jak mamy taką strukturę, to można takie leki projektować dużo szybciej.

Pan doktor wspomniał o tym już troszeczkę, ale chciałbym w takim razie pociągnąć ten temat. Nagle okazało się, że program z wykorzystaniem sztucznej inteligencji może zastąpić innego typu skomplikowane, bardzo drogie, czasochłonne badania. Jaka to była zmiana, dla państwa, w takiej normalnej, bieżącej pracy naukowej, laboratoryjnej?

Może zastąpić, ale jeszcze nie do końca. Nie wszystkie rodzaje badań i struktur AlphaFold może przewidzieć. Dlatego cały czas jeszcze bardzo dużo się używa krystalografii rentgenowskiej i mikroskopii elektronowej. A jak nam ułatwi badania? Wcześniej czasami musieliśmy czekać latami na jakąś strukturę, albo w ogóle się poddać. Na przykład w naszej własnej pracy badamy, jak białka składają się ze sobą w większe tzw. kompleksy. Białka często nie działają pojedynczo, ale dwa białka, czy trzy białka łączą się razem, czasami łączą się setki tych białek. I my w naszej pracy badamy, jak kształty tych kompleksów wyglądały. Czasami, jak nie wiedzieliśmy, jak dane białko, czy jedno z tych białek wygląda, zostawaliśmy z taką dziurą. Mieliśmy takie publikacje naukowe z takimi dziurawymi kształtami. Teraz te dziury zazwyczaj bardzo łatwo nam wypełnić. Często w 20 minut możemy dostać strukturę takiej brakującej części.

A czy tego typu badania i tego typu projekcje, predykcje, przewidywania sztucznej inteligencji w jakiś sposób zbliżają nas do odpowiedzi na pytanie, co tak naprawdę do końca decyduje o tej strukturze? Jak to jest, że białka potrafią się tak błyskawicznie sformować w konkretny kształt i on jest stały, w pewnych warunkach niezmienny. Czy my lepiej rozumiemy, co tam tak naprawdę o tym decyduje?

No tak, tu porusza pan takie dość kontrowersyjne zagadnienie, czy AlphaFold rozwiązał tzw. problem zwijania się białek, czyli jak działa ten mechanizm. No i nie do końca, a właściwie w ogóle nie. Troszkę zaczynamy to rozumieć, niektórzy z nas obserwują, jak ten program składa białko, więc możliwe, że da się wyciągnąć jakieś wnioski i w przyszłości zrozumieć problem zwijania się białek lepiej. Ale musimy pamiętać, że to jest program, który szuka różnych wzorów, jak ChatGPT, czy Dall-E i inne takie programy sztucznej inteligencji. On nie pokazuje, jak białka się zwijają, więc tego nadal nie rozumiemy i jeszcze trzeba dużo badać. Może też sztuczną inteligencją, ale też innymi metodami.

Proszę mi powiedzieć, jak w praktyce wygląda taka praca z AlphaFold2? Jakie dane mu państwo podajecie? Jakich danych oczekujecie? Jak to w praktyce wygląda?

Teraz też mamy AlphaFold3, który jest nową wersją i został opublikowany jako strona internetowa firmy, która stworzyła AlphaFold, czyli Google Deep Mind. Wcześniej udostępnili AlphaFold w postaci takiego programu, że musieliśmy go sobie  ściągnąć na nasze superkomputery i na tych superkomputerach byśmy uruchamiali ten program. I w najprostszym użyciu byśmy dawali po prostu ten ciąg aminokwasów, które my kodujemy jako literki. Jest 20 aminokwasów, każdy ma swoją literkę i to wygląda jak takie długie zdanie bez spacji, bez przerwy. I my dajemy tę sekwencję i czekamy. Tam są takie etapy przygotowawcze, czekamy kilka godzin i dostajemy tę strukturę. Przez tę stronę internetową, która działa na serwerach Google, teraz się wrzuca tę sekwencję, to zdanie, ale czeka się 30 minut i dostaje się ładną, przygotowaną strukturę, którą można sobie prosto ściągnąć. Większość naukowców, którzy nie są teraz bardzo komputerowo zorientowani, używa tej strony internetowej.

I ten wynik jest w jakiej postaci? Czy to jest taka wizualizacja? Jak rozumiem tam jest coś więcej, bo dla ekspertów to tak nie wystarczy, że popatrzymy sobie w 3D z lewej, z prawej. Co tam tak naprawdę państwo dostajecie?

Jakby to wytłumaczyć? Tak naprawdę struktura to jest zestaw punktów. Każdy punkt to jest atom, który ma trzy współrzędne. To jest plik tekstowy, który ma listę atomów i tych punktów. My to sobie obrazujemy w postaci takich wstążek. Może czasami oglądali państwo takie obrazki z koronawirusa...

Tak znamy je właśnie tak.

My to sobie piszemy, bo ciężko patrzeć na te wszystkie atomy. A tu jeszcze chciałem dodać, że to nie do końca prawda, że dla biologów pierwszym punktem styczności jest ta strona internetowa. Tak naprawdę w sumie dla pojedynczych białek większość struktur zostało już policzonych i to też było we współpracy z naszym Instytutem, informatyczną częścią, która jest w Anglii, EBI. Google Deep Mind, jak uruchomił ten program, policzył struktury prawie wszystkich białek, do 200 milionów białek. Po to, by ułatwić naukowcom używanie ich, żeby nie musieli jeszcze raz liczyć tych białek, razem z naszym Instytutem zrobili taką bazę danych, czyli taką stronę internetową, gdzie to wszystko jest już policzone i wystarczy tam pójść i kliknąć i ściągnąć. Nie trzeba nic liczyć. Tylko, jeśli czegoś tam brakuje, albo chce się złożyć kilka białek razem, to wtedy idziemy do tej drugiej strony internetowej, albo - tak jak my w naszym laboratorium - mamy jakieś bardziej zaawansowane zastosowania i to liczymy na naszych superkomputerach.

To muszę zapytać w takim razie o pana osiągnięcie i badania tzw. kompleksu NPC. Bo to jest właśnie to, o czym wspominał pan, że białka są też liczone w całych kompleksach, które mają swoje pewne funkcje i tam się w jakiś sposób składają razem. Czy to w takim razie jest na zasadzie dopasowywania tych znanych białek do siebie, czy liczenia całego kompleksu?

I to, i to, tak naprawdę. Może dla wstępu o tym kompleksie NPC, czyli po polsku kompleksie poru jądrowego. Jest to ogromny kompleks białek, jeden z największych w ludzkiej komórce, który odpowiada za transport cząsteczek, innych białek, RNA między tzw. jądrem komórkowym a resztą komórki. Większość komórek ludzkich, zwierząt, roślin, grzybów ma w sobie takie jądro, które jest taką membraną otaczającą DNA. Ale bardzo dużo innych procesów, typu tworzenie nowych białek, tworzenie energii, odbywa się na zewnątrz jądra. Więc białka i RNA muszą przechodzić jakoś przez tę membranę. I żeby to umożliwić stworzyły się takie pory jądrowe. To są takie wielkie kanały w tej membranie, w których jest 30 białek w wielu kopiach, czyli w sumie około tysiąca kopii białek. I one się składają tworząc taki kanał.

To trochę wygląda tak jak napompowana oponka albo taki pączek z dziurą w środku...

My to nazywamy właśnie donut, czyli pączek z dziurą.

Ile takich kompleksów w komórce występuje, przy tej komunikacji między jądrem komórkowym a zewnętrzem?

W ludzkiej komórce jest zwykle około 2 do 4 tysięcy takich kompleksów. I w kontekście komórki ten kompleks jest gigantyczny. Pojedyncze białko jest takim małym elementem, który gdzieś tam przechodzi. I takiej struktury nie da się przewidzieć z AlphaFold, bo jest za duża. I nie da się też określić jej struktury krystalografią rentgenowską. Można dostać przybliżony kształt przy użyciu mikroskopu elektronowego. Mamy teraz takie technologie, że możemy użyć elektronów do otrzymania takiego mniej więcej kształtu, w którym nie widać atomów, ale widać te białka. To jest taki zamglony obrazek tego kompleksu. Do tego, dzięki kilku dekadom pracy biochemików wiemy, jakie tam białka są i mniej więcej, które powinny siebie dotykać. Mamy też takie technologie, nazywa się je Cross-Linking/Mass Spectrometry, gdzie możemy pomierzyć odległości pomiędzy niektórymi białkami. To, co przez wiele lat robiliśmy w naszym laboratorium, to właśnie składanie kompleksów biorąc ten zamglony obrazek, branie poszczególnych struktur, które przed AlphaFold pochodziły albo z krystalografii rentgenowskiej, albo z jakichś gorszych metod modelowania. I brania tych linijek i składania tego jak puzzle. I my w naszym laboratorium mamy program do składania tego z tych kawałków. No, ale jak mówiłem, często dostawaliśmy wiele dziur i przed AlphaFold udało nam się zbudować w 2016 roku model tego obwarzanka, tej oponki, ale to było tylko 30 proc. całego kompleksu. Dużo więc brakowało. I później próbowaliśmy poprawić ten model. To była praca kilku laboratoriów, także Martina Becka z Instytutu Maxa Plancka we Frankfurcie oraz Agnieszki Obarskiej, mojej małżonki i też współpracowniczki. I pracowaliśmy nad tym, żeby poprawić model. No i dobrze nam szło. Mieliśmy te nowe kształty od Martina Becka, trochę ulepszone. Nadal ulepszaliśmy ten model. I w 2020 wyszedł ten AlphaFold. Poszliśmy do bazy danych, właśnie opublikowanej przez nasz instytut EBI. Zobaczyliśmy, że te wszystkie struktury poszczególnych białek tam są. Ściągnęliśmy je i się okazało, że one pasują do tego naszego kształtu. Więc wtedy Agnieszka wyrzuciła wszystko co zrobiła do tego czasu i zaczęła pracować od nowa już AlphaFold i zbudowała ten model chyba w 2-3 miesiące i opublikowaliśmy tę nową strukturę. Ona była już dwa razy większa niż to, co mieliśmy wcześniej. Nadal jest nie skończona. Agnieszka nad tym pracuje, razem z Martinem. Opublikowaliśmy to w czasopiśmie "Science" i była to dość duża rewolucja. Po pierwsze w rozumieniu, jak ten kod jest budowany, a po drugie w pokazaniu jak można połączyć te inne informacje z metod doświadczalnych razem z tym programem AlphaFold. 

No właśnie można powiedzieć, że AlphaFold się pojawił w idealnym momencie dla państwa, zanim jeszcze zostało to zakończone mozolną, wieloletnią pracą.

No w sumie to był idealny moment. Tak, rzeczywiście.

A jak się sprawuje to właśnie porównywanie i taka integracja informacji z jednej strony z AlphaFold, z drugiej strony właśnie z tych wyników innego typu badań, takich powiedzmy bardziej klasycznych, krystalograficznych. Jak jedno z drugim się wpasowuje?

Okazuje się, że w praktyce, jak się nie ma żadnych informacji doświadczalnych, to mimo że AlphaFold mówi, ocenia, szacuje kiedy ufa swojemu modelowi, kiedy nie, dostajemy liczby, które oceniają, który aminokwas jest dobry, który nie, to bez żadnych danych doświadczalnych to tak naprawdę ciężko jest wierzyć i trzeba to wszystko sprawdzać. Więc my często używamy danych doświadczalnych do zdecydowania, co przewidujemy, co modelujemy, a później jeszcze sprawdzamy. Czyli np. robimy jakieś zmiany, oczyszczamy te białka, robimy mutacje, albo jakoś ogólną strukturę, żeby to potwierdzić. Więc w sumie i obecnie, i zapewne w przyszłości, nadal będzie się używać jeszcze i sztucznej inteligencji i tych eksperymentów w taki połączony sposób.

Niektórzy mówią, że sztuczna inteligencja w coraz to swojej doskonalszej postaci będzie też pomagać naukowcom, a może z czasem i zastępować ich w formułowaniu nowych hipotez, nowych interpretacji. Czy pan doktor widzi takie już zastosowanie, które w państwa pracy może się pojawić?

Tak, to już się dzieje. W najprostszym przypadku przy użyciu AlphaFold każdy model jest hipotezą. To, co my np. robimy w naszym laboratorium, to coraz bardziej się skupiamy na wirusie grypy i tym, jak białka wirusa grypy oddziaływają z białkami zainfekowanej komórki. I wbrew pozorom, mimo że wirus grypy jest nami od tylu lat, jest bardzo dobrze zbadany, to bardzo mało wiadomo o tym, które białko oddziałuje, z którymi białkami człowieka, gdzie są te kontakty, które są ważne, a które nie. Więc to, co my próbujemy zrobić, to bierzemy białka grypy i białka człowieka i próbujemy je wszystkie ze sobą wymodelować. Albo mamy eksperymenty, które dają nam jakieś pule kandydatów, par i testujemy tym AlphaFold. I dla nas każdy z tych modeli, tych par, jest taką hipotezą, którą później możemy sprawdzać w laboratorium. Na razie to działa tylko trochę, bo AlphaFold kiepsko sobie radzi z białkami z dwóch różnych organizmów. Ale to też to nad czym pracujemy w naszym laboratorium i mamy już jeszcze nieopublikowane, obiecujące wyniki.

To zmierzałoby do stworzenia uniwersalnej szczepionki, której nie trzeba byłoby już powtarzać? Czy lepszego przewidywania tych corocznych szczepionek?

Tym akurat w naszym laboratorium się nie zajmujemy, ale ten drugi noblista z chemii David Baker, który dostał nagrodę za projektowanie białek, on przy użyciu innego programu Rosetta, który oni stworzyli i też używają sztucznej inteligencji do projektowania tych białek, pracują nad białkiem, które wiąże się do białka na powierzchni wirusa grypy. To białko na powierzchni wirusa grypy ma dwie części, to jest taka główka na trzonku. Jedna się zmienia bardzo szybko, dlatego trzeba co roku robić nową szczepionkę. A druga - ten trzonek - zmienia się bardzo powoli. Jest bardzo podobny między różnymi szczepami. I oni zaprojektowali białko, które się wiąże do tego trzonka. Bardzo ciężko jest zrobić przeciwciała, które się wiążą do tego trzonka. Nawet są już firmy, która testują to białka, żeby stworzyć taką uniwersalną szczepionkę. Dlatego też ten Nobel był właściwie za projektowanie białek.

Proszę mi powiedzieć, jakie są pańskie przewidywania. Co będzie dalej? Jako jeden z tych naukowców, który już twórczo i z sukcesami wykorzystuje narzędzia sztucznej inteligencji, w tym to spektakularne, o którym nagle cały świat się dowiedział, bo zostało wyróżnione Nagrodą Nobla, co pan może powiedzieć swoim kolegom z innych dziedzin. Żeby się odważyli, jak najszybciej rozpoznali te metody, bo po prostu nie ma na co czekać?

W biologii już zapewne większość biologów molekularnych używa AlphaFold do tworzenia i sprawdzania hipotez. Myślę, że w zastosowaniach, co na pewno zobaczymy w najbliższych latach, to będą zastosowania tych zaprojektowanych białek do różnych, albo medycznych, albo pozamedycznych celów, także chemicznych. Wielką nadzieją jest projektowanie leków przy użyciu sztucznej inteligencji. Tak pewnie nastąpi, ale może potrwa to trochę dłużej, niż nam się wydaje. Może to nie być takie proste, żeby zaprojektować lek, który się wiąże, a jednocześnie jest dobrze tolerowany przez organizm. W innych dziedzinach naukowych, w genomice sztuczna inteligencja jest teraz używana, bo genomy, czyli DNA organizmów, to jest też ciąg literek, czterech literek plus jakieś modyfikacje. Więc w tych dziedzinach bardzo dużo się też używa teraz sztucznej inteligencji, tych samych metod, które są używane do tłumaczenia tekstów, do tworzenia ChatGPT.

To jeszcze na koniec zapytam pana o te plany związane z dalszymi badaniami tego kompleksu NPC. Czego państwo oczekujecie? Czego się spodziewacie? Czy to też będzie miało jakąś swoją medyczną odsłonę? Czy tu są szanse na ewentualną terapie jakichś chorób, które mogą być związane z nieprawidłowościami tego typu kompleksów?

Agnieszka i Martin próbują coraz dalej modelować, przewidywać to, czy dopełniać, żeby mieć pełną strukturę. W naszym laboratorium idziemy trochę w innym kierunku, np. jeśli chodzi o ten por jądrowy, w jednym projekcie właściwie łączymy, badamy, jak ten por jądrowy się zmienia podczas infekcji wirusem grypy. Wirus grypy wchodzi tam do jądra, tam się namnaża, a później wychodzi przez te pory. I te pory się zwiększają, żeby ten wirus mógł wyjść szybciej. Do tego nie używamy za bardzo AlphaFold, używamy tej startowej struktury, którą mamy i ją dopasowujemy do tych naszych obrazków, żeby zobaczyć jak się zwiększa. Oczywiście mamy pewne sposoby, żeby zatrzymać to zwiększanie, czy to będzie jeszcze dobra terapia przeciwko wirusowi grypy, czy nie, tego jeszcze nie wiemy. Musimy sprawdzić, do jakiego stopnia to coś zmienia. Ale por jądrowy ogólnie łączy się też z mutacjami związanymi z różnymi rakami. I nawet pacjenci z mutacjami w tym białku mają inną chorobę, ale mają też predyspozycje do poważnej grypy. Jeśli zostaną zainfekowani grypą, mają bardzo poważne konsekwencje.

Trzymamy kciuki w takim razie, żeby te badania postępowały.

Zobaczymy. No myślę, że od takich badań podstawowych to jeszcze do aplikacji często zajmuje 10-20 lat. Na pewno dzięki AlphaFold, tym metodom sztucznej inteligencji, na pewno przyspieszymy.