Llama 3.1 405B - to pełna nazwa jednej z najnowszych wersji tzw. dużego modelu językowego (LLM - large language model) od firmy Meta. LLM jest rodzajem sztucznej inteligencji. Twórca systemu informuje, że korzystanie z Llamy będzie bezpłatne.

Firma Meta, do której należy m.in. Facebook, we wtorek, 23 lipca, poinformowała o wydaniu najnowszych wersji swojego dużego modelu językowego (LLM). Jednym z najbardziej znanych LLM-ów jest Chat GPT.

Llama 3.1 ma trzy wersje - 8B, 70B i 405B. Te modele różnią się liczbą parametrów, co wpływa na ich zdolności przetwarzania języka. W kontekście AI parametry to liczby, które są używane w modelu sztucznej inteligencji do podejmowania decyzji - można je porównać do ustawień, które wpływają na to, jak AI działa i jakie wyniki daje.

Najważniejsze informacje o Llamie

Jak podaje Meta, wersja Llamy 3.1 405 B ma, zgodnie z nazwą, 405 miliardów parametrów. Czy to dużo? Dokładna liczba parametrów innego znanego LLM, czyli Chata GPT-4o nie została oficjalnie potwierdzona przez OpenAI, ale szacuje się, że może wynosić 1,76 biliona parametrów.

Chat GPT-4o jest jednak płatny, a Llama 3.1 ma być bezpłatna.

"Do dziś, otwarte modele językowe w dużej mierze ustępowały swoim zamkniętym odpowiednikom pod względem możliwości i wydajności. Teraz wprowadzamy nową erę, w której open source prowadzi. Publicznie udostępniamy Meta Llama 3.1 405B, który uważamy za największy i najbardziej zaawansowany model fundamentowy dostępny publicznie na świecie" - informuje Meta.

Spółka przekazała, że wierzy, iż "najnowsza generacja Llama zapoczątkuje nowe aplikacje i paradygmaty modelowania".

"Jako nasz największy model do tej pory, trenowanie Llama 3.1 405B na ponad 15 bilionach tokenów było ogromnym wyzwaniem" - zaznacza właściciel Facebooka. W przypadku AI token to jednostka tekstu, która może być słowem, częścią słowa lub znakiem - modele językowe AI przetwarzają tekst, dzieląc go na te jednostki, aby lepiej rozumieć i generować odpowiedzi.

Llama 3.1 w Polsce?

Czy z Mety AI można korzystać w Polsce? Jak przekazała Ekaterina Panawa z biura prasowego Mety w odpowiedzi na pytanie RMF FM, "Llama 3.1 staje się dostępna globalnie, a więc również w Polsce".

Llama 3.1 to podstawowy model tekstowy, który jest dostępny na zasadach otwartego oprogramowania i można na nim budować własne aplikacje. Meta AI to nasz asystent AI wbudowany w nasze aplikacje, który nie jest jeszcze dostępny w UE. W krajach, w których jest dostępny, Meta AI jest zbudowany na bazie Llama 3.1. Aby rozpocząć budowanie, ludzie w Polsce mogą odwiedzić stronę https://llama.meta.com - wyjaśnia Ekaterina Panawa.

Jak działa Llama 3.1?

Przedstawicielka firmy Meta potwierdza, że konieczne jest pobranie Llamy 3.1, aby zacząć jej "budowanie".

"Llama 3.1 nie jest chatbotem, jest to model bazowy tekst-tekst, więc jest to technologia, na podstawie której inni mogą tworzyć własne aplikacje, rozwiązania itp." - wyjaśnia.

Porównanie Llamy z innymi tego rodzaju LLM-ami

Firma Meta opublikowała na swojej stronie internetowej porównanie najnowszej wersji Llamy w porównaniu do innych LLM-ów, jak np. Chat GPT. Oto zestawienie (poniżej wyjaśniamy metody porównawcze).

Czym są MMLU, IFEval, HumanEval, MBPP EvalPlus, MATH, ARC Challenge, GPQA, BFCL, Nexus, ZesoSCROLLS/QuALITY, InfiniteBench/En.MC, NIH/Multi-needle, Multilingual MGSM? Wyjaśniamy to poniżej:

  • MMLU (Massive Multitask Language Understanding) - kompleksowy test zaprojektowany do oceny dokładności modeli językowych AI w różnych zadaniach;
  • IFEval (Instruction Following Evaluation) - ocena zdolności modeli językowych do wykonywania instrukcji w różnych zadaniach i kontekstach;
  • HumanEval - ocenia zdolność modeli językowych do generowania kodu programistycznego na podstawie opisów zadań. MBPP to rozszerzona wersja tego narzędzia;
  • MATH - ocenia zdolność modeli językowych do rozwiązywania problemów matematycznych na różnych poziomach trudności, od podstawowych do zaawansowanych;
  • ARC Challenge (AI2 Reasoning Challenge) - składa się z pytań wielokrotnego wyboru, zaprojektowany do oceny zdolności modeli językowych do rozumienia i wnioskowania na podstawie tekstu;
  • GPQA (General Purpose Question Answering) - ocenia zdolność modeli językowych do odpowiadania na szeroki zakres pytań, obejmujących różne dziedziny wiedzy;
  • BFCL (Benchmark for Commonsense Language) - sprawdza zdolność modeli językowych do rozumienia i generowania odpowiedzi na pytania wymagające zdroworozsądkowego rozumienia;
  • Nexus - bada zdolność modeli językowych do integracji i współpracy z innymi systemami lub komponentami w ramach złożonych zadań;
  • ZesoSCROLLS/QuALITY - ocenia zdolność modeli językowych do rozumienia długich tekstów i odpowiadania na pytania na ich podstawie. "SCROLLS" odnosi się do oceny na dużą skalę zadań rozumienia tekstu, a "QuALITY" to benchmark oceniający zrozumienie opowiadań i artykułów;
  • InfiniteBench/En.MC (English Multi-Choice) - bada zdolność modeli językowych do wybierania poprawnych odpowiedzi na pytania wielokrotnego wyboru w języku angielskim;
  • NIH/Multi-needle - to narzędzie oceniające zdolność modeli językowych do identyfikacji i pracy z wieloma wątkami informacji, często używane w kontekście medycznym;
  • Multilingual MGSM (Multilingual Math General Science and Mathematics) - ocenia zdolność modeli językowych do rozwiązywania zadań matematycznych i naukowych w różnych językach.