Llama 3.1 405B - to pełna nazwa jednej z najnowszych wersji tzw. dużego modelu językowego (LLM - large language model) od firmy Meta. LLM jest rodzajem sztucznej inteligencji. Twórca systemu informuje, że korzystanie z Llamy będzie bezpłatne.
Firma Meta, do której należy m.in. Facebook, we wtorek, 23 lipca, poinformowała o wydaniu najnowszych wersji swojego dużego modelu językowego (LLM). Jednym z najbardziej znanych LLM-ów jest Chat GPT.
Llama 3.1 ma trzy wersje - 8B, 70B i 405B. Te modele różnią się liczbą parametrów, co wpływa na ich zdolności przetwarzania języka. W kontekście AI parametry to liczby, które są używane w modelu sztucznej inteligencji do podejmowania decyzji - można je porównać do ustawień, które wpływają na to, jak AI działa i jakie wyniki daje.
Jak podaje Meta, wersja Llamy 3.1 405 B ma, zgodnie z nazwą, 405 miliardów parametrów. Czy to dużo? Dokładna liczba parametrów innego znanego LLM, czyli Chata GPT-4o nie została oficjalnie potwierdzona przez OpenAI, ale szacuje się, że może wynosić 1,76 biliona parametrów.
Chat GPT-4o jest jednak płatny, a Llama 3.1 ma być bezpłatna.
"Do dziś, otwarte modele językowe w dużej mierze ustępowały swoim zamkniętym odpowiednikom pod względem możliwości i wydajności. Teraz wprowadzamy nową erę, w której open source prowadzi. Publicznie udostępniamy Meta Llama 3.1 405B, który uważamy za największy i najbardziej zaawansowany model fundamentowy dostępny publicznie na świecie" - informuje Meta.
Spółka przekazała, że wierzy, iż "najnowsza generacja Llama zapoczątkuje nowe aplikacje i paradygmaty modelowania".
"Jako nasz największy model do tej pory, trenowanie Llama 3.1 405B na ponad 15 bilionach tokenów było ogromnym wyzwaniem" - zaznacza właściciel Facebooka. W przypadku AI token to jednostka tekstu, która może być słowem, częścią słowa lub znakiem - modele językowe AI przetwarzają tekst, dzieląc go na te jednostki, aby lepiej rozumieć i generować odpowiedzi.
Czy z Mety AI można korzystać w Polsce? Jak przekazała Ekaterina Panawa z biura prasowego Mety w odpowiedzi na pytanie RMF FM, "Llama 3.1 staje się dostępna globalnie, a więc również w Polsce".
Llama 3.1 to podstawowy model tekstowy, który jest dostępny na zasadach otwartego oprogramowania i można na nim budować własne aplikacje. Meta AI to nasz asystent AI wbudowany w nasze aplikacje, który nie jest jeszcze dostępny w UE. W krajach, w których jest dostępny, Meta AI jest zbudowany na bazie Llama 3.1. Aby rozpocząć budowanie, ludzie w Polsce mogą odwiedzić stronę https://llama.meta.com - wyjaśnia Ekaterina Panawa.
Przedstawicielka firmy Meta potwierdza, że konieczne jest pobranie Llamy 3.1, aby zacząć jej "budowanie".
"Llama 3.1 nie jest chatbotem, jest to model bazowy tekst-tekst, więc jest to technologia, na podstawie której inni mogą tworzyć własne aplikacje, rozwiązania itp." - wyjaśnia.
Firma Meta opublikowała na swojej stronie internetowej porównanie najnowszej wersji Llamy w porównaniu do innych LLM-ów, jak np. Chat GPT. Oto zestawienie (poniżej wyjaśniamy metody porównawcze).
Czym są MMLU, IFEval, HumanEval, MBPP EvalPlus, MATH, ARC Challenge, GPQA, BFCL, Nexus, ZesoSCROLLS/QuALITY, InfiniteBench/En.MC, NIH/Multi-needle, Multilingual MGSM? Wyjaśniamy to poniżej:
- MMLU (Massive Multitask Language Understanding) - kompleksowy test zaprojektowany do oceny dokładności modeli językowych AI w różnych zadaniach;
- IFEval (Instruction Following Evaluation) - ocena zdolności modeli językowych do wykonywania instrukcji w różnych zadaniach i kontekstach;
- HumanEval - ocenia zdolność modeli językowych do generowania kodu programistycznego na podstawie opisów zadań. MBPP to rozszerzona wersja tego narzędzia;
- MATH - ocenia zdolność modeli językowych do rozwiązywania problemów matematycznych na różnych poziomach trudności, od podstawowych do zaawansowanych;
- ARC Challenge (AI2 Reasoning Challenge) - składa się z pytań wielokrotnego wyboru, zaprojektowany do oceny zdolności modeli językowych do rozumienia i wnioskowania na podstawie tekstu;
- GPQA (General Purpose Question Answering) - ocenia zdolność modeli językowych do odpowiadania na szeroki zakres pytań, obejmujących różne dziedziny wiedzy;
- BFCL (Benchmark for Commonsense Language) - sprawdza zdolność modeli językowych do rozumienia i generowania odpowiedzi na pytania wymagające zdroworozsądkowego rozumienia;
- Nexus - bada zdolność modeli językowych do integracji i współpracy z innymi systemami lub komponentami w ramach złożonych zadań;
- ZesoSCROLLS/QuALITY - ocenia zdolność modeli językowych do rozumienia długich tekstów i odpowiadania na pytania na ich podstawie. "SCROLLS" odnosi się do oceny na dużą skalę zadań rozumienia tekstu, a "QuALITY" to benchmark oceniający zrozumienie opowiadań i artykułów;
- InfiniteBench/En.MC (English Multi-Choice) - bada zdolność modeli językowych do wybierania poprawnych odpowiedzi na pytania wielokrotnego wyboru w języku angielskim;
- NIH/Multi-needle - to narzędzie oceniające zdolność modeli językowych do identyfikacji i pracy z wieloma wątkami informacji, często używane w kontekście medycznym;
- Multilingual MGSM (Multilingual Math General Science and Mathematics) - ocenia zdolność modeli językowych do rozwiązywania zadań matematycznych i naukowych w różnych językach.