Fine-tuning LLM: fakty i mity

DataWorkshop 22,705 lượt xem 7 months ago

Video Not Working? Fix It Now

Zastanawiasz się, jak powstają modele AI, takie jak ChatGPT? Wiesz, że trening takiego modelu może kosztować tyle, co luksusowy apartament w Warszawie? A ile to zajmuje czasu? W 123. odcinku podcastu "Biznes Myśli" odkrywamy tajniki fine-tuningu modeli LLM! Naszym gościem jest Remigiusz Kinas, ekspert AI z projektu SpeakLeash. Rozmawiamy o faktach i mitach treningu modeli językowych.

🔔 Subskrybuj i włącz powiadomienia - Twoja droga do praktycznego AI/ML zaczyna się od jednego kliknięcia: https://www.youtube.com/@DataWorkshop?sub_confirmation=1
👍 Zostaw like, bo więcej lajków = więcej praktycznych treści dla Ciebie!
💬 Co o tym myślisz? Zostaw komentarz! Masz pytanie? Zadaj je - chętnie odpowiem.
🤝 Poznajmy się lepiej! Zaproś mnie do swojej sieci na LinkedIn: https://www.linkedin.com/in/vladimiralekseichenko/
🔊 Zainicjuj rozmowę o ML w firmie, polecając ten podcast. Zainspiruj zespół do wdrażania ML!

Partnerem podcastu jest DataWorkshop.

W tym odcinku koncentrujemy się na wyjaśnieniu kluczowych etapów trenowania modeli LLM, takich jak pre-training, fine-tuning oraz alignment, oraz na omówieniu ich zastosowań i wyzwań.

Dowiesz się:
Jak wygląda proces trenowania dużych modeli językowych od podstaw?
Czym jest fine-tuning i kiedy warto go stosować?
Jakie są kluczowe etapy tworzenia modeli AI i dlaczego dane są tak ważne?
Jakie superkomputery są używane do trenowania AI i ile to kosztuje?
Jak wygląda praca nad polskim modelem językowym Bielik 2.0?

Chcesz więcej? Zajrzyj do moich kursów online i ucz się ML i analizy danych w praktyce!
👉 DS/ML od podstaw - https://dataworkshop.eu/pl/practical-machine-learning
👉 Python - https://dataworkshop.eu/pl/intro-python
👉 Statystyka - https://dataworkshop.eu/statistics
👉 SQL - https://dataworkshop.eu/pl/sql
👉 Time Series - https://dataworkshop.eu/pl/time-series
👉 NLP - https://dataworkshop.eu/pl/nlp

🕒 Najważniejsze fragmenty:
00:01:52 - Remigiusz Kinas przedstawia się i opowiada o swoim doświadczeniu z ML/AI
00:08:57 - Wyjaśnienie czym jest fine-tuning modeli na przykładzie Computer Vision
00:14:23 - Omówienie różnych rodzajów modeli językowych (pre-trained, instruct, fine-tuned)
00:30:00 - Czym jest T? Trilion czy bilion?
00:31:05 - Ile danych potrzebujemy?
00:43:53 - Cyfronet Helios, czyli na czym był trenowany Bielik?
00:47:15 - Ile kart GPU ma Meta (Facebook)?
00:27:34 - Dlaczego dane są najważniejsze w procesie trenowania modeli AI
00:53:00 - Ile kosztuje wytrenować model LLM?
00:58:32 - Czy warto robić fine-tuning?
01:09:07 - Co nowego w Bieliku 2?
01:24:42 - Podsumowanie

Linki:
https://biznesmysli.pl/fine-tuning-llm-fakty-i-mity/
https://ai.meta.com/blog/meta-llama-3/
https://opencsg.com/datasets/AIWizards/Alpaca-CoT
https://top500.org/lists/green500/list/2024/06/
https://github.com/meta-llama/llama/blob/main/MODEL_CARD.md
https://github.com/NVIDIA/Megatron-LM
https://github.com/hiyouga/LLaMA-Factory
https://arxiv.org/pdf/2406.06608
https://github.com/vllm-project/vllm

W podcaście omówiono:

Rodzaje modeli LLM:
- Model bazowy (pre-trained): Posiada ogromną wiedzę, ale nie potrafi prowadzić konwersacji - służy do przewidywania następnego słowa.
- Model instrukcyjny (instruct): Potrafi wykonywać polecenia i prowadzić konwersacje. Powstaje poprzez fine-tuning modelu bazowego.
- Model po alignmencie: Model instrukcyjny dodatkowo "wygładzony" i dostosowany do preferowanego stylu konwersacji.

Fazy trenowania modelu:
- Pre-training: Najważniejsza faza, w której model nabywa wiedzę. Wymaga ogromnych zbiorów danych i jest bardzo kosztowna (rzędu setek tysięcy dolarów).
- Fine-tuning: Dostrajanie modelu do konkretnych zadań. Wymaga mniejszych zbiorów danych i jest tańszy od pre-trainu.
- Alignment: Dopasowanie stylu i sposobu odpowiedzi modelu. Wymaga najmniej danych i jest najtańszy.

Dane:
- Pre-training: Dane tekstowe w ogromnej ilości (terabajty), im więcej, tym lepiej. Ważna jest jakość danych.
- Fine-tuning: Instrukcje dla modelu (polecenia i przykładowe odpowiedzi) w ilości od tysięcy do milionów.
- Alignment: Pary odpowiedzi (preferowana i odrzucona) w ilości kilku tysięcy.

Koszty:
- Pre-training: Bardzo wysokie, porównywalne z ceną mieszkania w Warszawie.
- Fine-tuning: Znacznie niższe od pre-trainu.
- Alignment: Niskie, możliwe do przeprowadzenia na lokalnej maszynie.

🎧 Słuchaj BM wygodnie na Spotify, Apple Podcasts lub Google Podcasts:
📌 https://open.spotify.com/show/3ZUaHommHHZU6b4WJiyV2I
📌 https://podcasts.apple.com/us/podcast/biznes-myśli/id1215290277
📌 https://music.youtube.com/playlist?list=PLWOCRT27Z94XZzwcRI9-ExMyUXeBrF3W_

#ai #genai #llm #podcast #machinelearning #datascience #finetuning #bielik

Comment