Türkçe Büyük Dil Modelini (LLM) sıfırdan eğitmek için kaç kitaplık metine ihtiyacımız var?

Murat Karakaya Akademi 3,013 4 months ago

Video Not Working? Fix It Now

👨‍💻Kanalımıza destek olmak ve tüm ayrıcalıklardan yararlanmak için Kanala Katılınız / Üye Olunuz: https://www.youtube.com/channel/UCrCxCxTFL2ytaDrDYrN4_eA/join Colab Notebook linki: Koda ulaşmak için AI SAGE üyesi olunuz. -----------------------------------------------İLGİLİ BAĞLANTILAR-------------------------------------------- Tüm Eğitimler için: muratkarakaya.net Yapay Zeka Ajanları: https://www.youtube.com/playlist?list=PLQflnv_s49v979pr2n4Wf18Gdrdi6Si4j Yapay Zeka Gömülü Yazılım Geliştirme: https://www.youtube.com/playlist?list=PLQflnv_s49v8zgCuTzgaDL1UpelIeT1NE Yapay Zeka Destekli Yazılım Geliştirme: https://www.youtube.com/playlist?list=PLQflnv_s49v_5XP2W1xnAR-UDjRvb-Zux Açık Kaynak Büyük Dil Modelleri: https://www.youtube.com/playlist?list=PLQflnv_s49v9OEsMNLlcZaTKZeXgIURpl Türkçe benchmark testi: https://github.com/kmkarakaya/Deep-Learning-Tutorials/blob/9cefde174db8111c500ce05d1d122d9ae1a35d53/t%C3%BCrk%C3%A7e%20benchmark.docx ChatGPT hakkında herşey: https://www.youtube.com/playlist?list=PLQflnv_s49v-Gb93fe5uen7-CVNgnAIUt Tüm Türkçe eğitimler: https://www.youtube.com/c/MuratKarakayaAkademi/playlists?view=50&sort=dd&shelf_id=2 Herkes için Yapay Zeka içerikleri: https://www.youtube.com/playlist?list=PLQflnv_s49v9_ayw4Ll89OoOHH25tVF3b Google Büyük Dil Modelleri GEMINI: https://www.youtube.com/playlist?list=PLQflnv_s49v9FAJoSBniUYu3eSQPI33ey Erişim Destekli Metin Üretimi (RAG): https://www.youtube.com/playlist?list=PLQflnv_s49v_nrk7iGYqw5iRAKrSZPnnV Yapay Zeka Ajanları: https://www.youtube.com/playlist?list=PLQflnv_s49v979pr2n4Wf18Gdrdi6Si4j ------------------------------------------------- EĞİTİM İÇERİĞİ ------------------------------------------------- Türkçe Büyük Dil Modelini (LLM) sıfırdan eğitmek için kaç kitaplık metine ihtiyacımız var? Bu kapsamlı eğitimde, Türkçe Büyük Dil Modeli'ni (LLM) eğitmek için ne kadar veri gerektiğini (kitap cinsinden) detaylı bir şekilde ele alıyorum. Bir Türkçe LLM'yi önceden eğitmek için kaç kitaplık veri gerektiğini hiç merak ettiniz mi? Bu videoda, veri kümesi boyutlarını, token sayılarını ve yalnızca Türkçe için kaliteli bir model geliştirme sürecinin zorluklarını keşfedeceğiz. Videoda ele alınan başlıklar: 📚 Temel Konular: 👨‍💻 Açık Kaynak LLM'lerin Veri Seti Büyüklükleri: Llama 3.1, Llama 3.2, QWEN ve GEMMA gibi modeller ne kadar veri kullanıyor? Bu modellerin trilyonlarca token’a ihtiyaç duyduğunu öğrenin. 👨‍💻 Bir Kitaptaki Ortalama Token Sayısı: Tipik bir kitabın kaç token sağlayabileceğini öğrenin. Mustafa Kemal Atatürk'ün Nutuk'u, Türk Aile Ansiklopedisi gibi örnekler üzerinden Türkçe kitaplarda kaç token olduğunu hesaplıyoruz. 👨‍💻 8B Parametreli Bir Modelin Eğitimi İçin Gerekli Veri: Sadece Türkçe metinler kullanılarak, 4-6 trilyon token ile bir modelin nasıl eğitildiğini matematiksel olarak ele alıyoruz. Spoiler: Çok fazla kitap gerekiyor! 👨‍💻 Milli Kütüphane Verisi & Web Kaynakları: Türkiye Milli Kütüphanesi'nde kaç kitap var ve bu kitaplar Türkçe metinlerin tokenize edilmesine nasıl katkıda bulunuyor? Ayrıca Türk web sitelerinin ek bir veri kaynağı olarak potansiyelini keşfediyoruz. 👨‍💻 Eğitim Verisi ve Tokenizasyon Örnekleri: GEMMA, QWEN ve Llama modelleri nasıl devasa veri setleri ile eğitiliyor ve Türkçe bağlamına nasıl uyarlanıyor? Gerçek dünya örnekleriyle inceleyin. 👨‍💻Sonuç: Llama 3.2 ve QWEN modellerinin kullandığı yöntemlerden yola çıkarak, yüksek kaliteli model ince ayarları için sentetik veriler ve insan üretimi verilerin nasıl kullanılabileceğine dair fikirler paylaşıyoruz. Bu video, Türkçe LLM eğitimi için gerekli olan teknik gereksinimleri detaylı bir şekilde ele almanın yanı sıra, farklı diller ve veri setleriyle LLM geliştirme sürecini aydınlatıyor. 🔑 İlginç Gerçekler: Biliyor muydunuz? 8B parametreli bir Türkçe LLM eğitimi için yaklaşık 10 milyon kitap gerekiyor, çünkü 6 trilyon token şart! 😲 Ayrıca, bu veri açığını kapatmak ve model geliştirmeyi hızlandırmak için web verilerinin nasıl kullanılabileceğini de tartışıyoruz. 👨‍💻 Bu videoyu izleyin eğer: Türkçe dil modeli geliştirmek veya katkıda bulunmak istiyorsanız, Büyük veri setlerinin LLM eğitimi üzerindeki etkisini anlamak istiyorsanız, Tokenlar, veri kalitesi ve önceden eğitim boyutunun AI modellerinin performansını nasıl etkilediğini öğrenmek istiyorsanız. 📌 Daha fazla yapay zeka ve makine öğrenimi eğitimi için kanalıma abone olmayı unutmayın! Bu videoyu faydalı bulduysanız, beğenmeyi 👍, yorum bırakmayı 💬 ve yapay zeka ile ilgilenen arkadaşlarınızla paylaşmayı unutmayın! 🎯 Daha fazla AI içeriği için abone ol: #TürkçeLLM #LLMEğitimi #VeriSetiBoyutları #Tokenizasyon #TürkçeDilModeli #MuratKarakayaAkademi #YapayZeka #MakineÖğrenmesi #DerinÖğrenme

Comment