Gemini 2 Multimodal and Spatial Awareness in Python

James Briggs 2,799 5 months ago

Video Not Working? Fix It Now

We test Google Deepmind's new Gemini 2 (gemini-flash-2.0-exp) multimodal capabilities and spatial awareness. Gemini has impressive structured output reliability as and we'll see with a few bounding box examples, very good spatial awareness — but it isn't perfect. We'll see in the near future (and with a few more videos) how Gemini compares to OpenAI's models (such as gpt-4, gpt-4o, and o1) and whether we finally have a worthy competitor to OpenAI's dominance in production level AI application. 📌 Code: https://github.com/aurelio-labs/cookbook/blob/main/gen-ai/google-ai/gemini-2/multimodal.ipynb 🌟 Build Better Agents + RAG: https://platform.aurelio.ai (use "JBMARCH2025" coupon code for $20 free credits) 👾 Discord: https://discord.gg/c5QtDB9RAP Twitter: https://twitter.com/jamescalam LinkedIn: https://www.linkedin.com/in/jamescalam/ #ai #artificialintelligence #aichatbot #python 00:00 Gemini 2 Multimodal 00:41 Gemini Focus on Agents 01:53 Running the Code 03:08 Asking Gemini to Describe Images 09:29 Gemini Image Bounding Boxes 21:06 Gemini Spatial Awareness Example 2 23:29 Gemini Spatial Awareness Example 3 26:52 Gemini Spatial Awareness Example 4 29:09 Gemini Image-to-Text 30:50 Google Gemini vs OpenAI GPTs

Comment