Google lanceert Gemini 2.0 Pro en Flash-Lite, waarmee Flash Thinking wordt verbonden met YouTube, Maps en Search

De Gemini-serie van grote taalmodellen (LLM's) van Google kende bijna een jaar geleden een moeizame start, met een aantal gênante, verkeerd gegenereerde afbeeldingen. Sindsdien is de serie echter gestaag verbeterd en het bedrijf lijkt van plan om de tweede generatie, Gemini 2.0, de grootste en beste tot nu toe te maken voor consumenten en bedrijven.

ik Aangekondigd Het bedrijf kondigde de publieke release van Gemini 2.0 Flash aan, introduceerde Gemini 2.0 Flash-Lite en bracht een bètaversie van Gemini 2.0 Pro uit.

Deze modellen, ontworpen ter ondersteuning van ontwikkelaars en bedrijven, zijn nu beschikbaar via Google AI Studio en Vertex AI, waarbij Flash-Lite beschikbaar is als openbare preview en Pro beschikbaar is voor vroege tests.

“Al deze modellen zullen bij de lancering multimedia-input met tekstuitvoer bevatten, waarbij Plus-media de komende maanden beschikbaar zal zijn voor algemeen gebruik”, schreef Koray Cavukcioglu, CTO van Google DeepMind, in de blogpost van het bedrijf waarin de aankondiging werd aangekondigd. Dit laat een voordeel zien dat Google op tafel legt, zelfs terwijl concurrenten als Diepzoeken و OpenAI Bij het lanceren van sterke concurrenten.

Google maakt gebruik van zijn multimediamogelijkheden

Noch de DeepSeek-R1, noch Het nieuwe o3-mini-model van OpenAI Accepteer multimedia-invoer, zoals afbeeldingen, geüploade bestanden of bijlagen.

Het R1-model accepteert uploads weliswaar op de website en in de mobiele chat-app, maar het gebruikt optische tekenherkenning (OCR), een technologie die al meer dan 60 jaar oud is, om alleen de tekst uit deze uploads te halen. De andere functies ervan worden niet begrepen of geanalyseerd.

Beide vertegenwoordigen echter een nieuwe klasse van ‘denk’-modellen die bewust meer tijd nemen om over antwoorden na te denken en te reflecteren op ‘gedachteketens’ en de geldigheid van hun antwoorden. Dit staat in contrast met typische grote taalmodellen zoals de Gemini 2.0 pro-serie. Gemini 2.0 vergelijken met DeepSeek-R1 en OpenAI o3 is dan ook appels met peren vergelijken.

Maar er was vandaag ook nieuws van de kant van het denken van Google: Google CEO Sundar Pichai kondigde via X-platform Over de applicatie-update Google Tweelingen Voor iOS- en Android-mobiele telefoons met Gemini 2.0 Flash Thinking. Het model kan worden gekoppeld aan Google Maps, YouTube en Google Zoeken, waardoor een hele reeks nieuwe AI-gestuurde zoekopdrachten en interacties mogelijk worden, waar concurrenten zonder deze diensten, zoals DeepSeek en OpenAI, niet aan kunnen tippen.

Terwijl ik dit artikel schreef, heb ik het kort uitgeprobeerd in de Google Gemini iOS-app op mijn iPhone. Op basis van mijn eerste onderzoek vond ik veel indruk op de app. Er waren overeenkomsten tussen de 10 meest bekeken YouTube-video's van de afgelopen maand en ik kreeg binnen enkele seconden een lijst met dokterspraktijken in de buurt en hun openingstijden.

Gemini 2.0 Flash openbare release

Het Gemini 2.0 Flash-model, aanvankelijk gelanceerd als bètaversie, is uitgegroeid tot In december, nu klaar voor productie.

Het is ontworpen voor zeer efficiënte AI-toepassingen, levert reacties met een lage latentie en ondersteunt grootschalige multimodale redeneringen.

Een van de belangrijkste voordelen ten opzichte van de concurrentie is het contextvenster, of het aantal tokens dat een gebruiker kan toevoegen aan een beloning en terug kan ontvangen in één enkele interactie met een LLM-aangedreven chatbot of API.

Hoewel veel toonaangevende modellen, zoals de nieuwe o3-mini van OpenAI die vorige week werd gelanceerd, 200000 tokens of minder ondersteunen (het equivalent van een roman van 400 tot 500 pagina's), ondersteunt Gemini 2.0 Flash XNUMX miljoen tokens. Dit betekent dat het enorme hoeveelheden informatie aankan, wat het met name geschikt maakt voor taken met een hoge frequentie en op grote schaal.

Gemini 2.0 Flash-Lite: goedkope AI-oplossingen

Gemini 2.0 Flash-Lite is een gloednieuw, groot taalmodel dat gericht is op het leveren van kosteneffectieve AI-oplossingen zonder dat dit ten koste gaat van de kwaliteit.

Google DeepMind meldt dat Flash-Lite beter presteert dan zijn voorganger op volledige grootte (meer geparametriseerd), Gemini 1.5 Flash, in externe benchmarks zoals MMLU Pro (77.6% vs. 67.3%) en Bird SQL (57.4% vs. 45.6%), terwijl dezelfde prijzen en snelheid behouden blijven.

Het ondersteunt ook multimedia-invoer en heeft een contextvenster van 1 miljoen tokens, vergelijkbaar met het volledige Flash-model.

Flash-Lite is momenteel beschikbaar als openbare preview via Google AI Studio en Vertex AI. Algemene beschikbaarheid wordt in de komende weken verwacht.

Zoals weergegeven in de onderstaande tabel, bedraagt de prijs van Gemini 2.0 Flash-Lite $0.075 per miljoen tokens (input) en $0.30 per miljoen tokens (output). Flash-Lite is een zeer betaalbare optie voor ontwikkelaars. Het presteert in de meeste benchmarks beter dan Gemini 1.5 Flash en behoudt daarbij dezelfde kostenstructuur.

Logan Kilpatrick benadrukte de kosten en waarde van de Gemini 2.0 Flash-modellen, zoals Vermeld op X-platform“De Gemini 2.0 Flash biedt de beste waarde van alle LLM-modellen, het is tijd om te bouwen!”

In feite, vergeleken met andere toonaangevende traditionele LLM-modellen die beschikbaar zijn via de provider-API, zoals OpenAI 4o-mini ($0.15/$0.6 per miljoen I/O-tokens), en Antropische Claude ($0.8/$4! per miljoen I/O-tokens) en zelfs DeepSeek's traditionele LLM V3 ($0.14/$0.28), Gemini 2.0 Flash lijkt de beste prijs-kwaliteitverhouding te bieden.

Gemini 2.0 Pro Beta arriveert met 2 miljoen pictogrammen in het contextvenster

Het Gemini 2.0 Pro (bèta)-model is nu beschikbaar voor testen, voor gebruikers die geavanceerdere AI-mogelijkheden nodig hebben.

Google DeepMind beschrijft dit model als het krachtigste model voor programmeerprestaties en de mogelijkheid om complexe prompts te verwerken. Het beschikt over een contextvenster van 2 miljoen tekens en verbeterde redeneermogelijkheden, met de mogelijkheid om externe hulpmiddelen zoals Google Zoeken en code-uitvoering te integreren.

Sam Witteveen, medeoprichter en CEO van Red Dragon AI en een externe expert op het gebied van machine learning-ontwikkeling bij Google die vaak samenwerkt met VentureBeat, besprak: Professioneel model in YouTube-recensie. “Het nieuwe Gemini 2.0 Pro-model heeft een contextvenster met 1.5 miljoen pictogrammen, ondersteunt widgets, code-uitvoering, functieaanroepen en integratie met Google Zoeken – alles wat we ook in Pro XNUMX hadden, maar dan verbeterd.”

Hij wees ook op Google's iteratieve aanpak van AI-ontwikkeling: "Een belangrijk verschil in de strategie van Google is dat het bètaversies van modellen vrijgeeft voordat ze algemeen beschikbaar zijn (GA), waardoor snelle iteratie op basis van feedback mogelijk is."

Prestatiebenchmarks onderstrepen de mogelijkheden van de Gemini 2.0-modelfamilie. Gemini 2.0 Pro presteert bijvoorbeeld beter dan Flash en Flash-Lite bij taken als redeneren, meertalig begrip en lange-contextverwerking.

AI-veiligheid en toekomstige ontwikkelingen

Naast deze updates implementeert Google DeepMind nieuwe veiligheids- en beveiligingsmaatregelen voor zijn Gemini 2.0-modellen. Het bedrijf maakt gebruik van reinforcement learning-technieken om de nauwkeurigheid van reacties te verbeteren en gebruikt kunstmatige intelligentie om de output te beoordelen en te verbeteren. Daarnaast worden geautomatiseerde beveiligingstests gebruikt om kwetsbaarheden te identificeren, waaronder bedreigingen door indirecte claiminjectie.

Google DeepMind is van plan om de mogelijkheden van de Gemini 2.0-modellenfamilie uit te breiden met aanvullende methoden die verder gaan dan tekst. Deze methoden worden naar verwachting de komende maanden algemeen beschikbaar.

Met deze updates versterkt Google zijn inzet op AI-ontwikkeling door een reeks modellen te introduceren die zijn ontworpen voor efficiëntie, betaalbaarheid en geavanceerde probleemoplossing. Daarmee reageert Google op de opkomst van DeepSeek met een eigen reeks modellen, variërend van krachtig tot zeer krachtig en van zeer betaalbaar tot iets goedkoper (maar nog steeds betaalbaar).

Zal dit voldoende zijn om Google te helpen de markt voor zakelijke AI te betreden, die voorheen werd gedomineerd door OpenAI en nu wordt gedomineerd door DeepSeek? Wij blijven het volgen en laten het u weten!

Wilt u indruk maken op uw baas? Dan is VB Daily de oplossing. Wij laten u zien wat bedrijven doen met generatieve AI, van organisatorische transformaties tot praktische implementaties, zodat u inzichten kunt delen om uw ROI te maximaliseren.