Ik heb de Gemini Live belichaming ervaren om de wereld te begrijpen: Schok!

Het is verontrustend om een AI op een vreemd vriendelijke toon te horen praten en mij te horen vragen de rommel op mijn werkplek op te ruimen. Ik ben er best trots op, maar ik denk dat het tijd wordt om het willekeurig verspreide gereedschap op te ruimen en de wirwar aan draden op te ruimen.

Mijn zus zou het er ook mee eens zijn. Maar in actie komen nadat de AI mijn bureau heeft ‘gezien’, de rommel heeft herkend en tips voor het huishouden heeft gegeven, is het grotere plaatje. De Gemini AI-chatbot van Google kan dat nu. En nog veel meer.

Het geheime ingrediënt is een recente functie-update genaamd Project Astra. De ontwikkeling ervan is jarenlang geweest en de uitrol ervan begon begin deze maand. Het idee is om een alziende, alhorende en openlijk intelligente AI op uw telefoon te krijgen.

Google brengt deze superkrachten op de markt onder een weinig inspirerende naam: Gemini Live met camera en schermdeling. De DeepMind-divisie van het bedrijf ontwikkelde het als een universele AI-assistent. Jammer dat de uiteindelijke naam niet ambitieus is.

Laten we beginnen met de toegangsmodus. Deze mogelijkheid is nu beschikbaar voor gebruikers. pixel 9 و Galaxy S25. Maar als u een Android-telefoon met een Gemini Advanced-abonnement hebt om de app te gebruiken, hebt u toegang tot de nieuwe toolkit.

Dat is trouwens $ 20 per maand. Ik heb het op de bovenstaande twee telefoons geprobeerd en nu werkt het ook op mijn OnePlus 13. En het allerleukste? Je hoeft daarvoor geen technische obstakels te overwinnen.

Om Gemini op te roepen, hoeft u alleen maar de aan/uit-knop en de volumeknoppen te gebruiken of over de hoek van het scherm te vegen. Ongeacht welke app u gebruikt, hebt u toegang tot een nieuwe camera en schermdeling als overlay in elke hoek van het besturingssysteem.

De wereld om je heen begrijpen

Ik richtte de camera op een schilderij en vroeg ernaar. Gemini Live kon vaststellen dat het om een schilderij in Madhubani-stijl ging. Ze konden het opvallende kleurgebruik en de afbeelding van dieren herkennen.

Vervolgens gaf hij mij een korte les over de geschiedenis en de verschillen die in de loop der jaren zijn ontstaan. De informatie was accuraat, tot op het kleinste niveau. Gelukkig kun je er ook voor kiezen om een tekstgesprek te voeren met Gemini, als je je op een plek bevindt waar telefoongesprekken ongemakkelijk kunnen zijn.

Wat ik het leukste vind aan de nieuwe camera- en schermdeelfunctie van Gemini Live, is dat het niet té druk is. Je kunt op elk moment onderbreken, wat de aantrekkingskracht van ‘natuurlijke’ gesprekken vergroot.

Ik heb Gemini in verschillende scenario's geprobeerd. Daar was ik niet op voorbereid.

De antwoorden die hij geeft, zijn meestal kort, alsof hij je de kans wil geven (of zelfs een zetje) om een vervolgvraag te stellen in plaats van een al te lang antwoord te geven. Het blinkt uit in een breed scala aan visuele thema's en scenario's, maar er zijn ook enkele valkuilen.

Google Lens is nog niet compatibel met Gemini. Dat betekent dat Gemini de afbeeldingen op uw telefoonscherm niet kan vergelijken met de resultaten op internet. Bovendien heeft het geen toegang tot realtime-informatie als u Gemini vraagt om te zoeken naar de laatste ontwikkelingen over een onderwerp of personage.

Ik vroeg hem naar plantensoorten, restaurantmenu's, gegevens van mededelingenborden en mijn recept voor een recente griepepidemie. Gemini presteerde uitstekend, beter dan alle andere AI-chatbots die ik tot nu toe heb gebruikt.

De kennisbank ontketenen: een diepgaande analyse

Daarnaast stimuleert Tweelingen je om complexe academische onderwerpen te begrijpen. Ik plaatste een boek over Machine Learning in het camerabeeld. Gemini Live herkende dit niet alleen, maar gaf mij ook een overzicht van de inhoud en de hoofdthema's van het boek. Deze vaardigheid weerspiegelt een geavanceerd begrip van Machine Learning en het vermogen om complexe informatie samen te vatten.

Nieuwsgierig bladerde ik door de pagina's en stuitte op de lijst met hoofdstukken. De AI zag de voortgang, stopte met praten en vroeg of ik geïnteresseerd was in een bepaalde les, nu ik de lijst met onderwerpen aan het bekijken was. Deze functie toont aan dat Gemini zich in real-time kan aanpassen en reageren op gebruikersinteractie. Dit maakt het een krachtig hulpmiddel voor interactief leren.

Op dat moment was ik volkomen verrast.

Ik heb de AI gevraagd om een aantal complexe onderwerpen te analyseren en dat heeft hij behoorlijk goed gedaan. Hij ging zelfs verder dan de informatie op de pagina en putte uit zijn eigen uitgebreide kennisbank.

Toen ik bijvoorbeeld vroeg naar de inhoud van de inleidende pagina van Bhisham Sahni's roman "Tamas", ving de AI terecht de verwijzing naar de Sahitya Akademi Award op. Vervolgens noemde hij details die niet eens op de pagina stonden, zoals het jaar waarin ze de prestigieuze literaire prijs won en waar de roman over gaat. Dit toont aan dat AI de context kan begrijpen en aanvullende informatie kan extraheren.

Het lezen van Hindi met Gemini Live was daarentegen verschrikkelijk. Het was niet alleen een slecht accent, Gemini sprak ook regelmatig onzin en wartaal. Toen hij probeerde Urdu, Perzisch en Arabisch te lezen, lukte dat aanzienlijk beter, maar hij haalde vaak willekeurige woorden door elkaar. Dit geeft aan dat de prestaties van Gemini per taal verschillen en dat er in sommige talen mogelijk aanzienlijke verbeteringen nodig zijn.

Bij mijn eerste poging om Urdu-poëzie te schrijven, herkende hij niet alleen de Urdu-tekst, maar gaf hij ook een nauwkeurige samenvatting van het gedicht. De grootste uitdaging was wederom het verhaal. Toen ik de Engelse versie van het Urdu hoorde, deden mijn oren echt pijn. Dit benadrukt het belang van de uitspraak en de kwaliteit van het accent voor de gebruikerservaring, vooral bij het werken met vreemde talen.

blinkt uit op onverwachte plaatsen

Kunstmatige intelligentie is een geweldig hulpmiddel bij het oplossen van problemen, en er zijn veel benchmarks die dit bewijzen. Ik heb het getest op natuurkundige problemen die verband hielden met thermodynamica, elektrochemische vergelijkingen en statistische problemen die in een handgeschreven notitieboekje stonden. Gemini Live heeft deze taken uitstekend uitgevoerd.

Zelfs in creatieve taken blonk hij uit. Mijn zus, een modeontwerpster, liet een van haar schetsen in cameraperspectief zien en vroeg om feedback en verbeteringen. Gemini Live begon met het prijzen van het ontwerp, trok vergelijkingen met de ontwerpideologieën van een aantal modemerken en deed een paar aanbevelingen. Deze aanbevelingen zijn zeer nuttig geweest bij het verbeteren van het ontwerp.

Toen AI Plus introduceerde, adviseerde hij mijn zus ook over de beste tools om handgetekende schetsen om te zetten in digitale concepten. Hij volgde deze begeleidende woorden op met nuttige informatie over het softwarepakket en waar ze instructiemateriaal konden vinden. Dit advies was van onschatbare waarde voor het stroomlijnen van het digitale ontwerpproces.

Toen ik een paar Duracell-batterijen in het gezichtsveld van de camera plaatste, werden deze niet alleen nauwkeurig herkend, maar werd ik ook geïnformeerd over lokale e-commerceplatforms die de batterijen binnen enkele minuten bij mij konden bezorgen. Deze mogelijkheid is vooral nuttig gebleken bij het identificeren van producten en hun lokale beschikbaarheid.

De diensten – Blinkit en Swiggy Instamart – zijn alleen beschikbaar in India en zijn vooral bedoeld voor stedelijke gebieden. Zelfs in een kamer met weinig licht kon het apparaat bij de eerste poging een koptelefoon met draad herkennen. Dit toont aan dat kunstmatige intelligentie objecten onder verschillende omstandigheden kan herkennen.

Zijn grootste kracht is zijn situationele bewustzijn.

Vergeleken met een gewone Gemini-chat of wat u vindt in het AI-overzichtgedeelte van Google Zoeken, hanteren Gemini Live-chats een voorzichtigere aanpak bij het verspreiden van kennis, vooral als het om gevoelige informatie gaat. Ik merk dat onderwerpen als voedingsadviezen en medische behandelingen steeds voorzichtiger worden benaderd. Gebruikers worden vaak doorverwezen naar de juiste deskundige. Deze waarschuwing weerspiegelt de focus van Google op het verstrekken van nauwkeurige en betrouwbare informatie, met name op gebieden waarvoor gespecialiseerde expertise vereist is.

Enkele bekende uitdagingen

Mijn belangrijkste conclusie is dat de transformatie van Project Astra naar Gemini zeer indrukwekkend is. Het biedt een blik op de toekomst van wat smartphones kunnen bereiken. Dankzij enkele verbeteringen, integraties en cross-app-workflows kan Google Zoeken ervoor zorgen dat u zich als een relikwie voelt. Maar er zijn momenteel een aantal flagrante gebreken.

Een paar keer merkte ik dat mijn geheugensysteem op hol sloeg. Toen de AI werd gevraagd om een fitnessband in het camerabeeld te identificeren, identificeerde deze deze correct als een Samsung Galaxy Fit 3. Maar toen ik een vervolgvraag stelde, werd het apparaat ten onrechte geïdentificeerd als een Huawei-fitnessband.

Hij kan ook ronduit liegen. En met volledig vertrouwen, mag ik wel zeggen. Toen ik bijvoorbeeld vroeg om mijn recensie van de wearable samen te vatten, antwoordde de AI dat Digital Trends deze nog niet had beoordeeld. Het artikel is overigens al een week geleden gepubliceerd.

Vervolgens vroeg ik hem om een aantal artikelen op mijn auteurspagina te bekijken, waarbij ik wel het delen van het scherm had ingeschakeld. Gemini legde de verhalen aardig uit, maar het begrip van de context liet soms te wensen over. Er werd bijvoorbeeld ten onrechte vermeld dat alleen Intel en AMD Neural Processing Units (NPU's) in aanmerking konden laten komen voor de badge. Copiloot+.

Aan de andere kant stelt het artikel duidelijk dat Qualcomm het eerste bedrijf was dat aan deze norm voldeed, vóór de concurrentie. Pas eind vorig jaar slaagden AMD en Intel er eindelijk in om de standaard voor AI-chips te bereiken met een nieuwe reeks processors.

Terwijl hij midden in een gesprek over een artikel zat, kreeg hij opnieuw last van geheugenproblemen. In plaats van het verhaal samen te vatten waar het over ging, ging hij verder met het bespreken van het eerste artikel dat hij via schermdeling had gezien. Toen ik hem midden in zijn verhaal onderbrak, corrigeerde Gemini zijn fout.

Een ander probleem dat ik opmerkte bij het vertellen van verhalen in een andere taal dan het Engels, was dat Gemini Live halverwege het vertellen willekeurig van stem en snelheid veranderde. Het was buitengewoon irritant en zijn uitspraak was compleet robotisch, compleet anders dan zijn menselijke Engelse taalvaardigheden.

Ook bij strakke lijnen ontstaan er problemen met machinevisie. Een paar keer spuwde de AI zelfverzekerd onjuiste informatie uit, en toen de AI werd gevraagd zichzelf te corrigeren, gaf hij aan dat hij niet in staat was om de meest actuele informatie over het onderwerp te vinden. Deze scenario's zijn zeldzaam, maar de fouten die Tweelingen maken, blijven bestaan.

Om het samen te vatten, denk ik dat Gemini Live met zijn camera en schermdeling een van de grootste sprongen is die AI tot nu toe heeft gemaakt. Het is een van de meest praktische en lonende toepassingen van generatieve AI tot nu toe. Het enige wat hij nodig heeft is een beetje afwisseling en een oplossing voor zijn ‘zelfverzekerde leugenaar’-syndroom.

De zaken gaan nu zeker de goede kant op, grotendeels. Maar we zijn nog een paar belangrijke mijlpalen verwijderd van het perfecte AI-platform voor techno-futuristische dromen.

Gemini