AI M2-hoofdtelefoon: directe vertaling voor meerdere luidsprekers

Draadloze oordopjes hebben altijd al voordelen geboden Pixel Buds Van Google-functie Directe vertaling verbazingwekkend. De afgelopen jaren hebben merken als Timkettle vergelijkbare oordopjes voor zakelijke klanten aangeboden. Al deze oplossingen kunnen echter slechts één audiostream tegelijk verwerken voor vertaling.

Onderzoekers van de Universiteit van Washington (UW) hebben iets werkelijk opmerkelijks ontwikkeld: een hoofdtelefoon met kunstmatige intelligentie (AI) die de stemmen van meerdere sprekers tegelijk kan vertalen. Stel je voor dat je een meertalige persoon bent in een drukke bar en dat je de gesprekken van de mensen om je heen, die allemaal verschillende talen spreken, tegelijkertijd kunt verstaan. Deze innovatie is een enorme stap voorwaarts in de technologie voor simultaan vertalen.

Het team noemt hun innovatie 'Spatial Speech Translation' en maakt hiervoor gebruik van binaurale hoofdtelefoons. Voor degenen die er niet mee bekend zijn: binaurale audiotechnologie probeert geluidseffecten exact zo te simuleren als het menselijk oor ze van nature hoort. Om het geluid op te nemen, worden microfoons op het hoofd van een pop geplaatst, met aan beide kanten een afstand van elkaar die gelijk is aan de menselijke oren. Deze technologie is gebaseerd op het opnemen van audio van twee verschillende bronnen om een 3D-luisterervaring te creëren.

Deze aanpak is van cruciaal belang, omdat onze oren niet alleen geluid horen, maar ons ook helpen de richting van de bron ervan te bepalen. Het hoofddoel is om een natuurlijk geluidsbeeld te creëren met een stereo-effect dat een levendig, concert-achtig gevoel kan creëren. Of, in de moderne context, ruimtelijk luisteren. Deze technologie verbetert de gebruikerservaring door realistisch surroundgeluid te leveren.

Dit werk is te danken aan een team onder leiding van professor Shyam Gollakota, die onder andere toepassingen heeft ontwikkeld voor het plaatsen van onderwater-gps op smartwatches, het transformeren van kevers in fotografen, hersenimplantaten die kunnen communiceren met elektronische apparaten, een mobiele app die infecties kan horen, en Plus. Deze prestaties onderstrepen professor Gollakota's expertise op het gebied van innovatieve technologie.

Hoe werkt vertaling door meerdere sprekers?

"Voor het eerst hebben we de stem van elke persoon en de richting waar hij of zij vandaan kwam bewaard", legt Golkota uit, momenteel hoogleraar aan de Paul G. Allen School of Computer Science and Engineering van het instituut.

Het team vergelijkt hun technologie met radar. Die begint met het identificeren van het aantal luidsprekers in de omgeving en werkt dat aantal in realtime bij naarmate mensen binnen en buiten het luisterbereik komen. Deze aanpak is volledig apparaatgebaseerd en houdt niet in dat de spraakstromen van gebruikers naar een cloudserver worden gestuurd voor vertaling. Oh, privacy!

Naast het vertalen van toespraken, onderhoudt de groep ook ‘de expressieve kwaliteiten en het volume van de stem van elke spreker’. Bovendien worden de richting en het volume aangepast terwijl de luidspreker door de kamer beweegt. Interessant genoeg zou Apple ook bezig zijn met de ontwikkeling van Een systeem waarmee AirPods spraak kunnen vertalen live.

Hoe wordt directe vertaling bereikt met kunstmatige intelligentie?

Het team van de Universiteit van Washington (UW) testte de vertaalmogelijkheden van op AI gebaseerde slimme hoofdtelefoons op bijna een dozijn binnen- en buitenlocaties. Wat de prestaties betreft, kan het systeem de vertaalde audio binnen 12 tot 2 seconden ontvangen, verwerken en produceren. Testdeelnemers lijken de voorkeur te geven aan een vertraging van 4-3 seconden, maar het team werkt eraan om het vertaalproces te versnellen.

Tot nu toe heeft het team alleen vertalingen voor het Spaans, Duits en Frans getest, maar ze hopen Plus aan de suite toe te voegen. Technisch gezien hebben ze blinde bronscheiding, lokalisatie, realtime expressieve vertaling en binaurale weergave in één stream gecondenseerd, een zeer indrukwekkende prestatie. Deze integratie van geavanceerde technologieën vertegenwoordigt een enorme sprong voorwaarts op het gebied van simultaan vertalen.

Voor het systeem ontwikkelde het team een spraakvertaalmodel dat in realtime op de Apple M2-chip kan draaien en zo realtime-inferentie kan opleveren. Voor de audio-opnames waren een Sony WH-1000XM4 noise-cancelling hoofdtelefoon en een Sonic Presence SP15C binaurale USB-microfoon vereist.

En dit is het leukste gedeelte. "De proof-of-concept machinecode is beschikbaar voor anderen om op voort te bouwen", aldus het persbericht van de stichting. Dit betekent dat de wetenschappelijke gemeenschap en de open source softwaregemeenschap kunnen leren van en voortbouwen op geavanceerdere projecten die gebaseerd zijn op de fundamenten die door het UW-team zijn gelegd. Dit opent de deur voor toekomstige ontwikkelingen in vertaaltechnologie met behulp van kunstmatige intelligentie.