DeepSeek bereidt zich voor op de volgende AI-revolutie met zelfverbeterende modellen.
Nog maar een paar maanden geleden beleefde de grote gok van Wall Street op generatieve AI een beslissend moment toen het naar voren kwam Diepzoeken In de scène. Ondanks de sterk gecontroleerde aard ervan, heeft open-source DeepSeek bewezen dat een baanbrekend inferentieel AI-model niet per se miljarden dollars hoeft te kosten en met bescheiden middelen kan worden gerealiseerd. Dit vertegenwoordigt een belangrijke verschuiving in onze inzichten in de ontwikkeling van geavanceerde AI-modellen.
Het werd al snel commercieel omarmd door giganten als Huawei, Oppo en Vivo, terwijl bedrijven als Microsoft, Alibaba en Tencent het snel een plekje op hun platforms gaven. Het volgende doelwit van het populaire Chinese bedrijf zijn zelfverbeterende AI-modellen die gebruikmaken van een lusvormige "rechter-beloning"-benadering om zichzelf te verbeteren. Deze trend weerspiegelt het voortdurende streven van bedrijven om efficiëntere en effectievere AI-systemen te ontwikkelen.
In een pre-print artikel (via BloombergOnderzoekers van DeepSeek en de Chinese Tsinghua Universiteit beschrijven een nieuwe aanpak waarmee AI-modellen op een zelfverbeterende manier slimmer en efficiënter kunnen worden gemaakt. De onderliggende techniek staat bekend als ‘self-principled critical control’ (SPCT), en deze aanpak staat technisch bekend als ‘generatief beloningsmodelleren’ (GRM). Deze aanpak vertegenwoordigt een belangrijke ontwikkeling op het gebied van reinforcement learning voor kunstmatige intelligentie.

Simpel gezegd is het vergelijkbaar met het creëren van een realtime feedbacklus. Een AI-model wordt voornamelijk verbeterd door de modelgrootte tijdens de training te vergroten. Hiervoor zijn veel menselijke arbeid en computercapaciteit nodig. DeepSeek stelt een systeem voor waarbij een primaire 'arbiter' zijn eigen reeks kritiekpunten en principes voor het AI-model bedenkt terwijl hij een antwoord voorbereidt op vragen van gebruikers. Deze aanpak is erop gericht om de afhankelijkheid van intensieve menselijke hulpbronnen in het opleidingsproces te verminderen.
Deze kritiekpunten en principes worden vervolgens vergeleken met de vastgestelde regels die de kern vormen van het AI-model en de gewenste uitkomst. Als er sprake is van een hoge mate van match, wordt er een beloningssignaal gegenereerd, wat de AI effectief aanzet tot betere prestaties in de volgende ronde. Dit voortdurende proces van evaluatie en beloning verbetert het leer- en aanpassingsvermogen van het model.
De experts erachter wijzen erop dat Onderzoekspaper Naar de volgende generatie zelfverbeterende AI-modellen genaamd DeepSeek-GRM. Uit de in het artikel opgenomen benchmarks blijkt dat deze modellen beter presteren dan Gemini van Google, Llama van Meta en GPT-4o van OpenAI. DeepSeek zegt dat deze AI-modellen van de volgende generatie via open source beschikbaar zullen worden gesteld. Deze toewijding aan openheid kan het tempo van innovatie op het gebied van AI versnellen.
Zelfverbeterende AI: is het mogelijk?

Het idee dat kunstmatige intelligentie zichzelf kan verbeteren, heeft geleid tot ambitieuze en controversiële discussies. Volgens Eric Schmidt, voormalig CEO van Google, hebben we mogelijk een ‘uitknop’ nodig voor dergelijke systemen. En het werd overgedragen Fortuin Schmidt zei: "Wanneer een systeem zichzelf kan verbeteren, moeten we serieus overwegen om het van de stroom af te halen." Zelfverbeterende AI-systemen behoren tot de belangrijkste ontwikkelingen op het gebied van AI.
Het concept van iteratief zichzelf verbeterende AI is niet geheel nieuw. Het idee van een superintelligente machine, die in staat is betere machines te maken, Opbrengst In feite, aan de wiskundige I. J. Good in 1965. In 2007 opperde de expert op het gebied van kunstmatige intelligentie Eliezer Yudkowsky de hypothese over Zaad-AI, een kunstmatige intelligentie “ontworpen voor zelfinzicht, zelfmodificatie en iteratieve zelfverbetering.”
In 2024 presenteerde het Japanse bedrijf Sakana AI details over Concept “AI World” gaat over een systeem dat in staat is om een volledige productielijn voor onderzoekspapers van begin tot eind te besturen. En in een laken In een onderzoeksrapport dat in maart van dit jaar werd gepubliceerd, onthulden Meta-experts taalmodellen die zichzelf belonen, waarbij de AI zelf als beoordelaar optreedt om beloningen toe te kennen tijdens de training. Deze stap naar zelflerende AI-systemen vertegenwoordigt een paradigmaverschuiving in de ontwikkeling van kunstmatige intelligentie.
Microsoft CEO Satya Nadella zegt dat AI-ontwikkeling wordt geoptimaliseerd door het o1-model van OpenAI en een recursieve fase is ingegaan: "We gebruiken AI om AI-tools te bouwen om betere AI te creëren." pic.twitter.com/IHuFIpQl2C
— Tsarathustra (@tsarnick) October 21, 2024
Interne tests van Meta's Llama 2 AI-model, waarbij gebruik wordt gemaakt van innovatieve, zichzelf belonende technologie, hebben aangetoond dat het beter presteert dan concurrenten zoals Claude 2 van Anthropic, Gemini Pro van Google en de GPT-4-modellen van OpenAI. Anthropic, gesteund door Amazon Verstrekte details Wat zij beloningsmanipulatie noemde, een onvoorspelbaar proces ‘waarbij het model zijn eigen beloningsmechanisme direct aanpast’.
Google loopt niet ver achter met dit idee. In een onderzoek gepubliceerd in het tijdschrift NATUUR Eerder deze maand demonstreerden experts bij Google DeepMind een AI-algoritme genaamd Dreamer dat zichzelf kan verbeteren. Ze gebruikten Minecraft als voorbeeld van een oefening.
Werken IBM-experts Ze hanteren een eigen aanpak die 'inferential closure training' wordt genoemd, waarbij een AI-model zijn eigen reacties gebruikt en deze evalueert aan de hand van trainingsdata om zichzelf te verbeteren. De hypothese is echter niet geheel positief.
Uit onderzoek blijkt dat AI-modellen die zichzelf proberen te trainen met zelfgegenereerde synthetische data, te maken krijgen met fouten die in de volksmond 'modelcrashes' worden genoemd. Het zal interessant zijn om te zien hoe DeepSeek dit idee in de praktijk brengt en of het dat op een goedkopere manier kan doen dan de westerse concurrenten.
Reacties zijn gesloten.