Nieuwe AI-testen tonen kloof tussen laboratoriumsucces en praktijk
Promovendus Tristan Tomilin ontwikkelde vijf nieuwe open-source benchmarkomgevingen waarmee AI-systemen worden getest op vaardigheden die in de praktijk cruciaal zijn, zoals aanpassingsvermogen, samenwerking, geheugen en veiligheid. Waar bestaande tests vaak één afgebakende taak meten, confronteren deze nieuwe simulaties AI met veranderende omstandigheden, onbekende partners en complexe risico-afwegingen. Daarbij werden onder meer omgevingen gebaseerd op de games Doom en Overcooked gebruikt om realistische scenario’s na te bootsen.
De uitkomsten zijn opvallend. AI-systemen die onder standaardomstandigheden uitstekend presteren, blijken vaak snel vast te lopen zodra de omgeving verandert. Ze vergeten eerder aangeleerde vaardigheden, nemen onveilige beslissingen of slagen er niet in effectief samen te werken met mensen of andere systemen. Tegelijkertijd ontwikkelde Tomilin een nieuwe technologie die deze tests tot honderd keer sneller uitvoert dan bestaande methoden. Daarmee wordt grootschalig AI-onderzoek toegankelijker en duurzamer. De studie onderstreept dat succesvolle laboratoriumresultaten nog geen garantie zijn voor betrouwbare toepassingen in sectoren als gezondheidszorg, robotica en autonoom vervoer. Juist het vermogen om AI onder realistische omstandigheden te testen, wordt daarmee een cruciale voorwaarde voor verdere adoptie.
Dit is een samenvatting van het volledige artikel op site TU Eindhoven.