OpenAI staat op het punt om "Operator" te lanceren: een AI-tool die een pc kan bedienen

OpenAI lijkt dicht bij de lancering van Operator, een baanbrekende AI-agent die een computer kan bedienen en taken autonoom kan uitvoeren. Volgens Tibor Blaho, een software-ingenieur die bekend staat om zijn betrouwbare onthullingen over nieuwe AI-producten, zijn er duidelijke aanwijzingen dat dit langverwachte project realiteit wordt.

2025-01-21Comment

Eerder werd Operator al besproken door publicaties zoals Bloomberg, waarbij het werd omschreven als een “agentisch” systeem dat taken zoals het schrijven van code en het boeken van reizen kan uitvoeren. Nieuwe informatie, afkomstig van OpenAI’s website en software, wijst op een mogelijke lancering in januari.

Verborgen functies al aanwezig

Blaho ontdekte dat de macOS-client van ChatGPT al verborgen opties bevat om “Operator in te schakelen” en om “Operator geforceerd af te sluiten”. Daarnaast zijn er verwijzingen naar Operator gevonden op de website van OpenAI, samen met tabellen die de prestaties van Operator vergelijken met die van andere AI-systemen.

De eerste benchmarks laten zien dat Operator veel potentie heeft, maar ook nog verbeterd kan worden. Zo blijkt:

Op OSWorld, een benchmark die een realistische computeromgeving simuleert, scoort de “Computer Use Agent” (CUA) van OpenAI 38,1%, beter dan de AI-agent van Anthropic, maar nog ver onder het menselijk gemiddelde van 72,4%.
Bij WebVoyager, een test voor navigatie en interactie op websites, presteert Operator beter dan mensen, maar op WebArena, een andere webgerichte benchmark, blijft de tool achter.

Technische beperkingen

Ondanks de vooruitgang heeft Operator nog moeite met taken die voor mensen relatief eenvoudig zijn. In een test waarin Operator zich moest registreren bij een cloudprovider en een virtuele machine moest starten, was het succespercentage slechts 60%. Voor de creatie van een Bitcoin-wallet slaagde Operator slechts 10% van de keren. Deze resultaten tonen aan dat AI-agents nog niet klaar zijn om menselijke gebruikers volledig te vervangen.

Een veelbelovende maar risicovolle markt

De komst van Operator valt samen met een periode waarin grote techbedrijven – zoals Google, Anthropic en anderen – fors investeren in AI-agents. Volgens het onderzoeksbureau Markets and Markets zou de markt voor AI-agents tegen 2030 een waarde van 47,1 miljard dollar kunnen bereiken.

Toch blijven er risico’s, vooral op het gebied van veiligheid. Uit de gelekte informatie blijkt dat Operator streng is getest om ongewenst gedrag, zoals het uitvoeren van illegale activiteiten of het verzamelen van gevoelige persoonlijke gegevens, te voorkomen. Dit sterke accent op veiligheid kan de lange ontwikkeltijd van Operator verklaren.

OpenAI wordt echter ook bekritiseerd door sommige onderzoekers, waaronder voormalige medewerkers, die het bedrijf verwijten de nadruk te leggen op snelle commercialisering in plaats van op veiligheid. Deze controverse werd versterkt door OpenAI-medeoprichter Wojciech Zaremba, die Anthropic onlangs bekritiseerde voor het uitbrengen van een AI-agent zonder voldoende veiligheidsmaatregelen.

Een mogelijke impact op de toekomst van werk en digitale tools

Als Operator zijn volledige potentieel weet te bereiken, kan dit de manier waarop professionals hun computers gebruiken drastisch veranderen. Door complexe en repetitieve taken te automatiseren, kan de productiviteit aanzienlijk toenemen en kunnen digitale tools opnieuw worden gedefinieerd in sectoren zoals softwareontwikkeling, marketing en projectbeheer.

Tegelijkertijd brengen deze ontwikkelingen risico’s met zich mee op het gebied van betrouwbaarheid en ethiek. Een snelle invoering van onvoldoende geteste AI-agents kan leiden tot misbruik of ernstige storingen. De inspanningen van OpenAI om Operator veilig en betrouwbaar te maken, zullen daarom cruciaal zijn om het vertrouwen van gebruikers en toezichthouders te winnen.

Operator is een ambitieuze stap richting de toekomst van autonome digitale tools. Hoewel er nog uitdagingen zijn, kan dit project de standaard zetten voor een nieuw tijdperk van professionele AI-oplossingen.