2025. január 18-án az OpenAI bemutatta az Operator nevű kutatási előzetest, amely egy új mesterséges intelligencia-modellen, a Computer-Using Agenten (CUA) alapul. Ez a rendszer képes számítógépeket vezérelni egy vizuális interfészen keresztül, az emberekhez hasonlóan kezelve a képernyőn megjelenő elemeket, például gombokat és szövegmezőket.
Az Operator a ChatGPT Pro előfizetői számára érhető el havi 200 dollárért az operator.chatgpt.com oldalon, de a jövőben várhatóan elérhető lesz a Plus, Team és Enterprise felhasználók számára is. Az OpenAI tervei között szerepel, hogy ezt a funkciót közvetlenül a ChatGPT-be integrálja, valamint API-n keresztül is elérhetővé teszi fejlesztők számára.
Hogyan működik az Operator?
Az Operator a számítógép képernyőtartalmát figyeli, képernyőképeket elemez, és ezek alapján dönt arról, hogy milyen műveleteket hajtson végre. Ezek a műveletek virtuális billentyűzet- és egérvezérléssel valósulnak meg. A CUA GPT-4o látási képességeire épít, és megerősítéses tanulást alkalmaz, hogy a képernyő pixeleit feldolgozza és megfelelő döntéseket hozzon.
Bár a rendszer leginkább ismétlődő webes feladatok elvégzésében jeleskedik – például bevásárlólisták vagy lejátszási listák készítése –, ismeretlen felületekkel, például táblázatokkal és naptárakkal már kevésbé boldogul. Az OpenAI belső tesztelései szerint az összetett szövegszerkesztési feladatok sikerességi aránya mindössze 40%.
I got early access to ChatGPT Operator.
It’s OpenAI’s new AI agent that autonomously takes action across the web on your behalf.
The 9 most impressive use cases I’ve tried (videos sped up):
1. Ordering dinner ingredients based on a picture and a recipe pic.twitter.com/tdbApPELD4
— Rowan Cheung (@rowancheung) January 23, 2025
Biztonsági és adatvédelmi aggályok
Egy olyan rendszer esetében, amely hozzáfér a számítógép képernyőtartalmához és vezérelheti azt, kiemelten fontos a biztonság és az adatvédelem. Az OpenAI számos védelmi intézkedést vezetett be: az Operator felhasználói visszaigazolást kér érzékeny műveletek – például vásárlások vagy e-mailek küldése – előtt, és korlátozott böngészési hozzáféréssel rendelkezik, bizonyos kategóriák, például szerencsejáték és felnőtt tartalmak kizárásával.
A képernyőképek feldolgozása során minden adat az OpenAI felhőszolgáltatásába kerül, ami fokozott bizalmat igényel a felhasználók részéről. Az OpenAI lehetőséget biztosít az adatok törlésére és a böngészési előzmények tisztítására, de a kritikus hangok szerint továbbra is jelentős kockázatokat rejt a rendszer.
Az Operator bemutatása egy újabb lépés az ügynökszerű AI-rendszerek fejlődése felé, de az eszköz még gyerekcipőben jár, és számos kihívással kell szembenéznie, mielőtt széles körben elterjedhetne.