Der neue ChatGPT-Agent von OpenAI kann interaktive Aufgaben in Ihrem Namen ausführen
Das neue Operator-Tool ist vorerst nur für ChatGPT Pro-Abonnenten verfügbar.
Stellen Sie sich einen KI-Bot vor, der Online-Formulare ausfüllen, Flüge buchen, Lebensmittel bestellen und vieles mehr kann. Das ist die Absicht des neuen Operators von OpenAI, einer KI, die als unabhängiger Agent agiert, um Ihre Befehle ganz selbstständig auszuführen.
Der Operator, der am Donnerstag als Research Preview veröffentlicht wurde, ist in der Lage, direkt mit einem Webbrowser zu interagieren. Das bedeutet, dass es auf Webseiten navigieren kann, indem es an den richtigen Stellen tippt, scrollt und klickt, genau wie Sie es selbst tun würden. Der Unterschied besteht darin, dass der Operator darauf abzielt, all dies ohne Ihr Eingreifen zu tun.
Klingt cool, aber Operator fängt langsam an.
So testen Sie ChatGPT Pro
Abgesehen von seinem anfänglichen Status als Forschungsvorschau ist das Tool jetzt nur mit ChatGPT Pro-Abonnements in den USA zugänglich, die 200 US-Dollar pro Monat kosten. Während sich die KI weiterentwickelt und aus ihren Fehlern lernt, plant OpenAI, seine Reichweite auf Plus-, Team- und Enterprise-Nutzer auszuweiten und seine Fähigkeiten schließlich direkt in ChatGPT zu integrieren.
ChatGPT Pro-Benutzer, die Operator ausprobieren möchten, sollten auf die entsprechende Webseite gehen. Stellen Sie sicher, dass Sie mit Ihrem OpenAI-Konto angemeldet sind. Geben Sie von dort aus eine Anfrage an der Eingabeaufforderung ein, wie Sie es normalerweise bei ChatGPT tun würden. Nur Sie möchten diese Anforderung so gestalten, dass der Operator aufgefordert wird, Aufgaben im Web unabhängig auszuführen.
Sie könnten beispielsweise den Betreiber bitten, eine Tour durch Rom über Tripadvisor zu finden und zu buchen, mehr Bananen und Äpfel bei Instacart zu bestellen oder Apples AirPods Pro 2 bei Amazon zu kaufen. Sie können den Bot sogar anweisen, mehrere Aufgaben gleichzeitig zu erledigen. Um den Betreiber bei der Durchführung von Aktionen mit bestimmten Anbietern und Websites zu unterstützen, arbeitet OpenAI mit Unternehmen wie DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack und Uber zusammen.
Was Sie mit Operator erwartet
So cool das alles klingen mag, es gibt sicherlich potenzielle Fallstricke und Probleme. Abhängig von der Komplexität der Aufgabe kann der Bediener auf dem Weg stecken bleiben oder einen Fehler machen. In diesem Fall wird versucht, sich selbst zu korrigieren. Wenn das nicht funktioniert, gibt das Tool die Kontrolle an Sie zurück, damit Sie eingreifen können.
Der Betreiber ist auch nicht in der Lage, vertrauliche Informationen wie Passwörter, Zahlungsdetails und CAPTCHA-Abfragen zu verarbeiten. Wenn es auf eine Website stößt, die ein Login oder eine Zahlungskarte erfordert, werden Sie aufgefordert, die Kontrolle zu übernehmen.
Darüber hinaus wird sich der Betreiber weigern, bestimmte sensible Aufgaben auszuführen, wie z. B. die Online-Einzahlung von Geld oder das Einreichen einer Bewerbung. Es wird auch um Genehmigung gebeten, bevor andere Arten von Aufgaben ausgeführt werden, z. B. das Einreichen einer Online-Bestellung oder das Senden einer E-Mail.
Datenschutz ist immer ein Problem, besonders bei KI. Um Ihre Privatsphäre besser zu schützen, können Sie sich von der Schulung abmelden, damit der Betreiber Ihre Daten nicht zum Lernen verwendet. Sie können auch alle Browserdaten löschen, sich von allen Websites abmelden und vergangene Unterhaltungen löschen, indem Sie in den Einstellungen des Betreibers zum Abschnitt Datenschutz gehen.
Sicherheit ist ein weiterer besorgniserregender Bereich. Wie wird verhindert, dass Cyberkriminelle und Hacker Operator ausnutzen und missbrauchen?
Erstens ist die KI so konzipiert, dass sie schädliche Anfragen ablehnt und verbotene Inhalte blockiert. Zweitens erkennt und ignoriert es prompte Injektionen, bei denen Hacker versuchen, bösartige Informationen zu füttern, die als legitime Anfragen getarnt sind. Drittens hält ein eingebauter Monitor Ausschau nach verdächtigem Verhalten und pausiert die Aufgabe, wenn ein solches Verhalten erkannt wird. Viertens wird OpenAI sowohl automatisierte als auch menschliche Prüfer einsetzen, um nach möglichen Bedrohungen Ausschau zu halten.
Natürlich werden wahrscheinlich auch andere Datenschutz- und Sicherheitsprobleme auftauchen, wenn sich Operator seinen Weg durch die ChatGPT Pro-Community bahnt. Das ist der Zweck, die anfängliche Verwendung auf Pro-Abonnenten zu beschränken, bevor man versucht, sie auf ein breiteres Publikum auszuweiten.
Der Bediener verwendet ein neues Modell
Um Aufgaben im Web auszuführen, verwendet der Operator ein neues Modell namens Computer-Using Agent (CUA), das die Sehfähigkeiten von GPT-4o mit fortschrittlicherem Denken kombiniert. Diese Kombination ermöglicht die Interaktion mit den Menüs, Steuerelementen und Textfeldern auf einer Webseite, ohne dass eine benutzerdefinierte API erforderlich ist.
"Der Bediener kann aufgefordert werden, eine Vielzahl von sich wiederholenden Browseraufgaben zu erledigen, wie z. B. das Ausfüllen von Formularen, das Bestellen von Lebensmitteln und sogar das Erstellen von Memes", sagte OpenAI in seiner Pressemitteilung. "Die Möglichkeit, dieselben Schnittstellen und Tools zu verwenden, mit denen Menschen täglich interagieren, erweitert den Nutzen von KI und hilft den Menschen, Zeit bei alltäglichen Aufgaben zu sparen, und eröffnet gleichzeitig neue Möglichkeiten für Unternehmen."