Website-Suche

Ich habe den Assistenten von Perplexity ausprobiert, und nur eine Sache hindert ihn daran, meine Standard-Telefon-KI zu sein


Der Bediener nutzt KI, um grundlegende Browseraufgaben wie Reservierungen und Bestellungen auszuführen. Aber bietet dieses Tool genug Tiefe, um seine Kosten und seinen Hype zu rechtfertigen?

Diese Woche stellt OpenAI eine Forschungsvorschau mit dem Namen Operator vor. Ursprünglich wollte ich ein Hands-on machen, aber als ich herausfand, dass man ein Pro-Konto braucht (das 200 US-Dollar pro Monat kostet), beschloss ich, mir die verschiedenen OpenAI-Demos anzusehen, sie mit Ihnen zu teilen und dann meine Gedanken zu teilen. Altman sagte, dass Benutzer des Plus-Plans für 20 US-Dollar pro Monat schließlich in der Lage sein würden, Operator zu nutzen.

Der Operator ist ein KI-Agent. Grundsätzlich simuliert es Tastatur- und Mausklicks in einem Browser, das Lesen des Bildschirms und das Ausführen von Aktionen.

Ich habe eine ziemlich lange Geschichte in der Entwicklung dieser Art von App, wobei ich hauptsächlich algorithmische Programmierung zusammen mit ein wenig maschinellem Lernen verwende, um die Position bestimmter Bilder auf dem Bildschirm zu identifizieren.

Mein letztes Projekt war ein Auto-Posting-Tool, das meine Social-Media-Posts für mich erstellt. Ja, es gibt eine Vielzahl von Abonnementdiensten, die das für Sie erledigen, aber ich habe beschlossen, zu sehen, was es braucht, um mein eigenes zu erstellen.

Mein Code verwendete eine Kombination aus dem DOM (Document Object Model) für einzelne Seiten von Social-Media-Diensten und Bilderkennungen, die Schaltflächen (wie die Schaltflächen + oder Posten) finden konnten. Ich habe das Tool, das ich entwickelt habe, ungefähr ein Jahr lang verwendet, bin aber auf einen sehr ärgerlichen Haken gestoßen.

Etwa alle zwei Wochen nahm eine der sechs Websites, auf denen ich navigierte, eine kleine Änderung an der Bildschirmoberfläche vor, die dazu führte, dass mein Code beschädigt wurde. Anstatt meine Social-Media-Posts normal zu posten, musste ich also alle zwei Wochen ein paar Stunden damit verbringen, das zu reparieren, was kaputt gegangen war.

Die Tatsache, dass sich das Web ständig verändert (z. B. kann sich ein blauer "Post"-Button während einer Werbeaktion in einen roten "Post/Abonnieren mit 30% Rabatt"-Button verwandeln) könnte die KI aus dem Spiel bringen.

Computer-verwendender Agent

Das Modell, das OpenAI verwendet, heißt CUA oder Computing-Using Agent. Dieses Modell gibt vor, wie der Betreiber mit den Websites kommuniziert, auf denen er navigieren soll.

In ihrem Einführungsvideo erklärten Sam Altman und die OpenAI-Teammitglieder Yash Kumar, Casey Chu und Reiichiro Nakano, dass Operator keine APIs verwendet und nicht mit extrahiertem Text arbeitet, der aus dem DOM gezogen wird. Stattdessen wird eine tatsächliche Webseite in einem Live-Browser "angezeigt", der in der Cloud ausgeführt wird, und der Kontext direkt vom Bildschirm gelesen.

Sie machten deutlich, dass der Steuerungsmechanismus für die Webseiten eine Maus- und Tastatursimulation ist, und die Eingabe, die die KI liest, ist die visuelle Darstellung der tatsächlichen Webseite, die wir als Menschen sehen.

Das OpenAI-Team sagte, dass Operator genau wie ein Mensch mit einem Webbrowser funktionieren wird – er sucht, klickt und besucht Websites. Aber es gibt einen Widerspruch, den ich noch nicht vollständig herausgefunden habe, nämlich dass OpenAI mit einer Reihe von Websites (Instacart, DoorDash, Etsy, OpenTable, Tripadvisor, AP, Priceline, StubHub, Thumbtack, Target, Uber und mehr) zusammengearbeitet hat.

Was bedeuten diese Partnerschaften für Operator? Handelt es sich um Affiliate-Deals, bei denen OpenAI einen Kickback auf alle Verkäufe erhält? Haben sie eine Vereinbarung, den Betreiber darüber zu informieren, wenn sich das Format der Website geändert hat? Hat OpenAI zusätzliche Modellierungen für diese Websites durchgeführt? Verfügt es über ein gewisses Maß an API-Zugriff auf die Daten, die diese Websites im Web anzeigen?

Solange wir diese Antworten nicht besser verstanden haben, werden wir den Umfang dessen, was der Operator tun kann, nicht wirklich kennen. Alle gezeigten Demos wurden von Websites durchgeführt, mit denen das Unternehmen zusammengearbeitet hat, so dass es zum Beispiel nicht klar ist, ob es in ZDNET gehen und eine Liste meiner letzten 10 Artikel erstellen und mir diese über Google Mail per E-Mail zusenden könnte.

Im Moment habe ich den Eindruck, dass der Operator ziemlich oberflächlich ist, was er leisten kann. Bei dieser Demo war es beispielsweise möglich, ein Rezept auf einer Website nachzuschlagen und dann einen Instacart-Warenkorb mit der Zutatenliste zu füllen.

Es gab Demos, die zeigten, wie man eine Restaurantreservierung machte, Tickets für ein Basketballspiel kaufte und so weiter. Bei jedem dieser Prozesse handelte es sich um ein oder zwei Standortprozesse, bei denen Daten auf einer Website gefunden und dann auf eine andere angewendet wurden.

Leitplanken und Privatsphäre

OpenAI scheint sich ernsthaft mit Fragen des Datenschutzes und der Leitplanken auseinandergesetzt zu haben. Eine Demo zeigte zum Beispiel die Buchung von vier Basketball-Tickets für insgesamt mehr als 1.000 US-Dollar. Es ist unwahrscheinlich, dass sich irgendjemand von uns wohl dabei fühlen würde, die KI einfach weitermachen zu lassen und diese Art von Geld unbeaufsichtigt in unserem Namen auszugeben.

Der Bediener weiß, wann er eine Pause einlegen und um menschliches Eingreifen bitten muss. Oder zumindest soll es das. Es befindet sich noch in der Beta-Phase, daher ist es möglich, dass es Amok läuft, nur weil es noch nicht ganz fertig ist.

Aber die Schlüsselidee ist einfach: Wenn die Vorgänge auf einer Website kurz davor stehen, sensibel zu werden (Anmelden, Geld ausgeben, Reservierungen vornehmen, auschecken usw.), bittet der Betreiber seinen Mitarbeiter, den Vorgang zu bestätigen.

Darüber hinaus kann der menschliche Benutzer die Kontrolle über das Cloud-basierte Browserfenster übernehmen. Laut OpenAI verhält sich der Mensch, wenn er den Browser steuert, wie eine private Sitzung, und nichts, was stattfindet, während der Mensch die Kontrolle hat, wird an die KI zurückgespielt.

Sie können auch deaktivieren, dass Ihre Website-Interaktionen als Trainingsdaten für die KI verwendet werden.

Site-spezifische benutzerdefinierte Anweisungen

Mit Operator können Sie standortspezifische benutzerdefinierte Anweisungen für jede einzelne Website erstellen.

Im obigen Beispiel, das aus dem folgenden Video entnommen ist, möchte der Demonstrator sicherstellen, dass Buchungen bei Priceline vollständig erstattungsfähig sind und ein kostenloses Frühstück angeboten wird. Indem er diese benutzerdefinierte Anweisung in die Einstellungen der Website einfügt, wird der KI-Agent dies immer berücksichtigen, wenn er eine Aufgabe auf Priceline ausführt.

Darüber hinaus können Sie mit Operator eine Aufgabe speichern, damit Sie sie erneut ausführen oder später planen können.

Wenn Sie eine regelmäßige Aktivität haben, die der Operator für Sie ausführen soll, ist dies eine schnelle Möglichkeit, um sicherzustellen, dass Sie Ihre Arbeit jederzeit erneut ausführen können.

Kleine Schritte

Der Bediener fühlt sich für mich zu diesem Zeitpunkt sehr wie Babyschritte an. Zum Beispiel würde ich gerne einer KI sagen, dass sie meinen Posteingang durchsuchen, alle Pressemitteilungen finden und sie einem Label zuweisen soll (ich verwende Gmail). Oder finden Sie alle KI-bezogenen Pressemitteilungen und geben Sie ihnen ein Label, während der Rest der Pressemitteilungen ein anderes erhält.

Dies ist sowohl eine komplexe Aufgabe als auch eine, die eine ziemlich lange Laufzeit hat (ich habe 51.000 Marketingartikel in meinem Promotions-Tab). Als solches geht es weit über den Rahmen dessen hinaus, was der Operator tun kann.

Aber irgendwann? Vielleicht.

Ich versuche auch, die Science-Fiction-Horror-Interpretation von all dem zu vermeiden. Da ist ein kleiner Teil meines Gehirns, der schreit: "Sie lassen die KI im Internet surfen? Sind sie verrückt?"

Und ja, Tools wie Operator (und sogar alle KIs, die im Internet insgesamt trainiert werden) öffnen wahrscheinlich Türen zu einigen wirklich schlimmen Dingen, vor allem, wenn wir jemals empfindungsfähige KIs erschaffen. Aber im Moment ist es eine interessante Übung zu sehen, wie gut es einer KI gelingt, ein Rezept zu lesen und die Zutaten bei Instacart zu bestellen.

Was denkst du? Wenn der Preis auf den Bereich von 20 US-Dollar pro Monat sinkt, sehen Sie Aufgaben, die Sie dem Operator zuweisen könnten? Beunruhigt Sie das? Teilen Sie uns Ihre Gedanken in den Kommentaren unten mit.

Verwandte Artikel