OpenAI hat den Operator eingeführt, einen AI -ausgerüsteten Agenten, der verschiedene Aufgaben von Benutzern mit einem einzigartigen Browser ausführen kann. Der Bediener wird für US -Pro -Benutzer als Forschungsvorschau bereitgestellt, und die Fähigkeit der KI, wiederholte und zeitliche Browseraufgaben unabhängig zu verarbeiten, hat einen Schritt fortgesetzt.
Der Bediener nutzt das neue Modell, das Computer-Us-Agent (CUA), das die GPT-4O-Vision-Funktion und die erweiterte Inferenz durch verbessertes Lernen kombiniert. Auf diese Weise können Agenten in der Lage sein, mit grafischen Benutzeroberflächen (GUI) wie Schaltflächen, Menüs und Textfeldern zu interagieren und im Grunde nach, wie Menschen mit ihren Browsern interagieren.
Aufgaben, die von den Betreibern ausgeführt werden können, umfassen die Eingabe des Formulars, das Bestellkorientier und das Erstellen eines MOME. Der Betreiber erweitert die Nützlichkeit von KI bei täglichen Aktivitäten und Geschäftsarbeitsabläufen, indem sie durch die Website, Eingabe, Klicken, Scrollen und andere Aktionen navigiert.
„Der Betreiber ist einer unserer ersten Agenten, KI, die im Namen der Benutzer unabhängig Arbeiten ausführen können. Wenn der Benutzer eine Aufgabe gibt, wird sie ausgeführt“, sagte Openai in der Veröffentlichung. Die Einführung dieses Tools besteht darin, die Zeit der Benutzer zu sparen und gleichzeitig Unternehmen neue Möglichkeiten zu eröffnen, um das Engagement und die Effizienz zu verbessern.
Der Bediener soll über Screenshots und „Dialog“ unter Verwendung von Maus- und Tastaturoperationen „bestätigen“. Wenn Sie ein Problem haben oder ein Fehler auftritt, können Sie die Argumentationsfunktion verwenden, um sich selbst zu korrigieren oder die Kontrolle an den Benutzer zurückzugeben. Dieser koordinierte Ansatz ermöglicht es Benutzern, die Kontrolle während des gesamten Prozesses aufrechtzuerhalten.
Dieses System eignet sich hervorragend für sich wiederholende Aufgaben, ist aber immer noch in der Entwicklung. Früheres Feedback wird verwendet, um Beschränkungen für komplizierte Schnittstellen wie das Erstellen von Diashows und das Kalendermanagement zu behandeln.
Der Bediener umfasst mehrere Schutzmittel, um die Sicherheit und Privatsphäre der Benutzer zu priorisieren.
- Nehmen Sie -Over -Modus: Agent fordert Benutzer auf, vertrauliche Informationen wie Anmeldemauthentifizierungsinformationen und Zahlungsdetails zu verwalten, damit die Betreiber diese Daten nicht sammeln.
- Benutzerbestätigung: Der Betreiber benötigt die Genehmigung der Benutzer, bevor wichtige Aktionen wie das Senden von Bestellungen und die Übertragung von E -Mails ausgeführt werden.
- Aufgabenbeschränkungen: Dieses System wurde geschult, um vertrauliche Aufgaben wie eine oder acht Entscheidungen und Bankgeschäfte abzulehnen.
OpenAI integriert auch robuste Datenschutzmaßnahmen wie das Löschen von Browserdaten, das Opt -Out von Datenschulungen und Optionen, um die Betreiber durch dedizierte „Überwachungsmodelle“ zu überwachen, die verdächtiges Verhalten kennzeichnen.
Der Betreiber hat bereits Aufgaben rationalisiert und die Kundenerfahrung in Zusammenarbeit mit Unternehmen wie Doordash, Instacart und Priceline verbessert. OpenAI erwägt auch Bewerbungen im öffentlichen Sektor, um die Zugänglichkeit für die Registrierung von Stadtdienstleistungen in Zusammenarbeit mit Organisationen wie Stockton zu verbessern.
Nächste Schritte des Bedieners
OpenAI plant, den Betreiber in Zukunft auf Plus, Team, Enterprise -Benutzer auszudehnen, und integriert seine Funktionen direkt in ChatGPT. Darüber hinaus plant das Unternehmen, ein CUA -Modell zu veröffentlichen, das den Betreiber in der API verbessert, damit Entwickler ihre eigenen Agenten mit Computern erstellen können.
Bild: OpenAI