一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

UCloud小助手發布于2024-08-16 14:40 / 752人閱讀

當炒作出了「潑天的流量」，已經沒人關心產品厲不厲害了。

近日，OpenAI 的秘密項目「Q*」引起了業內人士的廣泛關注。上個月，代號為「草莓（Strawberry）」的項目曝光，據說它是「Q*」的延續，并可能具備高級推理能力。

而就在最近幾天，關于這個項目，網絡上又來了幾波「鴿死人不償命」的傳播。尤其是一個「草莓哥」的賬號，不間斷地宣傳，給人期望又讓人失望。

網友們對Agent Q背后的技術充滿了好奇。有人猜測，這背后可能有OpenAI的Q*項目加持。MultiOn公司不僅給Agent Q開設了獨立的推特賬號，而且賬號的背景圖片和基本信息都與草莓有關，這無疑增加了人們對其背后技術的好奇。

沒想到，這個 Sam Altman 出現在哪里，它就在哪里跟帖的「營銷號」，皮下竟然是個智能體？

當地時間8月14日，一家 AI 智能體初創公司「MultiOn」的創始人直接出來認領：雖然沒等來 OpenAI 發布「Q*」，但我們發了操控「草莓哥」賬號的全新智能體 Agent Q，快來和我們在線玩耍吧！

OpenAI 這一波營銷操作讓很多人都感到困惑，仿佛是在為自己鋪路卻又讓人摸不著頭腦。畢竟，最近不少人熬夜等待 OpenAI 的「大新聞」。事情的起因要追溯到 Sam Altman 與「草莓哥」的互動——在 Sam Altman 曬出的草莓照片下，他回復「草莓哥」說：驚喜馬上就來。

不過，「MultiOn」的創始人 Div Garg 已悄悄刪除了他認領 Agent Q 就是「草莓哥」的帖子。

這次，「MultiOn」宣布推出了突破性的 AI 智能體 Agent Q。該智能體的訓練方法結合了蒙特卡洛樹搜索(MCTS)和自我批評，并通過一種名為直接偏好優化(DPO)的算法學習人類反饋。

Agent Q 是什么

Agent Q是MultiOn公司聯合斯坦福大學推出的自監督代理推理和搜索框架。Agent Q融合了引導式蒙特卡洛樹搜索（MCTS）、AI自我批評和直接偏好優化（DPO）等技術，使A1模型能通過迭代微調和基于人類反饋的強化學習進行自我改進。Agent Q在網頁導航和多步任務執行中展現出色性能，在OpenTable真實預訂任務中，將成功率從18.6%提升至95.4%，標志著A在自主性和復雜決策能力上的重大突破。

作為具有規劃和 AI 自我修復功能的下一代智能體，Agent Q 的性能是 LLaMA 3 基線零樣本性能的 3.4 倍。在真實場景任務的評估中，Agent Q 的成功率高達 95.4%。

Agent Q結合了搜索、自我反思和強化學習，能夠進行規劃和自我修復。它通過引入一種新的學習和推理框架，解決了之前LLM訓練技術的局限性，使其能夠實現自主網頁導航。

它能夠為你預定某個時間某家餐廳的座位。

然后為你執行網頁操作，比如查詢空位情況。最終成功預定。

此外還能預定航班（比如本周六從紐約飛往舊金山，單程、靠窗和經濟艙）。

在模擬網上商店的任務中，Agent Q展現了強大的搜索能力。而在Open Table的真實預訂任務中，Agent Q更是將LLaMa-3的零樣本成功率從18.6%提升至81.7%，分數提高比例達340%，而且僅經過了一天的自主數據收集。

不過，網友似乎對 Agent Q 并不買賬。大家關心更多的還是他們是否真的借「草莓哥」賬號炒作的事情，甚至有些人稱他們為無恥的騙子。

重要組件和方法概覽

目前，Agent Q 的相關論文已經放出，由 MultiOn 和斯坦福大學的研究者聯合撰寫。這項研究的成果將在今年晚些時候向開發人員和使用 MultiOn 的普通用戶開放。

論文地址：

https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

總結一下：Agent Q 能夠自主地在網頁上進行規劃，并具備自我糾錯的能力。它能夠從成功和失敗的經驗中學習，不斷提升在復雜任務中的表現。最終，這款智能體能夠更好地規劃如何在互聯網上操作，以適應現實世界中的復雜情況。

從技術角度來看，Agent Q 的主要組件包括以下幾點：

引導式蒙特卡洛樹搜索（MCTS）：Agent Q使用MCTS算法來指導代理在網頁環境中的探索。通過模擬可能的行動路徑，算法能夠評估和選擇最優的行動，從而平衡探索新信息和用已知信息。
AI自我批評：AgentQ在每個節點上生成可能的行動，并用基礎的大型語言模型（LLM）對這些行動進行自我評估，提供中間的反饋作為中間獎勵來指導搜索步驟。
直接偏好優化（DPO）：一種離線強化學習方法，用于優化策略，使AgentQ能從成功的和不成功的軌跡中學習。DPO算法通過直接優化偏好對來微調模型，不依賴于傳統的獎勵信號。
策略迭代優化：Agent Q通過迭代微調，結合MCTS生成的數據和AI自我批評的反饋，構建偏好對，從而優化模型性能。

Agent Q的應用場景

電子商務：在模擬WebShop環境中，Agent Q可自動化瀏覽和購買流程，幫助用戶快速找到所需商品并完成交易。
在線預訂服務：Agent Q能在OpenTable等在線預訂平臺上為用戶預訂餐廳、酒店服務，處理所有相關的步驟。
軟件開發：Agent Q可以輔助軟件開發，從代碼生成、測試到文檔編寫，提高開發效率并減少人為錯誤。
客戶服務：作為智能客服代理，Agent Q能處理客戶咨詢，提供即時反饋，并解決常見問題。
數據分析：Agent Q能分析大量數據，為企業提供洞察和建議，幫助做出更加數據驅動的決策。
個性化推薦：AgentQ可以根據用戶的歷史行為和偏好，提供個性化的內容或產品推薦。

雖然Agent Q在評估實驗中表現出色，但目前所用的方法仍存在許多討論和改進的空間。例如，推理算法的設計、搜索策略的選擇以及在線安全與交互等方面都需要進一步研究和優化。

Agent Q的出現無疑是AI智能體領域的一大進步，但它是否能夠成為AI界的新貴，還是僅僅是一次高明的炒作，還有待時間的檢驗。無論如何，Agent Q的發布都為AI的發展帶來了新的可能性和啟示。

GPU云服務器 GPU算力平臺郵件營銷大師電子郵件營銷大師有界緩存的實現 ai智能語音

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/131152.html

OpenAI 以 10 億美元出售「靈魂」，網友熱評不再「Open」

摘要：近日，一篇在上成為了網友熱議的話題。在這種結構改變幾個月后，微軟宣布注資億美元。與微軟的合作關系是基于一個重要的前提，即微軟有權將的部分技術商業化。網友紛紛稱早已應該更名為。編譯?| 禾木木出品 |?AI科技大本營（ID:rgznai100） OpenAI 如何以 10 億美元的價...

wenzi 2021-09-10 10:51 評論0 收藏0
關于增強學習你應該了解的五件事兒

摘要：摘要本文主要是講解了機器學習中的增強學習方法的基本原理，常用算法及應用場景，最后給出了學習資源，對于初學者而言可以將其作為入門指南。下圖表示了強化學習模型中涉及的基本思想和要素。摘要：本文主要是講解了機器學習中的增強學習方法的基本原理，常用算法及應用場景，最后給出了學習資源，對于初學者而言可以將其作為入門指南。強化學習（Reinforcement Learning）是當前最熱門的...

huangjinnan 2019-06-26 18:21 評論0 收藏0
40張圖看懂撲克AI對抗人類30年歷史，解密冷撲大師前世今生

摘要：月，卡耐基梅隆大學的程序在一對一不限注的撲克比賽中，擊敗了一組的德州撲克職業選手。概述擊敗人類冠軍的三件事的深藍，由卡內基梅隆大學開飯，在年的復賽中擊敗國際象棋世界冠軍卡斯帕羅夫。年，奧克蘭大學發布。 2017年是AI在撲克上取得突破的一年，在AI的發展歷史上，具有里程碑的意義。1月，卡耐基梅隆大學的 AI 程序在一對一不限注的撲克比賽中，擊敗了一組的德州撲克職業選手。出乎所有人的意外，這一...

YuboonaZhang 2019-04-25 18:18 評論0 收藏0
OpenAI終止對中國提供API服務，開發者們該如何應對？

6月25日凌晨，陸續有包括中國大陸在內的各國和相關地區API開發者在社交媒體上表示，他們收到了來自一封來自OpenAI的警告信。其內容是：我們的數據顯示，貴組織的 APl 流量來自OpenAl目前不支持的地區。您可以在此處找到受支持的國家和地區。我們將從7月9日開始采取額外措施，阻止來自不在我們支持的國家和地區列表中的地區的 APl 流量。要繼續使用OpenAl的服務，您需要在受支持的地區訪問服務...

UCloud小助手 2024-06-26 17:56 評論0 收藏0