亚洲欧洲一区二区三区a,欧美三级黄色免费看

AI編程大戰(zhàn)打響！OpenAI推出GPT-5.3-Codex，與Anthropic同步發(fā)布新模型

首頁 > 業(yè)界 > 區(qū)塊鏈 2026-02-06 03:53

摘要

OpenAI周四發(fā)布GPT-5.3-Codex，稱其為迄今最強(qiáng)編程代理，并將發(fā)布時間安排在Anthropic發(fā)布其旗艦升級模型Claude Opus 4.6的同一時刻。新模型多項基準(zhǔn)測試成績大幅領(lǐng)先，并首次參與自身訓(xùn)練與部署。業(yè)內(nèi)認(rèn)為，這標(biāo)志著圍繞企業(yè)級軟件開發(fā)的AI編程大戰(zhàn)正式打響。

幣界網(wǎng)報道：

OpenAI周四發(fā)布GPT-5.3-Codex。該公司稱，這是迄今為止能力最強(qiáng)的編程代理。值得注意的是，此次發(fā)布的時間點被精準(zhǔn)安排在Anthropic推出其旗艦?zāi)Ｐ蜕壈鍯laude Opus 4.6的同一時刻。媒體稱，兩大模型同步亮相，被業(yè)內(nèi)觀察人士視為“AI編程大戰(zhàn)”的第一槍——這是一場圍繞企業(yè)級軟件開發(fā)市場展開的高風(fēng)險爭奪戰(zhàn)。

OpenAI首席執(zhí)行官Sam Altman在模型發(fā)布幾分鐘后就在X上寫道：

“我非常喜歡用這個模型來開發(fā)，它帶來的進(jìn)步感受，遠(yuǎn)遠(yuǎn)超過基準(zhǔn)測試所顯示的幅度?！?/p>
“看著我們用5.3-Codex來開發(fā)5.3-Codex，從而把發(fā)布速度提升到這么快，真的令人震撼，這毫無疑問預(yù)示著未來的發(fā)展方向?！?/p>

媒體表示，模型本身參與了自身的構(gòu)建，被視為AI發(fā)展中的一個重要里程碑。根據(jù)OpenAI的公告，Codex團(tuán)隊使用GPT-5.3-Codex的早期版本來調(diào)試自身的訓(xùn)練過程、管理部署基礎(chǔ)設(shè)施，并診斷測試結(jié)果和評估情況。OpenAI將其稱為“我們首個在自身創(chuàng)建過程中發(fā)揮關(guān)鍵作用的模型”。

GPT-5.3-Codex多項基準(zhǔn)成績領(lǐng)先Claude達(dá)到兩位數(shù)

OpenAI表示，新模型在多項行業(yè)基準(zhǔn)測試中實現(xiàn)了顯著提升。GPT-5.3-Codex在SWE-Bench Pro上取得了57%的成績。SWE-Bench Pro是一項極為嚴(yán)格的真實世界軟件工程評測，涵蓋四種編程語言，重點考察抗數(shù)據(jù)污染、具有工業(yè)相關(guān)性的挑戰(zhàn)。

該模型在Terminal-Bench 2.0上得分77.3%，這一基準(zhǔn)主要衡量編程代理所必需的終端操作能力；在OSWorld上得分64%，該測試要求模型在可視化桌面環(huán)境中完成生產(chǎn)力任務(wù)，是一項強(qiáng)調(diào)“代理式”計算機(jī)使用能力的評估。

其中，Terminal-Bench 2.0的結(jié)果尤為引人注目。根據(jù)周三公布的性能數(shù)據(jù)，GPT-5.3-Codex的得分為77.3%，而GPT-5.2-Codex為64.0%，基礎(chǔ)版GPT-5.2模型為62.2%。也就是說，僅一代升級，成績就提升了13個百分點。一位X平臺用戶指出，這一成績“徹底碾壓”了Anthropic的Opus 4.6，后者據(jù)稱在同一基準(zhǔn)上的得分為65.4%。

OpenAI還表示，新模型是在效率大幅提升的情況下實現(xiàn)上述成績的：在完成同等任務(wù)時，所需token數(shù)量不到上一代模型的一半，同時單個token的推理速度提升超過25%。

OpenAI在公告中稱：

“值得注意的是，GPT-5.3-Codex在使用的token數(shù)量上低于任何此前模型，這讓用戶能夠做更多事情。”

從編程助手到編程操作者

相比基準(zhǔn)測試的提升，更重要的是OpenAI對GPT-5.3-Codex的定位。該公司明確表示：

“Codex正從一個只能編寫和審查代碼的代理，進(jìn)化為一個幾乎可以完成開發(fā)者和專業(yè)人士在電腦上所做任何事情的代理?！?/p>

這一能力擴(kuò)展涵蓋了調(diào)試、部署、監(jiān)控、撰寫產(chǎn)品需求文檔、編輯文案、開展用戶研究、制作演示文稿，以及在電子表格應(yīng)用中分析數(shù)據(jù)等。該模型在GDPVal評估中表現(xiàn)突出。GDPVal是OpenAI于2025年發(fā)布的一項評估，用于衡量模型在44種職業(yè)中、對定義明確的知識型工作任務(wù)的完成能力。

分析認(rèn)為，這一擴(kuò)展信號表明，OpenAI的目標(biāo)不僅是開發(fā)者工具市場，還包括更廣泛的企業(yè)生產(chǎn)力軟件領(lǐng)域。該市場的既有玩家包括Microsoft、Salesforce和ServiceNow，這些公司都在加速將AI代理嵌入自身平臺。

OpenAI首個“高能力”網(wǎng)絡(luò)安全模型

向通用計算能力的轉(zhuǎn)變，也帶來了新的安全考量。OpenAI表示，GPT-5.3-Codex是其首個在“準(zhǔn)備度框架”下，被歸類為在網(wǎng)絡(luò)安全相關(guān)任務(wù)上具備“高能力”的模型，同時也是首個被直接訓(xùn)練用于識別軟件漏洞的模型。

OpenAI表示：“盡管我們尚未發(fā)現(xiàn)它可以端到端自動化網(wǎng)絡(luò)攻擊的確鑿證據(jù)，但我們采取了審慎策略，部署了迄今為止最全面的網(wǎng)絡(luò)安全防護(hù)體系?！毕嚓P(guān)措施包括雙用途安全訓(xùn)練、自動化監(jiān)控、對高級能力實行可信訪問機(jī)制，以及結(jié)合威脅情報的執(zhí)行管線。

Altman也在X上強(qiáng)調(diào)了這一進(jìn)展：

“這是我們首個在準(zhǔn)備度框架中，網(wǎng)絡(luò)安全能力達(dá)到‘高’級別的模型。我們正在試點可信訪問框架，并承諾投入1000萬美元的API額度，用于加速網(wǎng)絡(luò)防御?！?/p>

此外，OpenAI還在擴(kuò)大其安全研究代理Aardvark的私有測試，并與開源維護(hù)者合作，為廣泛使用的項目提供免費的代碼庫掃描。OpenAI以Next.js為例，稱一名安全研究人員上周就曾使用Codex發(fā)現(xiàn)并披露了相關(guān)漏洞。

同日同時發(fā)布最新模型，OpenAI與Anthropic的競爭白熱化

不過，該公司網(wǎng)絡(luò)安全方面的宣布，很快被OpenAI與Anthropic之間的對抗所掩蓋。媒體表示，若脫離背景，很難理解周四這一發(fā)布時間點的意義。

Anthropic是一家以AI安全為核心的初創(chuàng)公司，成立于2021年，由多名前OpenAI研究人員創(chuàng)辦，其中包括Dario Amodei和Daniela Amodei。

兩家公司都將重大產(chǎn)品發(fā)布安排在當(dāng)天美西時間上午10點。Anthropic發(fā)布了Claude Opus 4.6，并將其描述為“最聰明的模型”，稱其“規(guī)劃更謹(jǐn)慎、能更長時間持續(xù)執(zhí)行代理式任務(wù)、在超大型代碼庫中運行可靠，并且能夠發(fā)現(xiàn)并糾正自身錯誤”。

而這一正面交鋒的背后，是一周不斷升級的緊張關(guān)系。Anthropic宣布，將在超級碗期間播出廣告，嘲諷OpenAI近期開始在ChatGPT免費用戶中測試廣告的決定。

Altman隨后作出罕見的直接回應(yīng)，在一篇長篇X帖中稱這些廣告“好笑”，但“明顯不誠實”。

Altman寫道：

“我們顯然永遠(yuǎn)不會像Anthropic廣告中描繪的那樣投放廣告。我們并不愚蠢，也知道用戶絕不會接受那種做法?！?/p>
“我想這倒是很符合Anthropic一貫的‘雙重話術(shù)’風(fēng)格，用一個具有誤導(dǎo)性的廣告，去批評根本不存在的、理論上的誤導(dǎo)性廣告，但超級碗廣告并不是我預(yù)期會看到這種事情的地方。”

他進(jìn)一步將Anthropic形容為一家“威權(quán)式公司”，稱其“想要控制人們?nèi)绾问褂肁I”。

Altman寫道：

“Anthropic向富人提供昂貴的產(chǎn)品。使用ChatGPT免費版的德州人數(shù)量，比美國使用Claude的總?cè)藬?shù)還要多，所以我們面臨的是完全不同形態(tài)的問題。”

企業(yè)AI支出遠(yuǎn)超預(yù)期，OpenAI市場份額面臨Anthropic與谷歌擠壓

公開的口水戰(zhàn)背后，是一場極其嚴(yán)肅的商業(yè)競爭。這一對抗發(fā)生在企業(yè)級AI應(yīng)用爆發(fā)式增長的大背景下，雙方都在爭奪一個迅速擴(kuò)張的市場。

根據(jù)Andreessen Horowitz本周發(fā)布的調(diào)查數(shù)據(jù)，企業(yè)在大語言模型上的支出，已經(jīng)大幅超過此前即便相當(dāng)樂觀的預(yù)測。2025年，企業(yè)平均在LLM上的支出達(dá)到700萬美元，較2024年實際支出的250萬美元高出180%，也比企業(yè)在一年前對2025年的預(yù)測高出56%。預(yù)計到2026年，單個企業(yè)的支出將達(dá)到1160萬美元，再增長65%。

a16z的數(shù)據(jù)還揭示了市場格局的變化。OpenAI仍然占據(jù)企業(yè)AI支出中最大的份額，但這一份額正在縮小——從2024年的62%，下降至預(yù)計2026年的53%。同期，Anthropic的份額從14%上升至預(yù)計18%，Google也呈現(xiàn)出類似的增長趨勢。

在企業(yè)使用模式上，情況更加微妙。雖然OpenAI在總體使用量上領(lǐng)先，但在接受調(diào)查的OpenAI客戶中，只有46%在生產(chǎn)環(huán)境中使用其最強(qiáng)模型；而Anthropic和Google這一比例分別為75%和76%。如果將測試環(huán)境也計算在內(nèi)，89%的Anthropic客戶正在測試或使用其最強(qiáng)模型，這一比例在主要廠商中最高。

在軟件開發(fā)這一雙方編程代理的核心應(yīng)用場景中，a16z調(diào)查顯示，OpenAI的市場份額約為35%，而Anthropic則占據(jù)了剩余市場中相當(dāng)可觀、且持續(xù)增長的一部分。

OpenAI承諾未來數(shù)周推出更多Codex功能

展望未來，OpenAI表示，GPT-5.3-Codex已立即向付費ChatGPT用戶開放，覆蓋所有Codex使用場景，包括桌面應(yīng)用、命令行接口、IDE擴(kuò)展和網(wǎng)頁端，API接口預(yù)計隨后推出。

該模型還加入了一項新的交互功能：用戶可以在“務(wù)實型”和“友好型”兩種性格之間進(jìn)行選擇。Altman表示，用戶對這一點有著強(qiáng)烈偏好。在更實質(zhì)性的層面上，模型在執(zhí)行任務(wù)過程中會頻繁提供進(jìn)度更新，允許用戶實時互動、提問、討論思路，并在不丟失上下文的情況下引導(dǎo)解決方案。

OpenAI表示：

“你不再需要等待最終結(jié)果，而是可以實時互動。GPT-5.3-Codex會講清楚它正在做什么，響應(yīng)反饋，并從頭到尾讓你保持知情?！?

公司承諾，未來幾周還將推出更多能力。Altman直言：“我相信Codex會贏?！?/p>

他在回應(yīng)Anthropic時，用一句頗具哲學(xué)意味的話為這場競爭定調(diào)：

“這個時代，屬于建設(shè)者，而不屬于那些想要控制他們的人?！?/p>

贊

644

相關(guān)閱讀

幣界百科

幣界資訊

諾和諾德暴跌8%，新減肥藥片剛上市就遭"山寨"，遠(yuǎn)程醫(yī)療公司Hims推出49美元仿制藥

遠(yuǎn)程醫(yī)療公司Hims推出仿制版，定價99美元/月，遠(yuǎn)低于品牌藥149美元。諾和諾德指責(zé)其"非法復(fù)配"并威脅起訴，聲稱仿制品缺乏專有保護(hù)技術(shù)無法有效吸收。Hims辯稱采用不同配方。受此影響，諾和諾德股價暴跌超8%。

區(qū)塊鏈

2026-02-06 06:46:47

對話 a16z 聯(lián)創(chuàng)：AI、創(chuàng)業(yè)、公平與“美式機(jī)會”

播客來源： Invest Like The Best受訪者： Ben Horowitz（a16z聯(lián)合創(chuàng)始人）播出時間：2026年2月3日整理：BitpushNews?前言Ben Horowitz?認(rèn)為，AI正快速重塑經(jīng)濟(jì)與創(chuàng)業(yè)格局，未來一兩年將明顯...

區(qū)塊鏈

2026-02-06 05:08:13

CEA Industries與YZi Labs就BNB資金管理費和控制權(quán)發(fā)生沖突

CEA Industries 和 YZi Labs 陷入公開糾紛，雙方就費用、公司治理和董事會控制權(quán)提出索賠。

區(qū)塊鏈

2026-02-06 03:27:33

AI“同事”要上崗了？OpenAI推出Frontier，瞄準(zhǔn)企業(yè)級代理自動化

OpenAI周四發(fā)布企業(yè)級AI代理平臺Frontier，幫助公司更便捷地構(gòu)建、部署和管理AI代理，并整合多源數(shù)據(jù)執(zhí)行文件處理、代碼運行等任務(wù)。該平臺支持與Anthropic、微軟等競爭對手的AI代理協(xié)同使用，定位并非取代現(xiàn)有軟件，而是作為企業(yè)分發(fā)和運行AI代理的基礎(chǔ)設(shè)施。OpenAI高管稱，到今年年底，領(lǐng)先企業(yè)的大量數(shù)字化工作將由人類指揮、AI代理執(zhí)行。與此同時，競爭對手Anthropic同日發(fā)布金融研究AI模型，引發(fā)市場對傳統(tǒng)軟件被AI替代的擔(dān)憂再度升溫。

區(qū)塊鏈

2026-02-06 03:27:33

Circle 通過與 Polymarket 的戰(zhàn)略合作，擴(kuò)大了 USDC 的作用。

Circle 宣布與 Polymarket 建立戰(zhàn)略合作伙伴關(guān)系，旨在通過將受監(jiān)管的穩(wěn)定幣基礎(chǔ)設(shè)施引入基于預(yù)測的交易，加速鏈上金融市場的下一階段發(fā)展。

區(qū)塊鏈

2026-02-06 01:53:53

以太坊升破3300美元領(lǐng)漲加密市場，幕后驅(qū)動力與后市空間全解析

1月14日，以太坊強(qiáng)勢突破3300美元關(guān)口，24小時漲幅超7%。本文深入解析了此輪上漲的三大核心驅(qū)動力：機(jī)構(gòu)資金加速配置并轉(zhuǎn)向主動生息、Fusaka升級提升網(wǎng)絡(luò)效能以及交易所儲備創(chuàng)歷史新低導(dǎo)致的供需關(guān)系改善。文章同時結(jié)合關(guān)鍵技術(shù)信號與市場情緒，對以太坊后市空間進(jìn)行了展望，為投資者提供全面洞察。

數(shù)字貨幣百科

2026-01-14 14:57:57

?區(qū)塊鏈的三板斧——去中心化、透明、不可篡改

區(qū)塊鏈技術(shù)被譽為數(shù)字經(jīng)濟(jì)的底層操作系統(tǒng)。它的革命性，不在于加密貨幣的價格，而在于它徹底解決了人類社會最核心的成本——信任成本。本文將從專業(yè)角度深度解析區(qū)塊鏈賴以生存的“三板斧”：去中心化、不可篡改性和透明性。我們將詳細(xì)闡釋分布式賬本如何通過哈希加密來保證數(shù)據(jù)永不被篡改，以及其抗審查架構(gòu)如何賦予個人數(shù)字主權(quán)。理解這三大特性，你就掌握了比特幣、DeFi等所有去中心化應(yīng)用的運行邏輯，從而真正認(rèn)識到區(qū)塊鏈如何從一個技術(shù)概念，進(jìn)化為支撐未來金融、供應(yīng)鏈乃至公共治理的信任機(jī)器。

區(qū)塊鏈百科

2025-11-12 15:03:44

機(jī)遇還是泡沫：剖析Plasma穩(wěn)定幣公鏈的愿景與市場現(xiàn)實

本文深入分析了專注于穩(wěn)定幣的Plasma公鏈。文章闡述了其構(gòu)建“全球數(shù)字美元鐵路”的宏大愿景與技術(shù)創(chuàng)新，記錄了其早期創(chuàng)紀(jì)錄的融資與市場狂熱。同時，重點揭示了項目上線后面臨的殘酷現(xiàn)實，包括代幣價格暴跌、生態(tài)發(fā)展未達(dá)預(yù)期及激烈的市場競爭，最終對其愿景與市場現(xiàn)實之間的巨大落差進(jìn)行了客觀審視。

區(qū)塊鏈百科

2025-12-23 14:48:19

加密貨幣挖礦為什么耗電？算力競爭是核心推手

摘要：本文圍繞“加密貨幣挖礦為什么耗電”展開，核心解析算力競爭是耗電核心驅(qū)動。先闡述挖礦哈希運算的能耗本質(zhì)，再說明算力競爭引發(fā)的礦機(jī)迭代與規(guī)模擴(kuò)張加劇能耗，還提及行業(yè)規(guī)模、能源結(jié)構(gòu)的疊加影響，最終總結(jié)哈希運算本質(zhì)與算力競爭的疊加效應(yīng)是高耗電關(guān)鍵。

礦業(yè)百科

2025-12-30 18:01:12

2026年XRP價格預(yù)測關(guān)鍵解析：能否突破3-8美元區(qū)間？

本文深入解析了XRP在2026年的價格前景。文章指出，市場對其能否突破3-8美元區(qū)間存在分歧，并從技術(shù)突破、監(jiān)管進(jìn)展等上漲動力，以及估值過高、宏觀風(fēng)險等挑戰(zhàn)兩方面進(jìn)行剖析。最終展望認(rèn)為，XRP價格將高度波動，能否突破上限取決于正反饋循環(huán)能否形成，為投資者提供了多空平衡的分析框架。

數(shù)字貨幣百科

2025-12-26 14:08:54