Openai के O3 AI मॉडल के लिए पहले और तीसरे पक्ष के बेंचमार्क परिणामों के बीच एक विसंगति है कंपनी की पारदर्शिता के बारे में सवाल उठाना और मॉडल परीक्षण प्रथाओं।
जब दिसंबर में Openai ने O3 का अनावरण किया, तो कंपनी ने दावा किया कि मॉडल फ्रंटिमैथ पर केवल एक चौथाई सवालों के जवाब दे सकता है, जो गणित की समस्याओं का एक चुनौतीपूर्ण सेट है। उस स्कोर ने प्रतियोगिता को उड़ा दिया-अगला सबसे अच्छा मॉडल केवल 2% फ्रंटिमैथ समस्याओं का सही जवाब देने में कामयाब रहा।
ओपनईएआई के मुख्य शोध अधिकारी मार्क चेन, “आज सभी प्रसादों में 2% से कम (फ्रंटिअमथ पर) है।” एक जीवंत के दौरान कहा। “हम देख रहे हैं (आंतरिक रूप से), आक्रामक परीक्षण-समय गणना सेटिंग्स में O3 के साथ, हम 25%से अधिक प्राप्त करने में सक्षम हैं।”
जैसा कि यह पता चला है, यह आंकड़ा एक ऊपरी बाउंड होने की संभावना थी, जो पिछले सप्ताह सार्वजनिक रूप से लॉन्च किए गए मॉडल Openai की तुलना में इसके पीछे अधिक कंप्यूटिंग के साथ O3 के एक संस्करण द्वारा प्राप्त किया गया था।
फ्रंटिमैथ के पीछे अनुसंधान संस्थान, एपोच एआई ने शुक्रवार को ओ 3 के अपने स्वतंत्र बेंचमार्क परीक्षणों के परिणाम जारी किए। Epoch ने पाया कि O3 ने लगभग 10%स्कोर किया, जो Openai के सर्वोच्च दावा किए गए स्कोर से नीचे था।
Openai ने O3, उनके बहुप्रतीक्षित तर्क मॉडल को जारी किया है, O4-Mini के साथ, एक छोटा और सस्ता मॉडल जो O3-Mini को सफल करता है।
हमने गणित और विज्ञान बेंचमार्क के हमारे सूट पर नए मॉडल का मूल्यांकन किया। थ्रेड में परिणाम! pic.twitter.com/5gbtzkey1b
– epoch ai (@epochairesearch) 18 अप्रैल, 2025
इसका मतलब यह नहीं है कि Openai झूठ बोला, प्रति से। बेंचमार्क परिणाम दिसंबर में प्रकाशित कंपनी ने एक कम-बाउंड स्कोर दिखाया जो कि स्कोर एपोच द्वारा देखे गए स्कोर से मेल खाता है। Epoch ने यह भी नोट किया कि इसके परीक्षण सेटअप की संभावना Openai से अलग है, और यह कि इसके मूल्यांकन के लिए Frontiermath की एक अद्यतन रिलीज़ का उपयोग किया गया है।
“हमारे परिणामों और Openai के बीच का अंतर OpenAI के कारण अधिक शक्तिशाली आंतरिक पाड़ के साथ मूल्यांकन करने के कारण हो सकता है, अधिक परीक्षण-समय (कंप्यूटिंग) का उपयोग करते हुए, या क्योंकि उन परिणामों को फ्रंटिमैथ के एक अलग सबसेट पर चलाया गया था (फ्रंटिमैथ -2024-11-11-26 में 180 समस्याएं बनाम फ्रंटिमैथ -2025-02-02-28-प्राइवेट में 290 समस्याएं),” लिखा युग।
एक्स पर एक पोस्ट के अनुसार एआरसी प्राइज फाउंडेशन से, एक संगठन जिसने ओ 3 के पूर्व-रिलीज़ संस्करण का परीक्षण किया, सार्वजनिक ओ 3 मॉडल “एक अलग मॉडल (…) चैट/उत्पाद उपयोग के लिए ट्यून किया गया है,” एपोच की रिपोर्ट को पुष्ट करते हुए।
आर्क प्राइज़ ने लिखा, “सभी जारी ओ 3 कंप्यूट टियर संस्करण से छोटे हैं (बेंचमार्केड),” आर्क पुरस्कार ने लिखा। सामान्यतया, बड़े कंप्यूट टियर से बेहतर बेंचमार्क स्कोर प्राप्त करने की उम्मीद की जा सकती है।
आर्क-एजीआई -1 पर रिलीज़ ओ 3 को री-टेस्टिंग में एक या दो दिन लगेंगे। क्योंकि आज की रिलीज़ एक भौतिक रूप से अलग प्रणाली है, हम अपने अतीत के रिपोर्ट किए गए परिणामों को “पूर्वावलोकन” के रूप में फिर से ले जा रहे हैं:
O3-preview (कम): 75.7%, $ 200/कार्य
O3-preview (उच्च): 87.5%, $ 34.4k/कार्यऊपर O1 प्रो मूल्य निर्धारण का उपयोग करता है …
– माइक नूप (@mikeknoop) 16 अप्रैल, 2025
Openai का अपना वेंडा झोउ, तकनीकी कर्मचारियों के सदस्य, पिछले सप्ताह एक लाइवस्ट्रीम के दौरान कहा उत्पादन में O3 “वास्तविक दुनिया के उपयोग के मामलों के लिए अधिक अनुकूलित है” और दिसंबर में O3 के संस्करण बनाम गति बनाम गति। नतीजतन, यह बेंचमार्क “असमानताओं” का प्रदर्शन कर सकता है, उन्होंने कहा।
झोउ ने कहा, “(w) e ने (मॉडल) अधिक लागत कुशल (और) सामान्य रूप से अधिक उपयोगी बनाने के लिए (अनुकूलन) किया,” झोउ ने कहा। “हम अभी भी आशा करते हैं कि – हम अभी भी सोचते हैं कि – यह एक बहुत बेहतर मॉडल है (…) आपको तब तक इंतजार नहीं करना पड़ेगा जब आप एक उत्तर के लिए पूछ रहे हैं, जो इन (प्रकार के) मॉडल के साथ एक वास्तविक चीज है।”
दी गई, तथ्य यह है कि O3 की सार्वजनिक रिलीज Openai के परीक्षण के वादों से कम हो जाती है, क्योंकि कंपनी के O3-Mini-High और O4-Mini मॉडल Otiermath पर O3 से बेहतर प्रदर्शन करते हैं, और Openai ने आने वाले हफ्तों में एक अधिक शक्तिशाली O3 वेरिएंट, O3-Pro की शुरुआत करने की योजना बनाई है।
हालांकि, यह एक और अनुस्मारक है कि एआई बेंचमार्क को अंकित मूल्य पर सबसे अच्छा नहीं लिया जाता है – खासकर जब स्रोत बेचने के लिए सेवाओं के साथ एक कंपनी है।
बेंचमार्किंग “विवाद” एआई उद्योग में एक सामान्य घटना बन रही है क्योंकि विक्रेताओं ने नए मॉडलों के साथ सुर्खियों और माइंडशेयर को पकड़ने के लिए दौड़ लगाई है।
जनवरी में, कंपनी द्वारा O3 की घोषणा करने के बाद तक Openai से धन का खुलासा करने के इंतजार के लिए एपोच की आलोचना की गई थी। कई शिक्षाविदों ने फ्रंटिअमथ में योगदान दिया, जब तक कि इसे सार्वजनिक नहीं किया गया, तब तक यह ओपनईआई की भागीदारी के बारे में सूचित नहीं किया गया था।
हाल ही में, एलोन मस्क के XAI पर अपने नवीनतम एआई मॉडल, ग्रोक 3 के लिए भ्रामक बेंचमार्क चार्ट प्रकाशित करने का आरोप लगाया गया था। इस महीने, मेटा ने एक मॉडल के एक संस्करण के लिए बेंचमार्क स्कोर को टालने के लिए स्वीकार किया, जो डेवलपर्स के लिए उपलब्ध कंपनी से अलग था।
अद्यतन 4:21 PM पैसिफिक: पिछले हफ्ते एक लाइवस्ट्रीम से ओपनईआई तकनीकी कर्मचारियों के सदस्य वेंडा झोउ से जोड़ी गई टिप्पणियां।