सप्ताहांत में, मेटा ने दो नए को गिरा दिया लामा 4 मॉडल: स्काउट नाम का एक छोटा मॉडल, और मावेरिक, एक मिड-साइज़ मॉडल जो कंपनी का दावा है कि जीपीटी -4 ओ और मिथुन 2.0 फ्लैश को “व्यापक रूप से रिपोर्ट किए गए बेंचमार्क की एक विस्तृत श्रृंखला में हरा सकता है।”
Maverick ने AI बेंचमार्क साइट Lmarena पर नंबर-दो स्थान को जल्दी से सुरक्षित कर लिया, जहां मनुष्य विभिन्न प्रणालियों से आउटपुट की तुलना करते हैं और सर्वश्रेष्ठ पर वोट करते हैं। मेटा में प्रेस विज्ञप्तिकंपनी ने 1417 के Maverick के ELO स्कोर पर प्रकाश डाला, जिसने इसे Openai के 4o से ऊपर और सिर्फ मिथुन 2.5 प्रो के तहत रखा। (एक उच्च ईएलओ स्कोर का मतलब है कि मॉडल प्रतियोगियों के साथ सिर-से-सिर पर जाने पर अखाड़े में अधिक बार जीतता है।)
यह उपलब्धि मेटा के ओपन-वेट लामा 4 को एक गंभीर चैलेंजर के रूप में, अत्याधुनिक, ओपनईएआई, एन्थ्रोप्रोपिक और गूगल के बंद मॉडल के रूप में एक गंभीर चैलेंजर के रूप में स्थिति के लिए लग रहा था। फिर, मेटा के दस्तावेज के माध्यम से खुदाई करने वाले एआई शोधकर्ताओं ने कुछ असामान्य खोज की।
फाइन प्रिंट में, मेटा स्वीकार करता है कि Lmarena पर परीक्षण किए गए Maverick का संस्करण वही नहीं है जो जनता के लिए उपलब्ध है। मेटा की अपनी सामग्रियों के अनुसार, इसने एक तैनात किया “प्रायोगिक चैट संस्करण” Lmarena के लिए Maverick जो विशेष रूप से “संवादी के लिए अनुकूलित” था, टेकक्रंच पहला सूचित।
“हमारी नीति की मेटा की व्याख्या मॉडल प्रदाताओं से जो हम उम्मीद करते हैं, उससे मेल नहीं खाती,” Lmarena की तैनाती मॉडल की रिलीज़ के दो दिन बाद एक्स पर। “मेटा को यह स्पष्ट करना चाहिए था कि ‘llama-4-maveverick-03-26-eperimental’ मानव वरीयता के लिए अनुकूलन करने के लिए एक अनुकूलित मॉडल था। इसके परिणामस्वरूप, हम अपनी लीडरबोर्ड नीतियों को निष्पक्ष, प्रजनन योग्य मूल्यांकन के लिए अपनी प्रतिबद्धता को मजबूत करने के लिए अपडेट कर रहे हैं ताकि यह भ्रम भविष्य में न हो।”
मेटा के एक प्रवक्ता, एशले गेब्रियल ने एक ईमेल किए गए बयान में कहा कि “हम सभी प्रकार के कस्टम वेरिएंट के साथ प्रयोग करते हैं।”
“Llama-4-Maveverick-03-26-Seperimental ‘एक चैट ऑप्टिमाइज्ड संस्करण है जिसके साथ हमने प्रयोग किया है, वह Lmarena पर भी अच्छा प्रदर्शन करता है,” गेब्रियल ने कहा। “हमने अब अपना ओपन सोर्स संस्करण जारी किया है और देखेंगे कि डेवलपर्स अपने स्वयं के उपयोग के मामलों के लिए लामा 4 को कैसे अनुकूलित करते हैं। हम यह देखने के लिए उत्साहित हैं कि वे क्या करेंगे और उनकी चल रही प्रतिक्रिया के लिए तत्पर हैं।”
जबकि मेटा ने मैवरिक के साथ क्या किया था, यह स्पष्ट रूप से Lmarena के नियमों के खिलाफ नहीं है, साइट ने चिंताओं को साझा किया है गेमिंग सिस्टम के बारे में और “ओवरफिटिंग और बेंचमार्क रिसाव को रोकने के लिए कदम उठाए।” जब कंपनियां जनता के लिए विभिन्न संस्करणों को जारी करते समय परीक्षण के लिए अपने मॉडलों के विशेष रूप से ट्यून किए गए संस्करण प्रस्तुत कर सकती हैं, तो Lmarena जैसी बेंचमार्क रैंकिंग वास्तविक दुनिया के प्रदर्शन के संकेतक के रूप में कम सार्थक हो जाती है।
“यह सबसे व्यापक रूप से सम्मानित सामान्य बेंचमार्क है क्योंकि अन्य सभी चूसते हैं,” स्वतंत्र एआई शोधकर्ता साइमन विलिसन बताता है कगार। “जब लामा 4 बाहर आया, तो तथ्य यह है कि यह अखाड़े में दूसरे स्थान पर आया, बस मिथुन 2.5 प्रो के बाद – जिसने मुझे वास्तव में प्रभावित किया, और मैं छोटे प्रिंट को नहीं पढ़ने के लिए खुद को लात मार रहा हूं।”
मेटा के मावेरिक और स्काउट को रिहा करने के कुछ समय बाद, एआई समुदाय शुरू हुआ एक अफवाह के बारे में बात करना उस मेटा ने अपनी वास्तविक सीमाओं को छिपाते हुए बेंचमार्क पर बेहतर प्रदर्शन करने के लिए अपने लामा 4 मॉडल को भी प्रशिक्षित किया था। मेटा, अहमद अल-दाहले में जेनेरिक एआई के वीपी ने आरोपों को संबोधित किया एक्स पर एक पोस्ट में: “हमने यह भी दावा सुना है कि हमने परीक्षण सेटों पर प्रशिक्षित किया है – यह केवल सच नहीं है और हम ऐसा कभी नहीं करेंगे। हमारी सबसे अच्छी समझ यह है कि चर गुणवत्ता वाले लोग जो देख रहे हैं, वह कार्यान्वयन को स्थिर करने की आवश्यकता के कारण है।”
“यह आम तौर पर एक बहुत ही भ्रामक रिलीज है।”
कुछ भी देखा उस लामा 4 को एक अजीब समय पर जारी किया गया था। जब बिग एआई समाचार ड्रॉप होता है तो शनिवार को नहीं होता है। थ्रेड्स पर किसी के बाद पूछा गया कि सप्ताहांत में लामा 4 को क्यों जारी किया गया, मेटा के सीईओ मार्क जुकरबर्ग उत्तर दिया: “जब यह तैयार था।”
“यह आम तौर पर एक बहुत ही भ्रामक रिलीज है,” विलिसन कहते हैं, कौन एआई मॉडल का बारीकी से अनुसरण करता है और दस्तावेज़ करता है। “मॉडल स्कोर जो हमें मिला है वह मेरे लिए पूरी तरह से बेकार है। मैं उस मॉडल का उपयोग भी नहीं कर सकता, जिस पर उन्हें उच्च स्कोर मिला।”
लामा 4 को जारी करने के लिए मेटा का रास्ता बिल्कुल चिकना नहीं था। अनुसार एक हालिया रिपोर्ट के लिए से सूचनाकंपनी ने बार -बार आंतरिक अपेक्षाओं को पूरा करने में विफल होने के कारण मॉडल को वापस लॉन्च किया। उन उम्मीदों पर विशेष रूप से चीन के एक ओपन-सोर्स एआई स्टार्टअप दीपसेक के बाद विशेष रूप से उच्च हैं, एक ओपन-वेट मॉडल जारी किया, जिसने एक टन बज़ उत्पन्न किया।
अंततः, Lmarena में एक अनुकूलित मॉडल का उपयोग करना डेवलपर्स को एक कठिन स्थिति में डालता है। अपने अनुप्रयोगों के लिए लामा 4 जैसे मॉडल का चयन करते समय, वे स्वाभाविक रूप से मार्गदर्शन के लिए बेंचमार्क को देखते हैं। लेकिन जैसा कि Maverick के लिए मामला है, वे बेंचमार्क उन क्षमताओं को प्रतिबिंबित कर सकते हैं जो वास्तव में उन मॉडलों में उपलब्ध नहीं हैं जिन्हें जनता तक पहुंच सकती है।
जैसा कि एआई विकास में तेजी आती है, यह एपिसोड दिखाता है कि कैसे बेंचमार्क युद्ध के मैदान बन रहे हैं। यह भी दिखाता है कि मेटा को एआई नेता के रूप में कैसे देखा जा सकता है, भले ही इसका मतलब है कि सिस्टम को गेमिंग करना।
अपडेट, 7 अप्रैल: मेटा के बयान को जोड़ने के लिए कहानी को अपडेट किया गया था।