मूल संस्करण का यह कहानी इसमें दिखाई दिया क्वांटा पत्रिका।
बड़े भाषा मॉडल अच्छी तरह से काम करते हैं क्योंकि वे इतने बड़े हैं। Openai, मेटा, और डीपसेक के नवीनतम मॉडल “पैरामीटर” के सैकड़ों अरबों का उपयोग करते हैं – समायोज्य knobs जो डेटा के बीच कनेक्शन निर्धारित करते हैं और प्रशिक्षण प्रक्रिया के दौरान ट्विक हो जाते हैं। अधिक मापदंडों के साथ, मॉडल पैटर्न और कनेक्शन की पहचान करने में बेहतर हैं, जो बदले में उन्हें अधिक शक्तिशाली और सटीक बनाता है।
लेकिन यह शक्ति एक लागत पर आती है। सैकड़ों अरबों मापदंडों के साथ एक मॉडल का प्रशिक्षण विशाल कम्प्यूटेशनल संसाधन लेता है। उदाहरण के लिए, अपने मिथुन 1.0 अल्ट्रा मॉडल को प्रशिक्षित करने के लिए, Google ने कथित तौर पर खर्च किया $ 191 मिलियन। बड़ी भाषा मॉडल (LLMS) को भी हर बार एक अनुरोध का जवाब देने के लिए काफी कम्प्यूटेशनल शक्ति की आवश्यकता होती है, जो उन्हें कुख्यात ऊर्जा हॉग बनाता है। चैट करने के लिए एक एकल क्वेरी लगभग 10 बार उपभोग करता है इलेक्ट्रिक पावर रिसर्च इंस्टीट्यूट के अनुसार, एक एकल Google खोज के रूप में अधिक ऊर्जा।
जवाब में, कुछ शोधकर्ता अब छोटा सोच रहे हैं। IBM, Google, Microsoft, और Openai ने हाल ही में सभी छोटे भाषा मॉडल (SLM) जारी किए हैं जो कुछ बिलियन मापदंडों का उपयोग करते हैं – उनके LLM समकक्षों का एक अंश।
छोटे मॉडल को उनके बड़े चचेरे भाई जैसे सामान्य-उद्देश्य वाले उपकरण के रूप में उपयोग नहीं किया जाता है। लेकिन वे विशिष्ट, अधिक संकीर्ण रूप से परिभाषित कार्यों पर उत्कृष्ट प्रदर्शन कर सकते हैं, जैसे कि वार्तालापों को सारांशित करना, स्वास्थ्य देखभाल चैटबॉट के रूप में रोगी के सवालों का जवाब देना, और स्मार्ट उपकरणों में डेटा एकत्र करना। “बहुत सारे कार्यों के लिए, एक 8 बिलियन -पैरामीटर मॉडल वास्तव में बहुत अच्छा है,” ज़िको कोल्टरकार्नेगी मेलन विश्वविद्यालय में एक कंप्यूटर वैज्ञानिक। वे एक विशाल डेटा सेंटर के बजाय एक लैपटॉप या सेल फोन पर भी चल सकते हैं। (“छोटे” की सटीक परिभाषा पर कोई सहमति नहीं है, लेकिन नए मॉडल सभी अधिकतम 10 बिलियन मापदंडों के आसपास अधिकतम हैं।)
इन छोटे मॉडलों के लिए प्रशिक्षण प्रक्रिया का अनुकूलन करने के लिए, शोधकर्ता कुछ ट्रिक्स का उपयोग करते हैं। बड़े मॉडल अक्सर इंटरनेट से कच्चे प्रशिक्षण डेटा को परिमार्जन करते हैं, और यह डेटा अव्यवस्थित, गन्दा और प्रक्रिया करने के लिए कठिन हो सकता है। लेकिन ये बड़े मॉडल तब एक उच्च गुणवत्ता वाले डेटा सेट उत्पन्न कर सकते हैं जिसका उपयोग एक छोटे मॉडल को प्रशिक्षित करने के लिए किया जा सकता है। दृष्टिकोण, जिसे नॉलेज डिस्टिलेशन कहा जाता है, को अपने प्रशिक्षण पर प्रभावी ढंग से पास करने के लिए बड़ा मॉडल मिलता है, जैसे एक शिक्षक एक छात्र को सबक देता है। “कारण (एसएलएम) ऐसे छोटे मॉडलों के साथ इतना अच्छा हो जाता है और इस तरह के छोटे डेटा यह है कि वे गन्दा सामान के बजाय उच्च गुणवत्ता वाले डेटा का उपयोग करते हैं,” कोल्टर ने कहा।
शोधकर्ताओं ने बड़े लोगों के साथ शुरू करके और उन्हें ट्रिम करके छोटे मॉडल बनाने के तरीके भी खोजे हैं। एक विधि, जिसे प्रूनिंग के रूप में जाना जाता है, अनावश्यक या अक्षम भागों को हटाने के लिए मजबूर करता है तंत्रिका नेटवर्क– कनेक्टेड डेटा पॉइंट्स का विशाल वेब जो एक बड़े मॉडल को रेखांकित करता है।
Pruning एक वास्तविक जीवन के तंत्रिका नेटवर्क, मानव मस्तिष्क से प्रेरित था, जो एक व्यक्ति की उम्र के रूप में synapses के बीच कनेक्शन को छीनकर दक्षता प्राप्त करता है। आज के प्रूनिंग दृष्टिकोणों का पता चलता है 1989 का एक पेपर जिसमें कंप्यूटर वैज्ञानिक यान लेकुन, अब मेटा में, ने तर्क दिया कि एक प्रशिक्षित तंत्रिका नेटवर्क में 90 प्रतिशत मापदंडों को दक्षता का त्याग किए बिना हटाया जा सकता है। उन्होंने विधि को “इष्टतम मस्तिष्क क्षति” कहा। प्रूनिंग शोधकर्ताओं को किसी विशेष कार्य या वातावरण के लिए एक छोटी भाषा मॉडल को ठीक करने में मदद कर सकता है।
शोधकर्ताओं के लिए रुचि रखते हैं कि भाषा मॉडल कैसे करते हैं, वे जो काम करते हैं, छोटे मॉडल उपन्यास विचारों का परीक्षण करने के लिए एक सस्ता तरीका प्रदान करते हैं। और क्योंकि उनके पास बड़े मॉडलों की तुलना में कम पैरामीटर हैं, उनका तर्क अधिक पारदर्शी हो सकता है। “यदि आप एक नया मॉडल बनाना चाहते हैं, तो आपको चीजों को आज़माने की जरूरत है,” लेशेम चोशेनMIT-IBM वॉटसन AI लैब में एक शोध वैज्ञानिक। “छोटे मॉडल शोधकर्ताओं को कम दांव के साथ प्रयोग करने की अनुमति देते हैं।”
बड़े, महंगे मॉडल, उनके बढ़ते मापदंडों के साथ, सामान्यीकृत चैटबॉट, छवि जनरेटर, और जैसे अनुप्रयोगों के लिए उपयोगी रहेगा दवा खोज। लेकिन कई उपयोगकर्ताओं के लिए, एक छोटा, लक्षित मॉडल बस काम करेगा, जबकि शोधकर्ताओं के लिए प्रशिक्षित और निर्माण करना आसान होगा। “ये कुशल मॉडल पैसे, समय और गणना बचा सकते हैं,” चोशेन ने कहा।
मूल कहानी से अनुमति के साथ पुनर्मुद्रित क्वांटा पत्रिका, का एक संपादकीय रूप से स्वतंत्र प्रकाशन सिमंस फाउंडेशन जिसका मिशन गणित और भौतिक और जीवन विज्ञान में अनुसंधान विकास और रुझानों को कवर करके विज्ञान की सार्वजनिक समझ को बढ़ाना है।