Openai पर आरोप लगाया गया है अनेक कॉपीराइट कंटेंट सैंस की अनुमति पर इसके एआई को प्रशिक्षित करने की पार्टियां। अब एक नया कागज़ एआई वॉचडॉग संगठन द्वारा गंभीर आरोप है कि कंपनी तेजी से गैर-सार्वजनिक पुस्तकों पर निर्भर करती है, यह अधिक परिष्कृत एआई मॉडल को प्रशिक्षित करने के लिए लाइसेंस नहीं था।
एआई मॉडल अनिवार्य रूप से जटिल भविष्यवाणी इंजन हैं। बहुत सारे डेटा पर प्रशिक्षित – किताबें, फिल्में, टीवी शो, और इसी तरह – वे एक साधारण प्रॉम्प्ट से एक्सट्रपलेशन करने के लिए पैटर्न और उपन्यास के तरीके सीखते हैं। जब एक मॉडल एक ग्रीक त्रासदी पर एक निबंध “लिखता है या घिबली-शैली की छवियों को” ड्रा “करता है, तो यह केवल अपने विशाल ज्ञान से अनुमानित होने के लिए खींच रहा है। यह कुछ भी नया नहीं आ रहा है।
जबकि Openai सहित कई AI लैब्स ने AI को प्रशिक्षित करने के लिए AI- जनित डेटा को गले लगाना शुरू कर दिया है क्योंकि वे वास्तविक दुनिया के स्रोतों (मुख्य रूप से सार्वजनिक वेब) को समाप्त करते हैं, कुछ ने पूरी तरह से वास्तविक दुनिया के डेटा को छोड़ दिया है। इसकी संभावना है क्योंकि विशुद्ध रूप से सिंथेटिक डेटा पर प्रशिक्षण जोखिम के साथ आता है, जैसे कि एक मॉडल के प्रदर्शन को बिगड़ना।
मीडिया मोगुल टिम ओ’रेली और अर्थशास्त्री इलन स्ट्रॉस द्वारा 2024 में सह-स्थापना की गई एआई डिस्क्लोजर प्रोजेक्ट से बाहर नया पेपर, एक गैर-लाभकारी संस्था है, यह निष्कर्ष निकालता है कि ओपनईआई ने ओ’रेली मीडिया से पेवेल्ड पुस्तकों पर अपने जीपीटी -4 ओ मॉडल को प्रशिक्षित किया था। (ओ’रिली ओ’रेली मीडिया के सीईओ हैं।)
CHATGPT में, GPT-4O डिफ़ॉल्ट मॉडल है। O’Reilly के पास Openai के साथ लाइसेंसिंग समझौता नहीं है, पेपर कहता है।
“GPT-4O, Openai का अधिक हालिया और सक्षम मॉडल, Openai के पहले के मॉडल GPT-3.5 टर्बो की तुलना में Paywalled O’Reilly बुक कंटेंट (…) की मजबूत मान्यता को प्रदर्शित करता है,” पेपर के सह-लेखकों ने लिखा। “इसके विपरीत, GPT-3.5 टर्बो सार्वजनिक रूप से सुलभ O’Reilly पुस्तक के नमूनों की अधिक से अधिक सापेक्ष मान्यता दिखाता है।”
कागज ने एक विधि का इस्तेमाल किया डी-कॉपपहले 2024 में एक अकादमिक पेपर में पेश किया गया था, जिसे भाषा मॉडल के प्रशिक्षण डेटा में कॉपीराइट सामग्री का पता लगाने के लिए डिज़ाइन किया गया था। एक “सदस्यता निष्कर्ष हमले” के रूप में भी जाना जाता है, विधि परीक्षण करती है कि क्या एक मॉडल एक ही पाठ के पैराफ्रैड, एआई-जनित संस्करणों से मानव-लेखक ग्रंथों को मज़बूती से अलग कर सकता है। यदि यह हो सकता है, तो यह सुझाव देता है कि मॉडल को अपने प्रशिक्षण डेटा से पाठ का पूर्व ज्ञान हो सकता है।
पेपर के सह-लेखक-ओ’रेली, स्ट्रॉस, और एआई के शोधकर्ता श्रील रोसेनब्लाट-कहते हैं कि उन्होंने जीपीटी -4 ओ, जीपीटी -3.5 टर्बो, और अन्य ओपनआईई मॉडल के ज्ञान की जांच की, जो उनके प्रशिक्षण कटऑफ की तारीखों से पहले और बाद में प्रकाशित थे। उन्होंने इस संभावना का अनुमान लगाने के लिए 34 ओ’रेली बुक्स से 13,962 पैराग्राफ अंशों का उपयोग किया कि एक विशेष अंश को एक मॉडल के प्रशिक्षण डेटासेट में शामिल किया गया था।
पेपर के परिणामों के अनुसार, GPT-4O “मान्यता प्राप्त” ओपिलई के पुराने मॉडलों की तुलना में अधिक पेवेल्ड ओ’रेली बुक कंटेंट, जिसमें GPT-3.5 टर्बो भी शामिल है। यह संभावित भ्रमित कारकों के लिए लेखांकन के बाद भी है, लेखकों ने कहा, जैसे कि नए मॉडल की क्षमता में सुधार यह पता लगाने के लिए कि क्या पाठ मानव-लेखक थे।
“GPT-4O (संभावना) पहचानता है, और इसलिए इसके प्रशिक्षण कटऑफ की तारीख से पहले प्रकाशित कई गैर-सार्वजनिक ओ’रिली पुस्तकों का पूर्व ज्ञान है,” सह-लेखकों ने लिखा।
यह एक धूम्रपान बंदूक नहीं है, सह-लेखक ध्यान देने के लिए सावधान हैं। वे स्वीकार करते हैं कि उनकी प्रायोगिक विधि मूर्खतापूर्ण नहीं है, और यह कि Openai ने उपयोगकर्ताओं को कॉपी करने और चैट में पेस्ट करने के लिए पेवेल्ड बुक अंशों को एकत्र किया हो सकता है।
पानी को आगे बढ़ाते हुए, सह-लेखकों ने OpenAI के मॉडल के सबसे हालिया संग्रह का मूल्यांकन नहीं किया, जिसमें GPT-4.5 और “तर्क” मॉडल जैसे O3-Mini और O1 शामिल हैं। यह संभव है कि इन मॉडलों को Paywalled O’Reilly बुक डेटा पर प्रशिक्षित नहीं किया गया था, या GPT-4O की तुलना में कम राशि पर प्रशिक्षित किया गया था।
यह कहा जा रहा है, यह कोई रहस्य नहीं है कि Openai, जिसने कॉपीराइट डेटा का उपयोग करके मॉडल विकसित करने वाले मॉडल के आसपास शिथिल प्रतिबंधों की वकालत की है, कुछ समय के लिए उच्च गुणवत्ता वाले प्रशिक्षण डेटा की मांग कर रहा है। कंपनी इतनी दूर चली गई है अपने मॉडलों के आउटपुट को ठीक करने में मदद करने के लिए पत्रकारों को किराए पर लें। यह व्यापक उद्योग में एक प्रवृत्ति है: एआई कंपनियां विज्ञान और भौतिकी जैसे डोमेन में विशेषज्ञों की भर्ती करती हैं प्रभावी रूप से इन विशेषज्ञों ने अपने ज्ञान को एआई सिस्टम में खिलाया है।
यह ध्यान दिया जाना चाहिए कि Openai अपने कुछ प्रशिक्षण डेटा के लिए कम से कम भुगतान करता है। कंपनी के पास समाचार प्रकाशकों, सोशल नेटवर्क, स्टॉक मीडिया लाइब्रेरी और अन्य लोगों के साथ लाइसेंसिंग सौदे हैं। Openai भी ऑप्ट-आउट तंत्र प्रदान करता है- यद्यपि अपूर्ण – जो कॉपीराइट मालिकों को सामग्री को ध्वजांकित करने की अनुमति देता है, वे कंपनी को प्रशिक्षण उद्देश्यों के लिए उपयोग नहीं करना पसंद करेंगे।
फिर भी, ओपनई ने अपने प्रशिक्षण डेटा प्रथाओं और अमेरिकी अदालतों में कॉपीराइट कानून के उपचार पर कई सूटों की लड़ाई की, ओ’रिली पेपर सबसे चापलूसी वाला लुक नहीं है।
Openai ने टिप्पणी के अनुरोध का जवाब नहीं दिया।