तो, प्रशिक्षण डेटा है। फिर, वहाँ ठीक ट्यूनिंग और मूल्यांकन है। प्रशिक्षण डेटा में देश भर में सभी प्रकार के समस्याग्रस्त रूढ़ियाँ हो सकती हैं, लेकिन फिर पूर्वाग्रह शमन तकनीक केवल अंग्रेजी में देख सकती है। विशेष रूप से, यह उत्तर अमेरिकी और यूएस-केंद्रित है। जब आप अमेरिका में अंग्रेजी उपयोगकर्ताओं के लिए किसी तरह से पूर्वाग्रह को कम कर सकते हैं, तो आपने इसे दुनिया भर में नहीं किया है। आप अभी भी विश्व स्तर पर वास्तव में हानिकारक विचारों को बढ़ाने का जोखिम उठाते हैं क्योंकि आपने केवल अंग्रेजी पर ध्यान केंद्रित किया है।
क्या जनरेटिव एआई विभिन्न भाषाओं और संस्कृतियों के लिए नए रूढ़ियों का परिचय दे रहा है?
हम जो पा रहे हैं उसका हिस्सा है। गोरे होने का विचार बेवकूफ होने का विचार कुछ ऐसा नहीं है जो दुनिया भर में पाया जाता है, लेकिन बहुत सारी भाषाओं में पाया जाता है जो हमने देखा था।
जब आपके पास एक साझा अव्यक्त स्थान में सभी डेटा होते हैं, तो सिमेंटिक अवधारणाएं भाषाओं में स्थानांतरित हो सकती हैं। आप हानिकारक रूढ़ियों का प्रचार कर रहे हैं जो अन्य लोगों ने भी नहीं सोचा था।
क्या यह सच है कि एआई मॉडल कभी -कभी अपने आउटपुट में रूढ़ियों को केवल गंदगी बनाकर सही ठहराएंगे?
यह कुछ ऐसा था जो हमारी चर्चाओं में सामने आया कि हम क्या पा रहे थे। हम सभी तरह के अजीब थे कि कुछ रूढ़ियों को वैज्ञानिक साहित्य के संदर्भ में उचित ठहराया जा रहा था जो मौजूद नहीं थे।
आउटपुट यह कहते हुए कि, उदाहरण के लिए, विज्ञान ने आनुवंशिक अंतर दिखाए हैं जहां यह नहीं दिखाया गया है, जो वैज्ञानिक नस्लवाद का आधार है। एआई आउटपुट इन छद्म-वैज्ञानिक विचारों को आगे बढ़ा रहे थे, और फिर भाषा का उपयोग भी करते थे जो अकादमिक लेखन का सुझाव देते थे या शैक्षणिक समर्थन करते थे। इसने इन चीजों के बारे में बात की जैसे कि वे तथ्य हैं, जब वे तथ्यात्मक नहीं हैं।
शेड्स डेटासेट पर काम करते समय कुछ सबसे बड़ी चुनौतियां क्या थीं?
सबसे बड़ी चुनौतियों में से एक भाषाई मतभेदों के आसपास था। पूर्वाग्रह मूल्यांकन के लिए एक वास्तव में सामान्य दृष्टिकोण अंग्रेजी का उपयोग करना है और एक स्लॉट के साथ एक वाक्य बनाना है जैसे: “से लोग (“राष्ट्र) अविश्वसनीय हैं। ” फिर, आप विभिन्न देशों में फ्लिप करते हैं।
जब आप लिंग में डालना शुरू करते हैं, तो अब बाकी सजा लिंग पर व्याकरणिक रूप से सहमत होने लगती है। यह वास्तव में पूर्वाग्रह मूल्यांकन के लिए एक सीमा है, क्योंकि यदि आप अन्य भाषाओं में इन विपरीत स्वैप करना चाहते हैं – जो पूर्वाग्रह को मापने के लिए सुपर उपयोगी है – तो आपको बाकी वाक्य बदलना होगा। आपको अलग -अलग अनुवादों की आवश्यकता है जहां पूरा वाक्य बदल जाता है।
आप कैसे टेम्प्लेट बनाते हैं जहां पूरे वाक्य को लिंग में, संख्या में, बहुलता में, और इन सभी विभिन्न प्रकार की चीजों को स्टीरियोटाइप के लक्ष्य के साथ सहमत होने की आवश्यकता होती है? हमें इसके लिए खाते में अपने स्वयं के भाषाई एनोटेशन के साथ आना था। सौभाग्य से, कुछ लोग शामिल थे जो भाषाई नर्ड थे।
तो, अब आप इन सभी भाषाओं में इन विपरीत कथनों को कर सकते हैं, यहां तक कि वास्तव में कठिन समझौते के नियमों वाले, क्योंकि हमने इस उपन्यास को विकसित किया है, पूर्वाग्रह मूल्यांकन के लिए टेम्पलेट-आधारित दृष्टिकोण जो कि वाक्यविन्यास रूप से संवेदनशील है।
जनरेटिव एआई को कुछ समय के लिए रूढ़ियों को बढ़ाने के लिए जाना जाता है। एआई अनुसंधान के अन्य पहलुओं में इतनी प्रगति के साथ, इस प्रकार के चरम पूर्वाग्रह अभी भी प्रचलित क्यों हैं? यह एक ऐसा मुद्दा है जो अंडर-एड्रेस्ड लगता है।
यह एक बहुत बड़ा सवाल है। कुछ अलग -अलग तरह के उत्तर हैं। एक सांस्कृतिक है। मुझे लगता है कि बहुत सारी तकनीकी कंपनियों के भीतर यह माना जाता है कि यह वास्तव में एक समस्या का बड़ा नहीं है। या, यदि यह है, तो यह एक बहुत ही सरल फिक्स है। क्या प्राथमिकता दी जाएगी, अगर कुछ भी प्राथमिकता दी जाती है, तो क्या ये सरल दृष्टिकोण हैं जो गलत हो सकते हैं।
हम बहुत बुनियादी चीजों के लिए सतही सुधार प्राप्त करेंगे। यदि आप लड़कियों को गुलाबी पसंद करते हैं, तो यह एक स्टीरियोटाइप के रूप में पहचानता है, क्योंकि यह सिर्फ इस तरह की बात है कि यदि आप प्रोटोटाइपिक स्टीरियोटाइप्स के बारे में सोच रहे हैं, तो आप पर पॉप आउट हो जाते हैं, है ना? इन बहुत ही बुनियादी मामलों को संभाला जाएगा। यह एक बहुत ही सरल, सतही दृष्टिकोण है जहां ये अधिक गहराई से एम्बेडेड मान्यताओं को संबोधित नहीं किया जाता है।
यह एक सांस्कृतिक मुद्दा और एक तकनीकी मुद्दा है कि यह पता लगाने का एक तकनीकी मुद्दा है कि कैसे गहराई से अंतर्निहित पूर्वाग्रहों को प्राप्त किया जाए जो खुद को बहुत स्पष्ट भाषा में व्यक्त नहीं कर रहे हैं।