एमएमएलयू

अवलोकन

MMLU (मेजरिंग मैसिव मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग) बड़े भाषा मॉडल (LLM) की सामान्य बुद्धिमत्ता का मूल्यांकन करने के लिए सबसे व्यापक रूप से मान्यता प्राप्त मानकों में से एक है। संकीर्ण परीक्षणों के विपरीत, MMLU एक मॉडल की 57 विभिन्न विषयों में समस्याओं को हल करने की क्षमता का आकलन करता है, जिनमें STEM, मानविकी, सामाजिक विज्ञान और अन्य विषय शामिल हैं।

मुख्य क्षमताएँ

  • व्यापक डोमेन कवरेज: यह परीक्षा गणित, इतिहास, कंप्यूटर विज्ञान, कानून और चिकित्सा सहित विभिन्न क्षेत्रों में ज्ञान का परीक्षण करती है।
  • जीरो-शॉट और फ्यू-शॉट मूल्यांकन: यह शोधकर्ताओं को विशिष्ट कार्यों पर पूर्व प्रशिक्षण के बिना या कुछ दिए गए उदाहरणों के साथ यह मापने की अनुमति देता है कि कोई मॉडल कितना अच्छा प्रदर्शन करता है।
  • मानकीकृत तुलना: यह विभिन्न मॉडल आर्किटेक्चर (जैसे, GPT-4, क्लाउड, लामा) की तर्क क्षमता की तुलना करने के लिए एक सुसंगत मापदंड प्रदान करता है।

के लिए सर्वश्रेष्ठ

MMLU का उपयोग मुख्य रूप से एआई शोधकर्ताओं, डेवलपर्स और मॉडल मूल्यांकनकर्ताओं द्वारा किया जाता है, जिन्हें मॉडल के विश्व ज्ञान और भाषाई तर्क क्षमताओं के कठोर, अकादमिक-स्तरीय मूल्यांकन की आवश्यकता होती है।

सीमाएँ और विचारणीय बातें

हालांकि MMLU सामान्य ज्ञान का एक सशक्त संकेतक है, यह मुख्य रूप से एक बहुविकल्पीय परीक्षा है। इसका अर्थ यह है कि यह रचनात्मक सामग्री उत्पन्न करने, जटिल निर्देशों का पालन करने या दीर्घकालिक वार्तालापीय सुसंगति बनाए रखने की मॉडल की क्षमता को पूरी तरह से नहीं दर्शा सकता है। इसके अतिरिक्त, जैसे-जैसे मॉडल को अधिक वेब डेटा पर प्रशिक्षित किया जाता है, प्रशिक्षण सेट में बेंचमार्क प्रश्नों के शामिल होने पर डेटा संदूषण का जोखिम बढ़ जाता है।

अस्वीकरण: बेंचमार्क मेट्रिक्स और मूल्यांकन पद्धतियाँ समय के साथ बदल सकती हैं। कृपया आधिकारिक पेपर्स विद कोड या अकादमिक रिपॉजिटरी पर नवीनतम लीडरबोर्ड और दस्तावेज़ों की पुष्टि करें।

जानकारी अपूर्ण या पुरानी हो सकती है; कृपया आधिकारिक वेबसाइट पर विवरण की पुष्टि करें।

अंत
0
Administrator
कॉपीराइट सूचना: हमारा मूल लेख प्रकाशित हुआ था प्रशासक 2023-10-29 को, कुल 1480 शब्द।
प्रजनन संबंधी सूचना: सामग्री तृतीय पक्षों से प्राप्त की जा सकती है और कृत्रिम बुद्धिमत्ता (AI) की सहायता से संसाधित की जा सकती है। हम सटीकता की गारंटी नहीं देते हैं। सभी ट्रेडमार्क उनके संबंधित स्वामियों के स्वामित्व में हैं।
टिप्पणी (कोई टिप्पणी नहीं)