फुदान विश्वविद्यालय की एनएलपी लैब द्वारा विकसित एक पेशेवर मूल्यांकन मानक, जिसे बड़े भाषा मॉडलों के प्रदर्शन और विश्वसनीयता को मापने के लिए डिज़ाइन किया गया है।
स्टैनफोर्ड विश्वविद्यालय द्वारा विकसित एक मानकीकृत, समग्र मूल्यांकन ढांचा, जिसे बड़े भाषा मॉडलों के प्रदर्शन और सुरक्षा को मापने के लिए डिज़ाइन किया गया है।
ओपनकम्पास शंघाई एआई लैब द्वारा विकसित एक ओपन-सोर्स मूल्यांकन ढांचा है, जिसका उद्देश्य बड़े भाषा मॉडलों के लिए मानकीकृत, व्यापक बेंचमार्किंग प्रदान करना है।
बीजिंग एकेडमी ऑफ आर्टिफिशियल इंटेलिजेंस (बीएएआई) द्वारा विकसित एक ओपन-सोर्स मूल्यांकन ढांचा, जिसका उद्देश्य एलएलएम बेंचमार्किंग को मानकीकृत और विस्तारित करना है।
MMLU एक व्यापक बेंचमार्क है जिसे विभिन्न विषयों में बड़े भाषा मॉडलों के सामान्य ज्ञान और समस्या-समाधान क्षमताओं का मूल्यांकन करने के लिए डिज़ाइन किया गया है।