मॉडल परीक्षण

एआई मॉडल बेंचमार्क एलएलएमईवल3

फुदान विश्वविद्यालय की एनएलपी लैब द्वारा विकसित एक पेशेवर मूल्यांकन मानक, जिसे बड़े भाषा मॉडलों के प्रदर्शन और विश्वसनीयता को मापने के लिए डिज़ाइन किया गया है।

एआई मॉडल बेंचमार्क हेल्म

स्टैनफोर्ड विश्वविद्यालय द्वारा विकसित एक मानकीकृत, समग्र मूल्यांकन ढांचा, जिसे बड़े भाषा मॉडलों के प्रदर्शन और सुरक्षा को मापने के लिए डिज़ाइन किया गया है।

एआई मॉडल बेंचमार्क ओपनकम्पास

ओपनकम्पास शंघाई एआई लैब द्वारा विकसित एक ओपन-सोर्स मूल्यांकन ढांचा है, जिसका उद्देश्य बड़े भाषा मॉडलों के लिए मानकीकृत, व्यापक बेंचमार्किंग प्रदान करना है।

एआई मॉडल बेंचमार्क FlagEval

बीजिंग एकेडमी ऑफ आर्टिफिशियल इंटेलिजेंस (बीएएआई) द्वारा विकसित एक ओपन-सोर्स मूल्यांकन ढांचा, जिसका उद्देश्य एलएलएम बेंचमार्किंग को मानकीकृत और विस्तारित करना है।

एआई मॉडल बेंचमार्क एमएमएलयू

MMLU एक व्यापक बेंचमार्क है जिसे विभिन्न विषयों में बड़े भाषा मॉडलों के सामान्य ज्ञान और समस्या-समाधान क्षमताओं का मूल्यांकन करने के लिए डिज़ाइन किया गया है।

एआई मॉडल बेंचमार्क सी-मूल्यांकन

यह एक व्यापक मूल्यांकन किट है जिसे विशेष रूप से चीनी भाषा में बड़े भाषा मॉडल (एलएलएम) के ज्ञान और क्षमताओं का आकलन करने के लिए डिज़ाइन किया गया है।

एआई मॉडल बेंचमार्क सुपरक्लू

एक पेशेवर मूल्यांकन ढांचा जो चीनी भाषा के एआई मॉडल की बुद्धिमत्ता और उपयोगिता को मापने के लिए मानकीकृत मानदंड प्रदान करता है।

एआई मॉडल बेंचमार्क सीएमएमएलयू

चीनी भाषा में बड़े भाषा मॉडलों के सामान्य ज्ञान और भाषाई क्षमताओं को मापने के लिए डिज़ाइन किया गया एक व्यापक मूल्यांकन मानदंड।