Benchmarks de modelos de IA LEME Uma estrutura de avaliação padronizada e holística da Universidade de Stanford, projetada para medir o desempenho e a segurança de grandes modelos de linguagem.