معايير نماذج AI

قياسي: 36 · HF: 22

حول المعايير

المعايير اختبارات موحّدة تقيّم أداء نماذج الذكاء الاصطناعي في الاستدلال والمعرفة والرياضيات والبرمجة. استخدمها لمقارنة النماذج بموضوعية واختيار الأنسب لمهمتك.

📊 قياسي. المعايير القياسية - أربعة معايير عامة الأكثر استشهاداً (MMLU وGPQA وHumanEval وSWE-Bench)، مأخوذة من صفحة إعلان كل نموذج؛ وتجمعها درجتنا في رقم واحد.

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ست مهام (IFEval وBBH وMATH وGPQA وMuSR وMMLU-Pro) تُقاس بشكل موحّد للنماذج مفتوحة المصدر؛ ويُرتّبها المتوسط.

📊 قياسي (MMLU · GPQA · HumanEval · SWE-Bench)🤗 HF Open LLM Leaderboard

📚MMLU

57 مادة أكاديمية

OpenAI

92.3%

🔬GPQA Diamond

أسئلة علمية بمستوى دكتوراه

OpenAI

77.3%

💻HumanEval

توليد كود Python

DeepSeek R1

DeepSeek

92.6%

🔧SWE-Bench

مهام هندسية حقيقية من GitHub

Claude Opus 4.1

Anthropic

74.5%