AI মডেল বেঞ্চমার্ক
মানক: 36 · HF: 22
বেঞ্চমার্ক সম্পর্কে
বেঞ্চমার্ক হলো মানসম্মত পরীক্ষা যা যাচাই করে AI মডেল যুক্তি, জ্ঞান, গণিত ও কোডিংয়ে কতটা ভালো করে। এগুলো দিয়ে মডেল নিরপেক্ষভাবে তুলনা করুন এবং কাজের জন্য সঠিকটি বেছে নিন।
📊 মানক. স্ট্যান্ডার্ড - সর্বাধিক উদ্ধৃত চারটি পাবলিক বেঞ্চমার্ক (MMLU, GPQA, HumanEval, SWE-Bench), প্রতিটি মডেলের ঘোষণা পৃষ্ঠা থেকে নেওয়া; আমাদের স্কোর এগুলোকে একটি সংখ্যায় মেলায়।
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ওপেন-সোর্স মডেলের জন্য অভিন্নভাবে মাপা ছয়টি টাস্ক (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); গড় অনুযায়ী র্যাঙ্কিং।
| # | মডেল↕ | প্রদানকারী↕ | IFEval↕ | BBH↕ | MATH↕ | GPQA↕ | MuSR↕ | MMLU-Pro↕ | গড়↑ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Mistral AI | 44.9 | 7.7 | 2.3 | 0.0 | 6.1 | 15.7 | 12.8 | |
| 2 | Meta | 24.0 | 18.4 | 3.9 | 2.1 | 19.9 | 17.8 | 14.3 | |
| 3 | Meta | 58.1 | 8.3 | 8.2 | 2.4 | 1.9 | 8.2 | 14.5 | |
| 4 | Hermes 2 Pro - Llama-3 8BOSS | Nousresearch | 53.6 | 30.7 | 8.4 | 5.7 | 11.3 | 22.8 | 22.1 |
| 5 | DeepSeek | 41.9 | 17.1 | 17.1 | 4.6 | 16.1 | 41.0 | 23.0 | |
| 6 | Meta | 50.6 | 29.2 | 15.5 | 9.5 | 8.5 | 30.9 | 24.0 | |
| 7 | Meta | 73.9 | 24.1 | 17.7 | 3.8 | 1.4 | 24.4 | 24.2 | |
| 8 | Meta | 73.9 | 24.1 | 17.7 | 3.8 | 1.4 | 24.4 | 24.2 | |
| 9 | DeepSeek | 43.4 | 35.8 | 30.7 | 2.0 | 13.3 | 41.6 | 27.8 | |
| 10 | Microsoft | 73.8 | 38.7 | 17.0 | 7.9 | 6.5 | 32.6 | 29.4 | |
| 11 | Microsoft | 52.7 | 48.6 | 25.0 | 17.6 | 14.5 | 40.0 | 33.1 | |
| 12 | Alibaba/Qwen | 75.8 | 34.9 | 50.0 | 5.5 | 8.4 | 36.5 | 35.2 | |
| 13 | 79.8 | 49.3 | 23.9 | 16.7 | 9.1 | 38.4 | 36.2 | ||
| 14 | Hermes 3 70B InstructOSS | Nousresearch | 76.6 | 53.8 | 21.0 | 14.9 | 23.4 | 41.4 | 38.5 |
| 15 | Alibaba/Qwen | 72.7 | 52.3 | 49.5 | 13.2 | 13.7 | 37.9 | 39.9 | |
| 16 | Alibaba/Qwen | 72.7 | 52.3 | 49.5 | 13.2 | 13.7 | 37.9 | 39.9 | |
| 17 | Microsoft | 68.8 | 55.3 | 50.0 | 11.5 | 10.1 | 48.6 | 40.7 | |
| 18 | Meta | 86.7 | 55.9 | 38.1 | 14.2 | 17.7 | 47.9 | 43.4 | |
| 19 | Meta | 86.7 | 55.9 | 38.1 | 14.2 | 17.7 | 47.9 | 43.4 | |
| 20 | Meta | 90.0 | 56.6 | 48.3 | 10.5 | 15.6 | 48.1 | 44.9 | |
| 21 | Alibaba/Qwen | 86.4 | 61.9 | 59.8 | 16.7 | 11.7 | 51.4 | 48.0 | |
| 22 | Alibaba/Qwen | 86.4 | 61.9 | 59.8 | 16.7 | 11.7 | 51.4 | 48.0 |
গড় = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proসব স্কোর % এ · বেশি মানে ভালো

