AI মডেল বেঞ্চমার্ক
মানক: 36 · HF: 22
বেঞ্চমার্ক সম্পর্কে
বেঞ্চমার্ক হলো মানসম্মত পরীক্ষা যা যাচাই করে AI মডেল যুক্তি, জ্ঞান, গণিত ও কোডিংয়ে কতটা ভালো করে। এগুলো দিয়ে মডেল নিরপেক্ষভাবে তুলনা করুন এবং কাজের জন্য সঠিকটি বেছে নিন।
📊 মানক. স্ট্যান্ডার্ড - সর্বাধিক উদ্ধৃত চারটি পাবলিক বেঞ্চমার্ক (MMLU, GPQA, HumanEval, SWE-Bench), প্রতিটি মডেলের ঘোষণা পৃষ্ঠা থেকে নেওয়া; আমাদের স্কোর এগুলোকে একটি সংখ্যায় মেলায়।
🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ওপেন-সোর্স মডেলের জন্য অভিন্নভাবে মাপা ছয়টি টাস্ক (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); গড় অনুযায়ী র্যাঙ্কিং।
| # | মডেল↕ | প্রদানকারী↕ | IFEval↕ | BBH↕ | MATH↕ | GPQA↕ | MuSR↕ | MMLU-Pro↕ | গড়↑ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Microsoft | 73.8 | 38.7 | 17.0 | 7.9 | 6.5 | 32.6 | 29.4 | |
| 2 | Microsoft | 52.7 | 48.6 | 25.0 | 17.6 | 14.5 | 40.0 | 33.1 | |
| 3 | Microsoft | 68.8 | 55.3 | 50.0 | 11.5 | 10.1 | 48.6 | 40.7 |
গড় = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proসব স্কোর % এ · বেশি মানে ভালো

