TECHAGENT - MY AI LIFE

AI মডেল বেঞ্চমার্ক

মানক: 36 · HF: 22

বেঞ্চমার্ক সম্পর্কে

বেঞ্চমার্ক হলো মানসম্মত পরীক্ষা যা যাচাই করে AI মডেল যুক্তি, জ্ঞান, গণিত ও কোডিংয়ে কতটা ভালো করে। এগুলো দিয়ে মডেল নিরপেক্ষভাবে তুলনা করুন এবং কাজের জন্য সঠিকটি বেছে নিন।

📊 মানক. স্ট্যান্ডার্ড - সর্বাধিক উদ্ধৃত চারটি পাবলিক বেঞ্চমার্ক (MMLU, GPQA, HumanEval, SWE-Bench), প্রতিটি মডেলের ঘোষণা পৃষ্ঠা থেকে নেওয়া; আমাদের স্কোর এগুলোকে একটি সংখ্যায় মেলায়।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ওপেন-সোর্স মডেলের জন্য অভিন্নভাবে মাপা ছয়টি টাস্ক (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); গড় অনুযায়ী র‍্যাঙ্কিং।

🤗

HF Open LLM Leaderboard v2

IFEval · BBH · MATH · GPQA · MuSR · MMLU-Pro

এ খুলুন HF →
#মডেলপ্রদানকারীIFEvalBBHMATHGPQAMuSRMMLU-Proগড়
1MetaLlama 3 8B InstructOSSMeta
24.0
18.4
3.9
2.1
19.9
17.8
14.3
2MetaLlama 3.2 1B InstructOSSMeta
58.1
8.3
8.2
2.4
1.9
8.2
14.5
3MetaLlama 3.1 8B InstructOSSMeta
50.6
29.2
15.5
9.5
8.5
30.9
24.0
4MetaLlama 3.2 3B Instruct (free)OSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
5MetaLlama 3.2 3BOSSMeta
73.9
24.1
17.7
3.8
1.4
24.4
24.2
6MetaLlama 3.1 70B InstructOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
7MetaLlama 3.1 70BOSSMeta
86.7
55.9
38.1
14.2
17.7
47.9
43.4
8MetaLlama 3.3 70B Instruct (free)OSSMeta
90.0
56.6
48.3
10.5
15.6
48.1
44.9
গড় = IFEval · BBH · MATH · GPQA · MuSR · MMLU-Proসব স্কোর % এ · বেশি মানে ভালো