TECHAGENT - MY AI LIFE

AI মডেল বেঞ্চমার্ক

মানক: 36 · HF: 22

বেঞ্চমার্ক সম্পর্কে

বেঞ্চমার্ক হলো মানসম্মত পরীক্ষা যা যাচাই করে AI মডেল যুক্তি, জ্ঞান, গণিত ও কোডিংয়ে কতটা ভালো করে। এগুলো দিয়ে মডেল নিরপেক্ষভাবে তুলনা করুন এবং কাজের জন্য সঠিকটি বেছে নিন।

📊 মানক. স্ট্যান্ডার্ড - সর্বাধিক উদ্ধৃত চারটি পাবলিক বেঞ্চমার্ক (MMLU, GPQA, HumanEval, SWE-Bench), প্রতিটি মডেলের ঘোষণা পৃষ্ঠা থেকে নেওয়া; আমাদের স্কোর এগুলোকে একটি সংখ্যায় মেলায়।

🤗 HF Open LLM Leaderboard. HF Open LLM Leaderboard - ওপেন-সোর্স মডেলের জন্য অভিন্নভাবে মাপা ছয়টি টাস্ক (IFEval, BBH, MATH, GPQA, MuSR, MMLU-Pro); গড় অনুযায়ী র‍্যাঙ্কিং।

📚MMLU
৫৭টি একাডেমিক বিষয়
o1
OpenAI
92.3%
🔬GPQA Diamond
PhD স্তরের বিজ্ঞান প্রশ্ন
o1
OpenAI
77.3%
💻HumanEval
Python কোড জেনারেশন
DeepSeek R1
DeepSeek
92.6%
🔧SWE-Bench
বাস্তব GitHub ইঞ্জিনিয়ারিং কাজ
Claude Opus 4.1
Anthropic
74.5%
📚MMLU

৫৭টি একাডেমিক বিষয়

🔬GPQA Diamond

PhD স্তরের বিজ্ঞান প্রশ্ন

💻HumanEval

Python কোড জেনারেশন

🔧SWE-Bench

বাস্তব GitHub ইঞ্জিনিয়ারিং কাজ

#মডেলপ্রদানকারীMMLUGPQAHumanEvalSWE-Benchস্কোর
1GoogleGemma 2 27BGoogle
75.2
38.4
74.0
14.7
48.7
2GoogleGemini 1.5 FlashGoogle
78.9
37.0
78.9
16.2
50.7
3GoogleGemini 2.0 FlashGoogle
83.0
45.0
85.0
22.0
56.9
4GoogleGemini 1.5 ProGoogle
85.9
46.2
84.1
26.9
58.8
Score = MMLU×20% + GPQA×30% + HumanEval×25% + SWE-Bench×25%সব স্কোর % এ · বেশি মানে ভালো→ মূল্য ও গতিসহ সম্পূর্ণ মডেল টেবিল