| { | |
| "RelicEnv": { | |
| "qwen2.5-3b-instruct": 0.576, | |
| "qwen2.5-7b-instruct": 0.5228666666666666, | |
| "qwen2.5-14b-instruct": 0.3816, | |
| "qwen2.5-32b-instruct": 0.4269333333333333, | |
| "qwen2.5-72b-instruct": 0.3848666666666667, | |
| "llama-3.1-8b-instruct": 0.6459999999999999, | |
| "llama-3.1-70b-instruct": 0.41696190476190476, | |
| "llama-3.2-3b-instruct": 0.5766095238095238, | |
| "llama-3.3-70b-instruct": 0.33466666666666656, | |
| "mistral-large-instruct-2411": 0.492, | |
| "gemma-2-27b-it": 0.48513333333333336, | |
| "gemma-2-9b-it": 0.668695238095238, | |
| "deepseek-v3": 0.5289999999999999, | |
| "deepseek-r1": 0.523295238095238, | |
| "qwq-32b": 0.5080190476190476, | |
| "Average": 0.49817650793650786 | |
| }, | |
| "HerbEnv": { | |
| "qwen2.5-3b-instruct": 0.6345333333333334, | |
| "qwen2.5-7b-instruct": 0.6564, | |
| "qwen2.5-14b-instruct": 0.4304, | |
| "qwen2.5-32b-instruct": 0.4564666666666667, | |
| "qwen2.5-72b-instruct": 0.43260000000000004, | |
| "llama-3.1-8b-instruct": 0.7072, | |
| "llama-3.1-70b-instruct": 0.4986, | |
| "llama-3.2-3b-instruct": 0.7223333333333333, | |
| "llama-3.3-70b-instruct": 0.49833333333333335, | |
| "mistral-large-instruct-2411": 0.5494, | |
| "gemma-2-27b-it": 0.5511999999999999, | |
| "gemma-2-9b-it": 0.7503333333333334, | |
| "deepseek-v3": 0.42873333333333336, | |
| "deepseek-r1": 0.5064666666666666, | |
| "qwq-32b": 0.5062666666666666, | |
| "Average": 0.5552844444444445 | |
| }, | |
| "TransdimensionalEnv": { | |
| "qwen2.5-3b-instruct": 0.8419333333333332, | |
| "qwen2.5-7b-instruct": 0.7645333333333333, | |
| "qwen2.5-14b-instruct": 0.5994666666666667, | |
| "qwen2.5-32b-instruct": 0.5703333333333334, | |
| "qwen2.5-72b-instruct": 0.5725333333333333, | |
| "llama-3.1-8b-instruct": 0.8210666666666666, | |
| "llama-3.1-70b-instruct": 0.5205333333333333, | |
| "llama-3.2-3b-instruct": 0.7700666666666665, | |
| "llama-3.3-70b-instruct": 0.5580666666666667, | |
| "mistral-large-instruct-2411": 0.6012666666666666, | |
| "gemma-2-27b-it": 0.7089999999999999, | |
| "gemma-2-9b-it": 0.9037333333333333, | |
| "deepseek-v3": 0.6178, | |
| "deepseek-r1": 0.5913999999999999, | |
| "qwq-32b": 0.653, | |
| "Average": 0.6729822222222223 | |
| }, | |
| "SorcererEnv": { | |
| "qwen2.5-3b-instruct": 1.0192666666666665, | |
| "qwen2.5-7b-instruct": 1.0209333333333332, | |
| "qwen2.5-14b-instruct": 0.7593333333333334, | |
| "qwen2.5-32b-instruct": 0.8110666666666667, | |
| "qwen2.5-72b-instruct": 0.7878666666666667, | |
| "llama-3.1-8b-instruct": 1.0720666666666667, | |
| "llama-3.1-70b-instruct": 0.7602666666666668, | |
| "llama-3.2-3b-instruct": 1.0208666666666666, | |
| "llama-3.3-70b-instruct": 0.7425333333333334, | |
| "mistral-large-instruct-2411": 0.8440666666666667, | |
| "gemma-2-27b-it": 0.8615333333333333, | |
| "gemma-2-9b-it": 1.1598666666666666, | |
| "deepseek-v3": 0.8091333333333333, | |
| "deepseek-r1": 0.8958, | |
| "qwq-32b": 0.8321999999999999, | |
| "Average": 0.89312 | |
| }, | |
| "QuantumEnv": { | |
| "qwen2.5-3b-instruct": 1.0699999999999998, | |
| "qwen2.5-7b-instruct": 0.8955333333333334, | |
| "qwen2.5-14b-instruct": 0.7378666666666667, | |
| "qwen2.5-32b-instruct": 0.7390666666666666, | |
| "qwen2.5-72b-instruct": 0.649, | |
| "llama-3.1-8b-instruct": 1.083, | |
| "llama-3.1-70b-instruct": 0.7020666666666668, | |
| "llama-3.2-3b-instruct": 1.0911333333333335, | |
| "llama-3.3-70b-instruct": 0.6975333333333333, | |
| "mistral-large-instruct-2411": 0.7345333333333333, | |
| "gemma-2-27b-it": 0.7445333333333334, | |
| "gemma-2-9b-it": 1.1341999999999999, | |
| "deepseek-v3": 0.7477333333333334, | |
| "deepseek-r1": 0.7415333333333334, | |
| "qwq-32b": 0.7549333333333333, | |
| "Average": 0.8348444444444444 | |
| }, | |
| "AstronomyEnv": { | |
| "qwen2.5-3b-instruct": 0.8259333333333334, | |
| "qwen2.5-7b-instruct": 0.8053333333333335, | |
| "qwen2.5-14b-instruct": 0.4937333333333333, | |
| "qwen2.5-32b-instruct": 0.5776666666666666, | |
| "qwen2.5-72b-instruct": 0.4677999999999999, | |
| "llama-3.1-8b-instruct": 0.836, | |
| "llama-3.1-70b-instruct": 0.5228, | |
| "llama-3.2-3b-instruct": 0.8694000000000001, | |
| "llama-3.3-70b-instruct": 0.5525333333333332, | |
| "mistral-large-instruct-2411": 0.4943999999999999, | |
| "gemma-2-27b-it": 0.6376000000000001, | |
| "gemma-2-9b-it": 0.7730666666666668, | |
| "deepseek-v3": 0.5540666666666666, | |
| "deepseek-r1": 0.4287333333333333, | |
| "qwq-32b": 0.4580666666666667, | |
| "Average": 0.6198088888888889 | |
| }, | |
| "MusicGenresEnv": { | |
| "qwen2.5-3b-instruct": 0.6298666666666667, | |
| "qwen2.5-7b-instruct": 0.5864666666666667, | |
| "qwen2.5-14b-instruct": 0.3452, | |
| "qwen2.5-32b-instruct": 0.37546666666666667, | |
| "qwen2.5-72b-instruct": 0.398, | |
| "llama-3.1-8b-instruct": 0.6799999999999999, | |
| "llama-3.1-70b-instruct": 0.44333333333333336, | |
| "llama-3.2-3b-instruct": 0.8452, | |
| "llama-3.3-70b-instruct": 0.49539999999999995, | |
| "mistral-large-instruct-2411": 0.3673333333333333, | |
| "gemma-2-27b-it": 0.5542666666666667, | |
| "gemma-2-9b-it": 0.6927333333333332, | |
| "deepseek-v3": 0.3997333333333334, | |
| "deepseek-r1": 0.3074, | |
| "qwq-32b": 0.30833333333333335, | |
| "Average": 0.49524888888888896 | |
| }, | |
| "CloudEnv": { | |
| "qwen2.5-3b-instruct": 0.7101999999999999, | |
| "qwen2.5-7b-instruct": 0.6398380952380952, | |
| "qwen2.5-14b-instruct": 0.2948095238095238, | |
| "qwen2.5-32b-instruct": 0.39837142857142854, | |
| "qwen2.5-72b-instruct": 0.3368666666666667, | |
| "llama-3.1-8b-instruct": 0.6846857142857142, | |
| "llama-3.1-70b-instruct": 0.4453333333333333, | |
| "llama-3.2-3b-instruct": 0.7733333333333332, | |
| "llama-3.3-70b-instruct": 0.4490380952380952, | |
| "mistral-large-instruct-2411": 0.23912380952380952, | |
| "gemma-2-27b-it": 0.406047619047619, | |
| "gemma-2-9b-it": 0.675342857142857, | |
| "deepseek-v3": 0.3188952380952381, | |
| "deepseek-r1": 0.16405714285714285, | |
| "qwq-32b": 0.20542857142857143, | |
| "Average": 0.44942476190476194 | |
| }, | |
| "CuisineEnv": { | |
| "qwen2.5-3b-instruct": 1.0595999999999999, | |
| "qwen2.5-7b-instruct": 1.085838095238095, | |
| "qwen2.5-14b-instruct": 0.882352380952381, | |
| "qwen2.5-32b-instruct": 0.9331333333333334, | |
| "qwen2.5-72b-instruct": 0.873, | |
| "llama-3.1-8b-instruct": 1.1925238095238095, | |
| "llama-3.1-70b-instruct": 0.9360190476190476, | |
| "llama-3.2-3b-instruct": 1.2040571428571427, | |
| "llama-3.3-70b-instruct": 1.0072571428571429, | |
| "mistral-large-instruct-2411": 0.9003428571428571, | |
| "gemma-2-27b-it": 1.1492285714285715, | |
| "gemma-2-9b-it": 1.2268285714285714, | |
| "deepseek-v3": 0.8427809523809524, | |
| "deepseek-r1": 0.8026761904761905, | |
| "qwq-32b": 0.8055523809523809, | |
| "Average": 0.9934126984126983 | |
| }, | |
| "PlantEnv": { | |
| "qwen2.5-3b-instruct": 0.6316666666666666, | |
| "qwen2.5-7b-instruct": 0.6612000000000001, | |
| "qwen2.5-14b-instruct": 0.6797333333333333, | |
| "qwen2.5-32b-instruct": 0.7276666666666667, | |
| "qwen2.5-72b-instruct": 0.6846666666666665, | |
| "llama-3.1-8b-instruct": 0.7318666666666667, | |
| "llama-3.1-70b-instruct": 0.6868666666666666, | |
| "llama-3.2-3b-instruct": 0.7314, | |
| "llama-3.3-70b-instruct": 0.739, | |
| "mistral-large-instruct-2411": 0.6728666666666665, | |
| "gemma-2-27b-it": 0.7182666666666666, | |
| "gemma-2-9b-it": 0.7471333333333334, | |
| "deepseek-v3": 0.6415333333333332, | |
| "deepseek-r1": 0.6114666666666666, | |
| "qwq-32b": 0.6385333333333333, | |
| "Average": 0.6869244444444446 | |
| }, | |
| "HistoricalEnv": { | |
| "qwen2.5-3b-instruct": 0.5945333333333332, | |
| "qwen2.5-7b-instruct": 0.5029999999999999, | |
| "qwen2.5-14b-instruct": 0.41719999999999996, | |
| "qwen2.5-32b-instruct": 0.49926666666666664, | |
| "qwen2.5-72b-instruct": 0.4616666666666667, | |
| "llama-3.1-8b-instruct": 0.6741999999999999, | |
| "llama-3.1-70b-instruct": 0.43866666666666665, | |
| "llama-3.2-3b-instruct": 0.6622666666666666, | |
| "llama-3.3-70b-instruct": 0.44580000000000003, | |
| "mistral-large-instruct-2411": 0.30566666666666664, | |
| "gemma-2-27b-it": 0.43679999999999997, | |
| "gemma-2-9b-it": 0.6955333333333333, | |
| "deepseek-v3": 0.3064, | |
| "deepseek-r1": 0.1416, | |
| "qwq-32b": 0.19106666666666666, | |
| "Average": 0.4515777777777778 | |
| }, | |
| "GadgetEnv": { | |
| "qwen2.5-3b-instruct": 0.7405999999999999, | |
| "qwen2.5-7b-instruct": 0.7083999999999999, | |
| "qwen2.5-14b-instruct": 0.48, | |
| "qwen2.5-32b-instruct": 0.5347999999999999, | |
| "qwen2.5-72b-instruct": 0.48633333333333334, | |
| "llama-3.1-8b-instruct": 0.7890666666666666, | |
| "llama-3.1-70b-instruct": 0.4845999999999999, | |
| "llama-3.2-3b-instruct": 0.7646, | |
| "llama-3.3-70b-instruct": 0.5077999999999999, | |
| "mistral-large-instruct-2411": 0.6042666666666665, | |
| "gemma-2-27b-it": 0.6635333333333333, | |
| "gemma-2-9b-it": 0.8321333333333332, | |
| "deepseek-v3": 0.5766666666666667, | |
| "deepseek-r1": 0.6070666666666666, | |
| "qwq-32b": 0.6155333333333333, | |
| "Average": 0.6263599999999999 | |
| }, | |
| "TimeTravelEnv": { | |
| "qwen2.5-3b-instruct": 0.976, | |
| "qwen2.5-7b-instruct": 0.8145999999999999, | |
| "qwen2.5-14b-instruct": 0.6627333333333333, | |
| "qwen2.5-32b-instruct": 0.6956666666666667, | |
| "qwen2.5-72b-instruct": 0.6541333333333333, | |
| "llama-3.1-8b-instruct": 0.8264666666666665, | |
| "llama-3.1-70b-instruct": 0.6590666666666667, | |
| "llama-3.2-3b-instruct": 0.8872666666666665, | |
| "llama-3.3-70b-instruct": 0.7066000000000001, | |
| "mistral-large-instruct-2411": 0.7033333333333334, | |
| "gemma-2-27b-it": 0.8493333333333334, | |
| "gemma-2-9b-it": 1.0604666666666667, | |
| "deepseek-v3": 0.7296666666666667, | |
| "deepseek-r1": 0.6510666666666667, | |
| "qwq-32b": 0.6808666666666667, | |
| "Average": 0.7704844444444444 | |
| }, | |
| "PollutionEnv": { | |
| "qwen2.5-3b-instruct": 0.8957809523809523, | |
| "qwen2.5-7b-instruct": 0.8026, | |
| "qwen2.5-14b-instruct": 0.6021904761904762, | |
| "qwen2.5-32b-instruct": 0.6871238095238095, | |
| "qwen2.5-72b-instruct": 0.6281809523809524, | |
| "llama-3.1-8b-instruct": 0.9049904761904761, | |
| "llama-3.1-70b-instruct": 0.609295238095238, | |
| "llama-3.2-3b-instruct": 0.9090761904761905, | |
| "llama-3.3-70b-instruct": 0.615352380952381, | |
| "mistral-large-instruct-2411": 0.595695238095238, | |
| "gemma-2-27b-it": 0.7770761904761903, | |
| "gemma-2-9b-it": 0.8730190476190476, | |
| "deepseek-v3": 0.6199238095238095, | |
| "deepseek-r1": 0.5457142857142857, | |
| "qwq-32b": 0.5781333333333333, | |
| "Average": 0.7096101587301588 | |
| }, | |
| "DemographicEnv": { | |
| "qwen2.5-3b-instruct": 1.2349333333333334, | |
| "qwen2.5-7b-instruct": 0.9282, | |
| "qwen2.5-14b-instruct": 0.8947999999999998, | |
| "qwen2.5-32b-instruct": 0.8493999999999999, | |
| "qwen2.5-72b-instruct": 0.8458, | |
| "llama-3.1-8b-instruct": 1.1641333333333332, | |
| "llama-3.1-70b-instruct": 0.8899333333333332, | |
| "llama-3.2-3b-instruct": 1.1756666666666669, | |
| "llama-3.3-70b-instruct": 0.8181999999999998, | |
| "mistral-large-instruct-2411": 0.8889333333333335, | |
| "gemma-2-27b-it": 1.1206, | |
| "gemma-2-9b-it": 1.2548, | |
| "deepseek-v3": 0.937, | |
| "deepseek-r1": 0.8470666666666669, | |
| "qwq-32b": 0.8959333333333334, | |
| "Average": 0.9830266666666666 | |
| }, | |
| "GeneticEnv": { | |
| "qwen2.5-3b-instruct": 0.8742666666666669, | |
| "qwen2.5-7b-instruct": 0.7093333333333331, | |
| "qwen2.5-14b-instruct": 0.40293333333333337, | |
| "qwen2.5-32b-instruct": 0.44313333333333327, | |
| "qwen2.5-72b-instruct": 0.42733333333333323, | |
| "llama-3.1-8b-instruct": 0.7788666666666665, | |
| "llama-3.1-70b-instruct": 0.39159999999999995, | |
| "llama-3.2-3b-instruct": 0.8340666666666667, | |
| "llama-3.3-70b-instruct": 0.4035333333333334, | |
| "mistral-large-instruct-2411": 0.4183333333333333, | |
| "gemma-2-27b-it": 0.4676666666666667, | |
| "gemma-2-9b-it": 0.8420000000000002, | |
| "deepseek-v3": 0.39733333333333337, | |
| "deepseek-r1": 0.3223333333333333, | |
| "qwq-32b": 0.4328, | |
| "Average": 0.5430355555555555 | |
| }, | |
| "CraftsmanEnv": { | |
| "qwen2.5-3b-instruct": 0.8531238095238095, | |
| "qwen2.5-7b-instruct": 0.8701333333333332, | |
| "qwen2.5-14b-instruct": 0.636152380952381, | |
| "qwen2.5-32b-instruct": 0.5899619047619048, | |
| "qwen2.5-72b-instruct": 0.6157428571428571, | |
| "llama-3.1-8b-instruct": 0.906847619047619, | |
| "llama-3.1-70b-instruct": 0.6374285714285713, | |
| "llama-3.2-3b-instruct": 0.9079333333333333, | |
| "llama-3.3-70b-instruct": 0.7432857142857142, | |
| "mistral-large-instruct-2411": 0.5945047619047619, | |
| "gemma-2-27b-it": 0.8030285714285714, | |
| "gemma-2-9b-it": 0.9558666666666668, | |
| "deepseek-v3": 0.6411523809523809, | |
| "deepseek-r1": 0.572504761904762, | |
| "qwq-32b": 0.5707142857142857, | |
| "Average": 0.7265587301587301 | |
| }, | |
| "StarConstellationEnv": { | |
| "qwen2.5-3b-instruct": 0.9018, | |
| "qwen2.5-7b-instruct": 0.8849999999999998, | |
| "qwen2.5-14b-instruct": 0.6111333333333333, | |
| "qwen2.5-32b-instruct": 0.6682, | |
| "qwen2.5-72b-instruct": 0.6413333333333333, | |
| "llama-3.1-8b-instruct": 0.8276666666666668, | |
| "llama-3.1-70b-instruct": 0.6845333333333333, | |
| "llama-3.2-3b-instruct": 0.8996666666666666, | |
| "llama-3.3-70b-instruct": 0.7238666666666665, | |
| "mistral-large-instruct-2411": 0.6063333333333333, | |
| "gemma-2-27b-it": 0.6717333333333333, | |
| "gemma-2-9b-it": 0.8695999999999999, | |
| "deepseek-v3": 0.55, | |
| "deepseek-r1": 0.4897333333333334, | |
| "qwq-32b": 0.5618000000000001, | |
| "Average": 0.7061600000000001 | |
| }, | |
| "MythicalCreatureEnv": { | |
| "qwen2.5-3b-instruct": 0.9463333333333332, | |
| "qwen2.5-7b-instruct": 1.0008666666666666, | |
| "qwen2.5-14b-instruct": 0.8189999999999997, | |
| "qwen2.5-32b-instruct": 0.7707333333333333, | |
| "qwen2.5-72b-instruct": 0.8385333333333334, | |
| "llama-3.1-8b-instruct": 1.0950666666666666, | |
| "llama-3.1-70b-instruct": 0.7916, | |
| "llama-3.2-3b-instruct": 1.1887333333333332, | |
| "llama-3.3-70b-instruct": 0.7888666666666666, | |
| "mistral-large-instruct-2411": 0.7903999999999999, | |
| "gemma-2-27b-it": 0.9704666666666666, | |
| "gemma-2-9b-it": 1.1304666666666665, | |
| "deepseek-v3": 0.7574, | |
| "deepseek-r1": 0.7734, | |
| "qwq-32b": 0.7396, | |
| "Average": 0.8934311111111112 | |
| }, | |
| "ArtStyleEnv": { | |
| "qwen2.5-3b-instruct": 0.9593238095238095, | |
| "qwen2.5-7b-instruct": 0.8611714285714285, | |
| "qwen2.5-14b-instruct": 0.6572000000000001, | |
| "qwen2.5-32b-instruct": 0.6888190476190477, | |
| "qwen2.5-72b-instruct": 0.6664380952380953, | |
| "llama-3.1-8b-instruct": 0.9826952380952381, | |
| "llama-3.1-70b-instruct": 0.6773714285714286, | |
| "llama-3.2-3b-instruct": 1.0108000000000001, | |
| "llama-3.3-70b-instruct": 0.7458571428571428, | |
| "mistral-large-instruct-2411": 0.627504761904762, | |
| "gemma-2-27b-it": 0.8328380952380952, | |
| "gemma-2-9b-it": 1.0002666666666666, | |
| "deepseek-v3": 0.723047619047619, | |
| "deepseek-r1": 0.666, | |
| "qwq-32b": 0.6872952380952381, | |
| "Average": 0.7857752380952383 | |
| }, | |
| "CookingEnv": { | |
| "qwen2.5-3b-instruct": 0.9731333333333332, | |
| "qwen2.5-7b-instruct": 0.8531999999999998, | |
| "qwen2.5-14b-instruct": 0.6777333333333333, | |
| "qwen2.5-32b-instruct": 0.6949333333333334, | |
| "qwen2.5-72b-instruct": 0.6868666666666666, | |
| "llama-3.1-8b-instruct": 0.9575333333333333, | |
| "llama-3.1-70b-instruct": 0.6741333333333334, | |
| "llama-3.2-3b-instruct": 0.9920666666666665, | |
| "llama-3.3-70b-instruct": 0.7073999999999999, | |
| "mistral-large-instruct-2411": 0.6852, | |
| "gemma-2-27b-it": 0.8009999999999998, | |
| "gemma-2-9b-it": 0.9400666666666666, | |
| "deepseek-v3": 0.6910000000000001, | |
| "deepseek-r1": 0.6202666666666665, | |
| "qwq-32b": 0.5726666666666667, | |
| "Average": 0.7684799999999999 | |
| }, | |
| "HistoricalBattleEnv": { | |
| "qwen2.5-3b-instruct": 0.3906380952380952, | |
| "qwen2.5-7b-instruct": 0.39269523809523804, | |
| "qwen2.5-14b-instruct": 0.36508571428571424, | |
| "qwen2.5-32b-instruct": 0.3839047619047619, | |
| "qwen2.5-72b-instruct": 0.37189523809523806, | |
| "llama-3.1-8b-instruct": 0.5100190476190476, | |
| "llama-3.1-70b-instruct": 0.3623142857142857, | |
| "llama-3.2-3b-instruct": 0.5539428571428571, | |
| "llama-3.3-70b-instruct": 0.3407428571428571, | |
| "mistral-large-instruct-2411": 0.26249523809523806, | |
| "gemma-2-27b-it": 0.3749619047619047, | |
| "gemma-2-9b-it": 0.4291904761904761, | |
| "deepseek-v3": 0.2707428571428572, | |
| "deepseek-r1": 0.12205714285714286, | |
| "qwq-32b": 0.1069238095238095, | |
| "Average": 0.34917396825396824 | |
| }, | |
| "FungalEnv": { | |
| "qwen2.5-3b-instruct": 0.9867619047619047, | |
| "qwen2.5-7b-instruct": 0.7690285714285714, | |
| "qwen2.5-14b-instruct": 0.5497523809523809, | |
| "qwen2.5-32b-instruct": 0.5654571428571428, | |
| "qwen2.5-72b-instruct": 0.5338571428571429, | |
| "llama-3.1-8b-instruct": 0.9299904761904761, | |
| "llama-3.1-70b-instruct": 0.6940095238095237, | |
| "llama-3.2-3b-instruct": 1.0453999999999999, | |
| "llama-3.3-70b-instruct": 0.6804285714285714, | |
| "mistral-large-instruct-2411": 0.5070380952380952, | |
| "gemma-2-27b-it": 0.6260571428571428, | |
| "gemma-2-9b-it": 1.0525142857142857, | |
| "deepseek-v3": 0.4512380952380953, | |
| "deepseek-r1": 0.41535238095238086, | |
| "qwq-32b": 0.4612952380952381, | |
| "Average": 0.6845453968253967 | |
| }, | |
| "CryptographyEnv": { | |
| "qwen2.5-3b-instruct": 0.7157333333333333, | |
| "qwen2.5-7b-instruct": 0.7917428571428571, | |
| "qwen2.5-14b-instruct": 0.5772095238095238, | |
| "qwen2.5-32b-instruct": 0.5362666666666666, | |
| "qwen2.5-72b-instruct": 0.5816380952380952, | |
| "llama-3.1-8b-instruct": 0.7762666666666667, | |
| "llama-3.1-70b-instruct": 0.5880761904761905, | |
| "llama-3.2-3b-instruct": 0.9222476190476192, | |
| "llama-3.3-70b-instruct": 0.6200666666666668, | |
| "mistral-large-instruct-2411": 0.43243809523809523, | |
| "gemma-2-27b-it": 0.6965333333333332, | |
| "gemma-2-9b-it": 0.9170952380952381, | |
| "deepseek-v3": 0.4242190476190476, | |
| "deepseek-r1": 0.31665714285714286, | |
| "qwq-32b": 0.3307142857142857, | |
| "Average": 0.6151269841269841 | |
| }, | |
| "StorageEnv": { | |
| "qwen2.5-3b-instruct": 0.5999999999999999, | |
| "qwen2.5-7b-instruct": 0.5174666666666666, | |
| "qwen2.5-14b-instruct": 0.26799999999999996, | |
| "qwen2.5-32b-instruct": 0.3171333333333333, | |
| "qwen2.5-72b-instruct": 0.30706666666666665, | |
| "llama-3.1-8b-instruct": 0.6547333333333333, | |
| "llama-3.1-70b-instruct": 0.3390666666666667, | |
| "llama-3.2-3b-instruct": 0.6575333333333333, | |
| "llama-3.3-70b-instruct": 0.2899333333333334, | |
| "mistral-large-instruct-2411": 0.28440000000000004, | |
| "gemma-2-27b-it": 0.4133333333333333, | |
| "gemma-2-9b-it": 0.5988666666666667, | |
| "deepseek-v3": 0.34040000000000004, | |
| "deepseek-r1": 0.3333333333333333, | |
| "qwq-32b": 0.33946666666666664, | |
| "Average": 0.41738222222222215 | |
| }, | |
| "RoverEnv": { | |
| "qwen2.5-3b-instruct": 0.9546666666666667, | |
| "qwen2.5-7b-instruct": 1.0193333333333334, | |
| "qwen2.5-14b-instruct": 0.5934, | |
| "qwen2.5-32b-instruct": 0.6414, | |
| "qwen2.5-72b-instruct": 0.5923999999999999, | |
| "llama-3.1-8b-instruct": 0.9858666666666667, | |
| "llama-3.1-70b-instruct": 0.7111333333333333, | |
| "llama-3.2-3b-instruct": 1.0410666666666666, | |
| "llama-3.3-70b-instruct": 0.6332666666666666, | |
| "mistral-large-instruct-2411": 0.7143999999999999, | |
| "gemma-2-27b-it": 0.7877333333333333, | |
| "gemma-2-9b-it": 1.0685333333333333, | |
| "deepseek-v3": 0.7905333333333333, | |
| "deepseek-r1": 0.7494, | |
| "qwq-32b": 0.7479333333333333, | |
| "Average": 0.8020711111111112 | |
| }, | |
| "FashionEnv": { | |
| "qwen2.5-3b-instruct": 1.0357333333333334, | |
| "qwen2.5-7b-instruct": 1.081152380952381, | |
| "qwen2.5-14b-instruct": 0.7285238095238096, | |
| "qwen2.5-32b-instruct": 0.7431523809523809, | |
| "qwen2.5-72b-instruct": 0.7598666666666667, | |
| "llama-3.1-8b-instruct": 1.0961333333333332, | |
| "llama-3.1-70b-instruct": 0.8041333333333333, | |
| "llama-3.2-3b-instruct": 1.1326571428571426, | |
| "llama-3.3-70b-instruct": 0.8184666666666667, | |
| "mistral-large-instruct-2411": 0.8105238095238094, | |
| "gemma-2-27b-it": 0.9382190476190475, | |
| "gemma-2-9b-it": 1.0972, | |
| "deepseek-v3": 0.8063809523809524, | |
| "deepseek-r1": 0.7738476190476191, | |
| "qwq-32b": 0.8007333333333335, | |
| "Average": 0.8951149206349207 | |
| }, | |
| "LicenseEnv": { | |
| "qwen2.5-3b-instruct": 0.7847999999999999, | |
| "qwen2.5-7b-instruct": 0.8215333333333333, | |
| "qwen2.5-14b-instruct": 0.6174666666666666, | |
| "qwen2.5-32b-instruct": 0.7098666666666666, | |
| "qwen2.5-72b-instruct": 0.7198666666666667, | |
| "llama-3.1-8b-instruct": 0.8523333333333334, | |
| "llama-3.1-70b-instruct": 0.6513333333333332, | |
| "llama-3.2-3b-instruct": 0.9648666666666668, | |
| "llama-3.3-70b-instruct": 0.6662000000000001, | |
| "mistral-large-instruct-2411": 0.6437333333333333, | |
| "gemma-2-27b-it": 0.7512666666666666, | |
| "gemma-2-9b-it": 0.8070666666666666, | |
| "deepseek-v3": 0.6174666666666666, | |
| "deepseek-r1": 0.5982666666666666, | |
| "qwq-32b": 0.6115999999999999, | |
| "Average": 0.7211777777777777 | |
| }, | |
| "VirusClassificationEnv": { | |
| "qwen2.5-3b-instruct": 0.5887238095238095, | |
| "qwen2.5-7b-instruct": 0.6255999999999999, | |
| "qwen2.5-14b-instruct": 0.43513333333333326, | |
| "qwen2.5-32b-instruct": 0.4164, | |
| "qwen2.5-72b-instruct": 0.39893333333333336, | |
| "llama-3.1-8b-instruct": 0.6247333333333334, | |
| "llama-3.1-70b-instruct": 0.5219333333333334, | |
| "llama-3.2-3b-instruct": 0.6386095238095237, | |
| "llama-3.3-70b-instruct": 0.4547333333333333, | |
| "mistral-large-instruct-2411": 0.3114571428571429, | |
| "gemma-2-27b-it": 0.48719999999999997, | |
| "gemma-2-9b-it": 0.6325809523809524, | |
| "deepseek-v3": 0.30473333333333336, | |
| "deepseek-r1": 0.2137142857142857, | |
| "qwq-32b": 0.22217142857142855, | |
| "Average": 0.45844380952380953 | |
| }, | |
| "TestingEnv": { | |
| "qwen2.5-3b-instruct": 0.5297333333333333, | |
| "qwen2.5-7b-instruct": 0.5164666666666667, | |
| "qwen2.5-14b-instruct": 0.4224666666666666, | |
| "qwen2.5-32b-instruct": 0.4540666666666667, | |
| "qwen2.5-72b-instruct": 0.39493333333333325, | |
| "llama-3.1-8b-instruct": 0.5270666666666667, | |
| "llama-3.1-70b-instruct": 0.3365333333333333, | |
| "llama-3.2-3b-instruct": 0.5638666666666666, | |
| "llama-3.3-70b-instruct": 0.39473333333333327, | |
| "mistral-large-instruct-2411": 0.3972, | |
| "gemma-2-27b-it": 0.5658, | |
| "gemma-2-9b-it": 0.6542, | |
| "deepseek-v3": 0.37939999999999996, | |
| "deepseek-r1": 0.25579999999999997, | |
| "qwq-32b": 0.3352, | |
| "Average": 0.44849777777777783 | |
| }, | |
| "NarrativeDetectEnv": { | |
| "qwen2.5-3b-instruct": 1.0932666666666666, | |
| "qwen2.5-7b-instruct": 0.9698666666666667, | |
| "qwen2.5-14b-instruct": 0.8831333333333333, | |
| "qwen2.5-32b-instruct": 0.7640666666666666, | |
| "qwen2.5-72b-instruct": 0.8158000000000001, | |
| "llama-3.1-8b-instruct": 1.0600666666666667, | |
| "llama-3.1-70b-instruct": 0.8113999999999999, | |
| "llama-3.2-3b-instruct": 1.2458666666666667, | |
| "llama-3.3-70b-instruct": 0.8439333333333334, | |
| "mistral-large-instruct-2411": 0.8011333333333333, | |
| "gemma-2-27b-it": 1.0462666666666665, | |
| "gemma-2-9b-it": 1.0814666666666668, | |
| "deepseek-v3": 0.9039333333333334, | |
| "deepseek-r1": 0.82, | |
| "qwq-32b": 0.8263999999999999, | |
| "Average": 0.9311066666666665 | |
| }, | |
| "RenewableEnergyEnv": { | |
| "qwen2.5-3b-instruct": 1.2372, | |
| "qwen2.5-7b-instruct": 1.209, | |
| "qwen2.5-14b-instruct": 1.018, | |
| "qwen2.5-32b-instruct": 0.8681999999999999, | |
| "qwen2.5-72b-instruct": 0.8295333333333333, | |
| "llama-3.1-8b-instruct": 1.3595333333333333, | |
| "llama-3.1-70b-instruct": 0.8166666666666667, | |
| "llama-3.2-3b-instruct": 1.2722666666666664, | |
| "llama-3.3-70b-instruct": 0.9336000000000002, | |
| "mistral-large-instruct-2411": 0.8966666666666667, | |
| "gemma-2-27b-it": 1.2019333333333333, | |
| "gemma-2-9b-it": 1.3341999999999998, | |
| "deepseek-v3": 0.898, | |
| "deepseek-r1": 0.8659333333333334, | |
| "qwq-32b": 0.9053333333333334, | |
| "Average": 1.043071111111111 | |
| }, | |
| "CelestialEnv": { | |
| "qwen2.5-3b-instruct": 0.8438666666666667, | |
| "qwen2.5-7b-instruct": 0.8887999999999998, | |
| "qwen2.5-14b-instruct": 0.6514, | |
| "qwen2.5-32b-instruct": 0.6459333333333334, | |
| "qwen2.5-72b-instruct": 0.6326666666666666, | |
| "llama-3.1-8b-instruct": 0.9612666666666666, | |
| "llama-3.1-70b-instruct": 0.6192, | |
| "llama-3.2-3b-instruct": 0.8965333333333334, | |
| "llama-3.3-70b-instruct": 0.6164, | |
| "mistral-large-instruct-2411": 0.6203333333333334, | |
| "gemma-2-27b-it": 0.7378, | |
| "gemma-2-9b-it": 0.9489333333333333, | |
| "deepseek-v3": 0.6561999999999999, | |
| "deepseek-r1": 0.5421333333333334, | |
| "qwq-32b": 0.5784666666666667, | |
| "Average": 0.7226622222222223 | |
| }, | |
| "SpiceEnv": { | |
| "qwen2.5-3b-instruct": 0.6036476190476192, | |
| "qwen2.5-7b-instruct": 0.6609809523809524, | |
| "qwen2.5-14b-instruct": 0.40272380952380954, | |
| "qwen2.5-32b-instruct": 0.5753809523809524, | |
| "qwen2.5-72b-instruct": 0.46193333333333336, | |
| "llama-3.1-8b-instruct": 0.6512666666666667, | |
| "llama-3.1-70b-instruct": 0.5352666666666666, | |
| "llama-3.2-3b-instruct": 0.6274, | |
| "llama-3.3-70b-instruct": 0.594, | |
| "mistral-large-instruct-2411": 0.45503809523809513, | |
| "gemma-2-27b-it": 0.6168666666666667, | |
| "gemma-2-9b-it": 0.7341333333333334, | |
| "deepseek-v3": 0.31380952380952376, | |
| "deepseek-r1": 0.36774285714285704, | |
| "qwq-32b": 0.37498095238095236, | |
| "Average": 0.5316780952380953 | |
| }, | |
| "WildlifeEnv": { | |
| "qwen2.5-3b-instruct": 0.7888, | |
| "qwen2.5-7b-instruct": 0.7621333333333333, | |
| "qwen2.5-14b-instruct": 0.6147999999999999, | |
| "qwen2.5-32b-instruct": 0.7297333333333332, | |
| "qwen2.5-72b-instruct": 0.6115999999999999, | |
| "llama-3.1-8b-instruct": 0.8686666666666666, | |
| "llama-3.1-70b-instruct": 0.6302, | |
| "llama-3.2-3b-instruct": 0.7972666666666667, | |
| "llama-3.3-70b-instruct": 0.6359999999999999, | |
| "mistral-large-instruct-2411": 0.6615333333333333, | |
| "gemma-2-27b-it": 0.7294666666666667, | |
| "gemma-2-9b-it": 0.8138666666666665, | |
| "deepseek-v3": 0.6534000000000001, | |
| "deepseek-r1": 0.7072666666666667, | |
| "qwq-32b": 0.7271333333333333, | |
| "Average": 0.7154577777777777 | |
| }, | |
| "VehicleEnv": { | |
| "qwen2.5-3b-instruct": 0.9630666666666666, | |
| "qwen2.5-7b-instruct": 0.9056000000000001, | |
| "qwen2.5-14b-instruct": 0.7067333333333332, | |
| "qwen2.5-32b-instruct": 0.5080666666666666, | |
| "qwen2.5-72b-instruct": 0.4952666666666666, | |
| "llama-3.1-8b-instruct": 1.0144666666666668, | |
| "llama-3.1-70b-instruct": 0.6701333333333334, | |
| "llama-3.2-3b-instruct": 1.0123333333333333, | |
| "llama-3.3-70b-instruct": 0.6127333333333332, | |
| "mistral-large-instruct-2411": 0.37593333333333334, | |
| "gemma-2-27b-it": 0.7358666666666668, | |
| "gemma-2-9b-it": 1.0004666666666666, | |
| "deepseek-v3": 0.38853333333333334, | |
| "deepseek-r1": 0.30946666666666667, | |
| "qwq-32b": 0.3487333333333333, | |
| "Average": 0.6698266666666667 | |
| }, | |
| "BeverageEnv": { | |
| "qwen2.5-3b-instruct": 1.1309999999999998, | |
| "qwen2.5-7b-instruct": 1.0566666666666666, | |
| "qwen2.5-14b-instruct": 0.7231333333333334, | |
| "qwen2.5-32b-instruct": 0.8653333333333334, | |
| "qwen2.5-72b-instruct": 0.8098666666666666, | |
| "llama-3.1-8b-instruct": 1.0646666666666664, | |
| "llama-3.1-70b-instruct": 0.7819333333333334, | |
| "llama-3.2-3b-instruct": 1.0867999999999998, | |
| "llama-3.3-70b-instruct": 0.8621333333333332, | |
| "mistral-large-instruct-2411": 0.8074666666666666, | |
| "gemma-2-27b-it": 0.9830666666666668, | |
| "gemma-2-9b-it": 1.0837999999999999, | |
| "deepseek-v3": 0.7968, | |
| "deepseek-r1": 0.7807333333333334, | |
| "qwq-32b": 0.7677333333333334, | |
| "Average": 0.9067422222222222 | |
| }, | |
| "ControlEnv": { | |
| "qwen2.5-3b-instruct": 1.2409333333333332, | |
| "qwen2.5-7b-instruct": 1.1129999999999998, | |
| "qwen2.5-14b-instruct": 0.9396000000000001, | |
| "qwen2.5-32b-instruct": 0.9234, | |
| "qwen2.5-72b-instruct": 0.8239333333333333, | |
| "llama-3.1-8b-instruct": 1.1922666666666668, | |
| "llama-3.1-70b-instruct": 0.8639999999999999, | |
| "llama-3.2-3b-instruct": 1.1910666666666665, | |
| "llama-3.3-70b-instruct": 0.9382666666666666, | |
| "mistral-large-instruct-2411": 0.9432666666666666, | |
| "gemma-2-27b-it": 1.0350666666666668, | |
| "gemma-2-9b-it": 1.3362, | |
| "deepseek-v3": 0.8779333333333333, | |
| "deepseek-r1": 0.8366666666666667, | |
| "qwq-32b": 0.8624666666666666, | |
| "Average": 1.007871111111111 | |
| }, | |
| "CurrencyEnv": { | |
| "qwen2.5-3b-instruct": 1.1619999999999997, | |
| "qwen2.5-7b-instruct": 1.1104666666666667, | |
| "qwen2.5-14b-instruct": 1.0066666666666666, | |
| "qwen2.5-32b-instruct": 0.9369333333333332, | |
| "qwen2.5-72b-instruct": 0.9753999999999999, | |
| "llama-3.1-8b-instruct": 1.2676666666666667, | |
| "llama-3.1-70b-instruct": 0.8947999999999998, | |
| "llama-3.2-3b-instruct": 1.261, | |
| "llama-3.3-70b-instruct": 0.9674666666666665, | |
| "mistral-large-instruct-2411": 0.8869999999999998, | |
| "gemma-2-27b-it": 1.0257333333333334, | |
| "gemma-2-9b-it": 1.3512, | |
| "deepseek-v3": 0.9630666666666666, | |
| "deepseek-r1": 0.8782666666666665, | |
| "qwq-32b": 0.9007999999999999, | |
| "Average": 1.0392311111111112 | |
| }, | |
| "MarketingEnv": { | |
| "qwen2.5-3b-instruct": 0.7427333333333332, | |
| "qwen2.5-7b-instruct": 0.6565333333333332, | |
| "qwen2.5-14b-instruct": 0.6416000000000001, | |
| "qwen2.5-32b-instruct": 0.5615333333333333, | |
| "qwen2.5-72b-instruct": 0.5475333333333334, | |
| "llama-3.1-8b-instruct": 0.7419999999999999, | |
| "llama-3.1-70b-instruct": 0.5211333333333333, | |
| "llama-3.2-3b-instruct": 0.7737333333333333, | |
| "llama-3.3-70b-instruct": 0.5229999999999999, | |
| "mistral-large-instruct-2411": 0.5469999999999999, | |
| "gemma-2-27b-it": 0.7222000000000001, | |
| "gemma-2-9b-it": 0.8039333333333334, | |
| "deepseek-v3": 0.6286666666666666, | |
| "deepseek-r1": 0.5670666666666666, | |
| "qwq-32b": 0.5600666666666666, | |
| "Average": 0.6359155555555555 | |
| }, | |
| "BotanicalEnv": { | |
| "qwen2.5-3b-instruct": 1.3478666666666668, | |
| "qwen2.5-7b-instruct": 1.3568, | |
| "qwen2.5-14b-instruct": 0.7390000000000001, | |
| "qwen2.5-32b-instruct": 0.9401333333333334, | |
| "qwen2.5-72b-instruct": 0.8344666666666665, | |
| "llama-3.1-8b-instruct": 1.3095999999999999, | |
| "llama-3.1-70b-instruct": 0.8597999999999999, | |
| "llama-3.2-3b-instruct": 1.2815999999999999, | |
| "llama-3.3-70b-instruct": 0.9140666666666665, | |
| "mistral-large-instruct-2411": 0.8783333333333333, | |
| "gemma-2-27b-it": 1.0331333333333332, | |
| "gemma-2-9b-it": 1.4613999999999998, | |
| "deepseek-v3": 0.8467333333333332, | |
| "deepseek-r1": 0.6417333333333334, | |
| "qwq-32b": 0.6957333333333333, | |
| "Average": 1.00936 | |
| }, | |
| "CircusActEnv": { | |
| "qwen2.5-3b-instruct": 0.966, | |
| "qwen2.5-7b-instruct": 0.8732666666666665, | |
| "qwen2.5-14b-instruct": 0.7160666666666667, | |
| "qwen2.5-32b-instruct": 0.6424000000000001, | |
| "qwen2.5-72b-instruct": 0.6185333333333333, | |
| "llama-3.1-8b-instruct": 1.0588000000000002, | |
| "llama-3.1-70b-instruct": 0.6578, | |
| "llama-3.2-3b-instruct": 1.0192666666666663, | |
| "llama-3.3-70b-instruct": 0.6707333333333333, | |
| "mistral-large-instruct-2411": 0.5906, | |
| "gemma-2-27b-it": 0.8663333333333334, | |
| "gemma-2-9b-it": 0.9901333333333333, | |
| "deepseek-v3": 0.6095333333333334, | |
| "deepseek-r1": 0.5542666666666667, | |
| "qwq-32b": 0.612, | |
| "Average": 0.7630488888888889 | |
| }, | |
| "AudioDialectEnv": { | |
| "qwen2.5-3b-instruct": 1.1560666666666666, | |
| "qwen2.5-7b-instruct": 1.1981333333333333, | |
| "qwen2.5-14b-instruct": 0.9919333333333332, | |
| "qwen2.5-32b-instruct": 0.9843999999999999, | |
| "qwen2.5-72b-instruct": 1.0026, | |
| "llama-3.1-8b-instruct": 1.1826, | |
| "llama-3.1-70b-instruct": 1.049, | |
| "llama-3.2-3b-instruct": 1.2086666666666668, | |
| "llama-3.3-70b-instruct": 1.1178666666666666, | |
| "mistral-large-instruct-2411": 0.9938666666666667, | |
| "gemma-2-27b-it": 1.1272666666666669, | |
| "gemma-2-9b-it": 1.255666666666667, | |
| "deepseek-v3": 0.9454666666666667, | |
| "deepseek-r1": 0.8542666666666667, | |
| "qwq-32b": 0.9452, | |
| "Average": 1.0675333333333334 | |
| }, | |
| "LeadershipEnv": { | |
| "qwen2.5-3b-instruct": 1.1378, | |
| "qwen2.5-7b-instruct": 1.1529333333333334, | |
| "qwen2.5-14b-instruct": 0.9892285714285715, | |
| "qwen2.5-32b-instruct": 1.036095238095238, | |
| "qwen2.5-72b-instruct": 0.9751333333333333, | |
| "llama-3.1-8b-instruct": 1.2512571428571426, | |
| "llama-3.1-70b-instruct": 0.9471428571428572, | |
| "llama-3.2-3b-instruct": 1.450133333333333, | |
| "llama-3.3-70b-instruct": 1.0285999999999997, | |
| "mistral-large-instruct-2411": 0.9162380952380952, | |
| "gemma-2-27b-it": 1.2164380952380953, | |
| "gemma-2-9b-it": 1.3166761904761903, | |
| "deepseek-v3": 0.9108571428571428, | |
| "deepseek-r1": 0.9028190476190476, | |
| "qwq-32b": 0.8550952380952381, | |
| "Average": 1.0724298412698412 | |
| }, | |
| "TransportEnv": { | |
| "qwen2.5-3b-instruct": 0.7256761904761905, | |
| "qwen2.5-7b-instruct": 0.6674, | |
| "qwen2.5-14b-instruct": 0.425752380952381, | |
| "qwen2.5-32b-instruct": 0.5705047619047618, | |
| "qwen2.5-72b-instruct": 0.4020666666666667, | |
| "llama-3.1-8b-instruct": 0.7760380952380952, | |
| "llama-3.1-70b-instruct": 0.5022666666666666, | |
| "llama-3.2-3b-instruct": 0.8045333333333333, | |
| "llama-3.3-70b-instruct": 0.5512285714285714, | |
| "mistral-large-instruct-2411": 0.4226571428571429, | |
| "gemma-2-27b-it": 0.6612190476190476, | |
| "gemma-2-9b-it": 0.7567999999999999, | |
| "deepseek-v3": 0.4245333333333333, | |
| "deepseek-r1": 0.35583809523809523, | |
| "qwq-32b": 0.42556190476190475, | |
| "Average": 0.5648050793650794 | |
| }, | |
| "EcologicalEnv": { | |
| "qwen2.5-3b-instruct": 0.5565333333333333, | |
| "qwen2.5-7b-instruct": 0.3861333333333333, | |
| "qwen2.5-14b-instruct": 0.23986666666666662, | |
| "qwen2.5-32b-instruct": 0.2175333333333333, | |
| "qwen2.5-72b-instruct": 0.2650666666666667, | |
| "llama-3.1-8b-instruct": 0.5481333333333334, | |
| "llama-3.1-70b-instruct": 0.27026666666666666, | |
| "llama-3.2-3b-instruct": 0.5608666666666666, | |
| "llama-3.3-70b-instruct": 0.34073333333333333, | |
| "mistral-large-instruct-2411": 0.18666666666666668, | |
| "gemma-2-27b-it": 0.3159333333333333, | |
| "gemma-2-9b-it": 0.49386666666666673, | |
| "deepseek-v3": 0.25439999999999996, | |
| "deepseek-r1": 0.13513333333333333, | |
| "qwq-32b": 0.1812, | |
| "Average": 0.3301555555555555 | |
| }, | |
| "MythicEnv": { | |
| "qwen2.5-3b-instruct": 1.1101999999999999, | |
| "qwen2.5-7b-instruct": 0.9876000000000001, | |
| "qwen2.5-14b-instruct": 0.7183999999999999, | |
| "qwen2.5-32b-instruct": 0.8451333333333334, | |
| "qwen2.5-72b-instruct": 0.7776666666666666, | |
| "llama-3.1-8b-instruct": 1.1285333333333334, | |
| "llama-3.1-70b-instruct": 0.8145999999999999, | |
| "llama-3.2-3b-instruct": 1.2702, | |
| "llama-3.3-70b-instruct": 0.8547333333333332, | |
| "mistral-large-instruct-2411": 0.7791333333333332, | |
| "gemma-2-27b-it": 0.9578666666666666, | |
| "gemma-2-9b-it": 1.1880000000000002, | |
| "deepseek-v3": 0.7562, | |
| "deepseek-r1": 0.628, | |
| "qwq-32b": 0.7259333333333334, | |
| "Average": 0.9028133333333334 | |
| }, | |
| "EnzymeEnv": { | |
| "qwen2.5-3b-instruct": 0.5272666666666666, | |
| "qwen2.5-7b-instruct": 0.5749999999999998, | |
| "qwen2.5-14b-instruct": 0.45233333333333325, | |
| "qwen2.5-32b-instruct": 0.44746666666666657, | |
| "qwen2.5-72b-instruct": 0.4640666666666666, | |
| "llama-3.1-8b-instruct": 0.6982666666666667, | |
| "llama-3.1-70b-instruct": 0.4665333333333333, | |
| "llama-3.2-3b-instruct": 0.7106666666666666, | |
| "llama-3.3-70b-instruct": 0.4798, | |
| "mistral-large-instruct-2411": 0.425, | |
| "gemma-2-27b-it": 0.5391999999999999, | |
| "gemma-2-9b-it": 0.6941333333333333, | |
| "deepseek-v3": 0.37926666666666664, | |
| "deepseek-r1": 0.38086666666666663, | |
| "qwq-32b": 0.4045333333333333, | |
| "Average": 0.5096266666666667 | |
| }, | |
| "OSKernelEnv": { | |
| "qwen2.5-3b-instruct": 1.1656, | |
| "qwen2.5-7b-instruct": 1.3032, | |
| "qwen2.5-14b-instruct": 0.8570666666666666, | |
| "qwen2.5-32b-instruct": 0.8768666666666667, | |
| "qwen2.5-72b-instruct": 0.8728, | |
| "llama-3.1-8b-instruct": 1.184, | |
| "llama-3.1-70b-instruct": 0.8322666666666667, | |
| "llama-3.2-3b-instruct": 1.3510000000000002, | |
| "llama-3.3-70b-instruct": 0.8083333333333333, | |
| "mistral-large-instruct-2411": 0.8513333333333332, | |
| "gemma-2-27b-it": 1.0258666666666667, | |
| "gemma-2-9b-it": 1.3057333333333332, | |
| "deepseek-v3": 0.8445333333333332, | |
| "deepseek-r1": 0.7511333333333332, | |
| "qwq-32b": 0.8475333333333334, | |
| "Average": 0.9918177777777777 | |
| }, | |
| "MineralClassificationEnv": { | |
| "qwen2.5-3b-instruct": 1.0583333333333333, | |
| "qwen2.5-7b-instruct": 1.0704666666666667, | |
| "qwen2.5-14b-instruct": 0.7609999999999999, | |
| "qwen2.5-32b-instruct": 0.7188666666666668, | |
| "qwen2.5-72b-instruct": 0.6955333333333333, | |
| "llama-3.1-8b-instruct": 1.1152000000000002, | |
| "llama-3.1-70b-instruct": 0.6619333333333334, | |
| "llama-3.2-3b-instruct": 1.1165333333333334, | |
| "llama-3.3-70b-instruct": 0.6672666666666666, | |
| "mistral-large-instruct-2411": 0.7607333333333333, | |
| "gemma-2-27b-it": 0.9294, | |
| "gemma-2-9b-it": 1.2250666666666667, | |
| "deepseek-v3": 0.8092, | |
| "deepseek-r1": 0.7899999999999999, | |
| "qwq-32b": 0.7879333333333334, | |
| "Average": 0.8778311111111109 | |
| }, | |
| "EconomicEnv": { | |
| "qwen2.5-3b-instruct": 1.1286, | |
| "qwen2.5-7b-instruct": 1.16, | |
| "qwen2.5-14b-instruct": 0.8704666666666666, | |
| "qwen2.5-32b-instruct": 0.8274666666666667, | |
| "qwen2.5-72b-instruct": 0.7895333333333333, | |
| "llama-3.1-8b-instruct": 1.1526666666666667, | |
| "llama-3.1-70b-instruct": 0.7768, | |
| "llama-3.2-3b-instruct": 1.1796666666666666, | |
| "llama-3.3-70b-instruct": 0.8427333333333333, | |
| "mistral-large-instruct-2411": 0.8880666666666667, | |
| "gemma-2-27b-it": 1.0978666666666665, | |
| "gemma-2-9b-it": 1.4352000000000003, | |
| "deepseek-v3": 0.9310666666666668, | |
| "deepseek-r1": 0.8318000000000001, | |
| "qwq-32b": 0.8415333333333332, | |
| "Average": 0.9835644444444444 | |
| }, | |
| "DetectiveEnv": { | |
| "qwen2.5-3b-instruct": 0.9592666666666666, | |
| "qwen2.5-7b-instruct": 0.8579333333333332, | |
| "qwen2.5-14b-instruct": 0.5528666666666666, | |
| "qwen2.5-32b-instruct": 0.6906666666666667, | |
| "qwen2.5-72b-instruct": 0.6596, | |
| "llama-3.1-8b-instruct": 1.0208666666666666, | |
| "llama-3.1-70b-instruct": 0.7068, | |
| "llama-3.2-3b-instruct": 1.0127333333333335, | |
| "llama-3.3-70b-instruct": 0.7222666666666665, | |
| "mistral-large-instruct-2411": 0.6398666666666667, | |
| "gemma-2-27b-it": 1.0352000000000001, | |
| "gemma-2-9b-it": 1.2517999999999998, | |
| "deepseek-v3": 0.6811999999999999, | |
| "deepseek-r1": 0.6839333333333333, | |
| "qwq-32b": 0.6996, | |
| "Average": 0.81164 | |
| }, | |
| "ChessEnv": { | |
| "qwen2.5-3b-instruct": 0.9558666666666668, | |
| "qwen2.5-7b-instruct": 1.0245333333333335, | |
| "qwen2.5-14b-instruct": 0.8131333333333333, | |
| "qwen2.5-32b-instruct": 0.8892, | |
| "qwen2.5-72b-instruct": 0.8331999999999999, | |
| "llama-3.1-8b-instruct": 1.1225333333333334, | |
| "llama-3.1-70b-instruct": 0.7468666666666667, | |
| "llama-3.2-3b-instruct": 1.1218, | |
| "llama-3.3-70b-instruct": 0.8098666666666666, | |
| "mistral-large-instruct-2411": 0.7781333333333335, | |
| "gemma-2-27b-it": 1.01, | |
| "gemma-2-9b-it": 1.2222666666666666, | |
| "deepseek-v3": 0.7901333333333332, | |
| "deepseek-r1": 0.7748, | |
| "qwq-32b": 0.8231333333333334, | |
| "Average": 0.9143644444444444 | |
| }, | |
| "MythicalEnv": { | |
| "qwen2.5-3b-instruct": 0.9932000000000001, | |
| "qwen2.5-7b-instruct": 1.0899333333333334, | |
| "qwen2.5-14b-instruct": 0.7302, | |
| "qwen2.5-32b-instruct": 0.8645999999999999, | |
| "qwen2.5-72b-instruct": 0.8496666666666666, | |
| "llama-3.1-8b-instruct": 1.0838, | |
| "llama-3.1-70b-instruct": 0.8592000000000001, | |
| "llama-3.2-3b-instruct": 1.0404666666666667, | |
| "llama-3.3-70b-instruct": 0.8421333333333333, | |
| "mistral-large-instruct-2411": 0.8762666666666666, | |
| "gemma-2-27b-it": 0.8621333333333334, | |
| "gemma-2-9b-it": 1.0032, | |
| "deepseek-v3": 0.885, | |
| "deepseek-r1": 0.7668000000000001, | |
| "qwq-32b": 0.8260000000000002, | |
| "Average": 0.90484 | |
| }, | |
| "ChemicalCompoundsEnv": { | |
| "qwen2.5-3b-instruct": 0.8311047619047619, | |
| "qwen2.5-7b-instruct": 0.8545238095238095, | |
| "qwen2.5-14b-instruct": 0.6625238095238095, | |
| "qwen2.5-32b-instruct": 0.7971619047619047, | |
| "qwen2.5-72b-instruct": 0.7787238095238094, | |
| "llama-3.1-8b-instruct": 0.9210666666666665, | |
| "llama-3.1-70b-instruct": 0.8095619047619046, | |
| "llama-3.2-3b-instruct": 0.870647619047619, | |
| "llama-3.3-70b-instruct": 0.8861619047619047, | |
| "mistral-large-instruct-2411": 0.665295238095238, | |
| "gemma-2-27b-it": 0.8178285714285713, | |
| "gemma-2-9b-it": 0.9217333333333333, | |
| "deepseek-v3": 0.6765047619047617, | |
| "deepseek-r1": 0.4232571428571429, | |
| "qwq-32b": 0.41698095238095234, | |
| "Average": 0.7555384126984125 | |
| }, | |
| "ArchitecturalEnv": { | |
| "qwen2.5-3b-instruct": 0.8535333333333333, | |
| "qwen2.5-7b-instruct": 0.9366666666666668, | |
| "qwen2.5-14b-instruct": 0.6431333333333333, | |
| "qwen2.5-32b-instruct": 0.7234666666666666, | |
| "qwen2.5-72b-instruct": 0.6861333333333335, | |
| "llama-3.1-8b-instruct": 0.9704666666666666, | |
| "llama-3.1-70b-instruct": 0.769, | |
| "llama-3.2-3b-instruct": 1.0212666666666665, | |
| "llama-3.3-70b-instruct": 0.8717333333333332, | |
| "mistral-large-instruct-2411": 0.6912, | |
| "gemma-2-27b-it": 0.8425333333333332, | |
| "gemma-2-9b-it": 1.0264, | |
| "deepseek-v3": 0.6093333333333333, | |
| "deepseek-r1": 0.6285333333333333, | |
| "qwq-32b": 0.6964, | |
| "Average": 0.7979866666666668 | |
| }, | |
| "ComputationEnv": { | |
| "qwen2.5-3b-instruct": 0.9820666666666668, | |
| "qwen2.5-7b-instruct": 0.9801333333333334, | |
| "qwen2.5-14b-instruct": 0.7334666666666666, | |
| "qwen2.5-32b-instruct": 0.6850666666666666, | |
| "qwen2.5-72b-instruct": 0.6938000000000001, | |
| "llama-3.1-8b-instruct": 1.0237333333333332, | |
| "llama-3.1-70b-instruct": 0.6686, | |
| "llama-3.2-3b-instruct": 1.0106666666666666, | |
| "llama-3.3-70b-instruct": 0.6860666666666666, | |
| "mistral-large-instruct-2411": 0.7517333333333334, | |
| "gemma-2-27b-it": 0.8299999999999998, | |
| "gemma-2-9b-it": 1.0842666666666667, | |
| "deepseek-v3": 0.7249999999999999, | |
| "deepseek-r1": 0.7374666666666667, | |
| "qwq-32b": 0.7521999999999999, | |
| "Average": 0.8229511111111111 | |
| }, | |
| "MachinePartEnv": { | |
| "qwen2.5-3b-instruct": 0.9062666666666666, | |
| "qwen2.5-7b-instruct": 0.8395333333333334, | |
| "qwen2.5-14b-instruct": 0.6237999999999999, | |
| "qwen2.5-32b-instruct": 0.6204666666666667, | |
| "qwen2.5-72b-instruct": 0.6410666666666667, | |
| "llama-3.1-8b-instruct": 0.8998666666666665, | |
| "llama-3.1-70b-instruct": 0.5422666666666667, | |
| "llama-3.2-3b-instruct": 0.9272, | |
| "llama-3.3-70b-instruct": 0.5463333333333333, | |
| "mistral-large-instruct-2411": 0.5808, | |
| "gemma-2-27b-it": 0.6800666666666666, | |
| "gemma-2-9b-it": 0.9401999999999997, | |
| "deepseek-v3": 0.6576, | |
| "deepseek-r1": 0.6320666666666666, | |
| "qwq-32b": 0.5902, | |
| "Average": 0.7085155555555555 | |
| }, | |
| "LiteraryEnv": { | |
| "qwen2.5-3b-instruct": 0.7915619047619047, | |
| "qwen2.5-7b-instruct": 0.684247619047619, | |
| "qwen2.5-14b-instruct": 0.4320857142857143, | |
| "qwen2.5-32b-instruct": 0.47454285714285704, | |
| "qwen2.5-72b-instruct": 0.45714285714285713, | |
| "llama-3.1-8b-instruct": 0.7595047619047619, | |
| "llama-3.1-70b-instruct": 0.5143047619047618, | |
| "llama-3.2-3b-instruct": 0.8008476190476189, | |
| "llama-3.3-70b-instruct": 0.5506952380952381, | |
| "mistral-large-instruct-2411": 0.5536571428571427, | |
| "gemma-2-27b-it": 0.6854666666666664, | |
| "gemma-2-9b-it": 0.8457333333333332, | |
| "deepseek-v3": 0.5392285714285714, | |
| "deepseek-r1": 0.5025047619047619, | |
| "qwq-32b": 0.4939333333333332, | |
| "Average": 0.6056971428571427 | |
| }, | |
| "MarineEnv": { | |
| "qwen2.5-3b-instruct": 1.0838666666666668, | |
| "qwen2.5-7b-instruct": 1.0142666666666666, | |
| "qwen2.5-14b-instruct": 0.7625333333333334, | |
| "qwen2.5-32b-instruct": 0.7773333333333333, | |
| "qwen2.5-72b-instruct": 0.8016666666666667, | |
| "llama-3.1-8b-instruct": 1.1154666666666668, | |
| "llama-3.1-70b-instruct": 0.8399333333333333, | |
| "llama-3.2-3b-instruct": 1.1426000000000003, | |
| "llama-3.3-70b-instruct": 0.8375999999999999, | |
| "mistral-large-instruct-2411": 0.8630666666666666, | |
| "gemma-2-27b-it": 0.9411333333333334, | |
| "gemma-2-9b-it": 1.1442, | |
| "deepseek-v3": 0.8894666666666666, | |
| "deepseek-r1": 0.8458, | |
| "qwq-32b": 0.8745333333333333, | |
| "Average": 0.9288977777777778 | |
| }, | |
| "PhilosophyEnv": { | |
| "qwen2.5-3b-instruct": 1.05, | |
| "qwen2.5-7b-instruct": 1.3602666666666665, | |
| "qwen2.5-14b-instruct": 0.6244, | |
| "qwen2.5-32b-instruct": 0.6048, | |
| "qwen2.5-72b-instruct": 0.6090666666666666, | |
| "llama-3.1-8b-instruct": 1.0042666666666666, | |
| "llama-3.1-70b-instruct": 0.6868, | |
| "llama-3.2-3b-instruct": 1.2236666666666667, | |
| "llama-3.3-70b-instruct": 0.6848666666666666, | |
| "mistral-large-instruct-2411": 0.5620666666666667, | |
| "gemma-2-27b-it": 0.9582, | |
| "gemma-2-9b-it": 0.9566666666666667, | |
| "deepseek-v3": 0.5928666666666667, | |
| "deepseek-r1": 0.5505333333333333, | |
| "qwq-32b": 0.5388666666666666, | |
| "Average": 0.800488888888889 | |
| }, | |
| "ArchaeologicalEnv": { | |
| "qwen2.5-3b-instruct": 1.0586, | |
| "qwen2.5-7b-instruct": 0.8644000000000001, | |
| "qwen2.5-14b-instruct": 0.7687333333333333, | |
| "qwen2.5-32b-instruct": 0.724, | |
| "qwen2.5-72b-instruct": 0.7683333333333333, | |
| "llama-3.1-8b-instruct": 1.0757999999999999, | |
| "llama-3.1-70b-instruct": 0.7328666666666667, | |
| "llama-3.2-3b-instruct": 1.0688666666666666, | |
| "llama-3.3-70b-instruct": 0.7887333333333334, | |
| "mistral-large-instruct-2411": 0.7232, | |
| "gemma-2-27b-it": 0.8009999999999999, | |
| "gemma-2-9b-it": 1.0729333333333333, | |
| "deepseek-v3": 0.6970000000000001, | |
| "deepseek-r1": 0.5904666666666667, | |
| "qwq-32b": 0.6000666666666665, | |
| "Average": 0.8223333333333332 | |
| }, | |
| "GemstoneEnv": { | |
| "qwen2.5-3b-instruct": 0.7110285714285715, | |
| "qwen2.5-7b-instruct": 0.7523809523809524, | |
| "qwen2.5-14b-instruct": 0.4729333333333333, | |
| "qwen2.5-32b-instruct": 0.5357714285714286, | |
| "qwen2.5-72b-instruct": 0.6073238095238096, | |
| "llama-3.1-8b-instruct": 0.8096666666666665, | |
| "llama-3.1-70b-instruct": 0.6153904761904763, | |
| "llama-3.2-3b-instruct": 0.7933904761904762, | |
| "llama-3.3-70b-instruct": 0.5937238095238094, | |
| "mistral-large-instruct-2411": 0.4208952380952381, | |
| "gemma-2-27b-it": 0.5776761904761905, | |
| "gemma-2-9b-it": 0.7067619047619047, | |
| "deepseek-v3": 0.41441904761904763, | |
| "deepseek-r1": 0.38596190476190473, | |
| "qwq-32b": 0.34542857142857136, | |
| "Average": 0.5828501587301588 | |
| }, | |
| "MicrobiologyEnv": { | |
| "qwen2.5-3b-instruct": 0.9303809523809525, | |
| "qwen2.5-7b-instruct": 0.9467904761904762, | |
| "qwen2.5-14b-instruct": 0.5958380952380952, | |
| "qwen2.5-32b-instruct": 0.6932190476190476, | |
| "qwen2.5-72b-instruct": 0.5158190476190476, | |
| "llama-3.1-8b-instruct": 0.9718666666666668, | |
| "llama-3.1-70b-instruct": 0.7010476190476191, | |
| "llama-3.2-3b-instruct": 1.0090190476190477, | |
| "llama-3.3-70b-instruct": 0.7338666666666666, | |
| "mistral-large-instruct-2411": 0.6196380952380951, | |
| "gemma-2-27b-it": 0.7761333333333335, | |
| "gemma-2-9b-it": 1.0257809523809525, | |
| "deepseek-v3": 0.5738761904761904, | |
| "deepseek-r1": 0.5433809523809524, | |
| "qwq-32b": 0.5820380952380952, | |
| "Average": 0.7479130158730157 | |
| }, | |
| "SciFiEnv": { | |
| "qwen2.5-3b-instruct": 0.9241999999999999, | |
| "qwen2.5-7b-instruct": 1.222, | |
| "qwen2.5-14b-instruct": 0.6346, | |
| "qwen2.5-32b-instruct": 0.6923333333333332, | |
| "qwen2.5-72b-instruct": 0.7514666666666667, | |
| "llama-3.1-8b-instruct": 1.1545999999999998, | |
| "llama-3.1-70b-instruct": 0.6702, | |
| "llama-3.2-3b-instruct": 1.0696, | |
| "llama-3.3-70b-instruct": 0.7630666666666667, | |
| "mistral-large-instruct-2411": 0.6732666666666667, | |
| "gemma-2-27b-it": 0.8202, | |
| "gemma-2-9b-it": 1.0992666666666666, | |
| "deepseek-v3": 0.6295999999999999, | |
| "deepseek-r1": 0.5723333333333334, | |
| "qwq-32b": 0.6310666666666667, | |
| "Average": 0.82052 | |
| }, | |
| "HormoneEnv": { | |
| "qwen2.5-3b-instruct": 0.6477999999999999, | |
| "qwen2.5-7b-instruct": 0.5792666666666666, | |
| "qwen2.5-14b-instruct": 0.42300000000000004, | |
| "qwen2.5-32b-instruct": 0.4808, | |
| "qwen2.5-72b-instruct": 0.47140000000000004, | |
| "llama-3.1-8b-instruct": 0.6914, | |
| "llama-3.1-70b-instruct": 0.3943333333333333, | |
| "llama-3.2-3b-instruct": 0.6731999999999999, | |
| "llama-3.3-70b-instruct": 0.4046, | |
| "mistral-large-instruct-2411": 0.47793333333333327, | |
| "gemma-2-27b-it": 0.49526666666666663, | |
| "gemma-2-9b-it": 0.6825333333333333, | |
| "deepseek-v3": 0.4746666666666667, | |
| "deepseek-r1": 0.4145333333333333, | |
| "qwq-32b": 0.4527333333333333, | |
| "Average": 0.5175644444444445 | |
| }, | |
| "SculptorEnv": { | |
| "qwen2.5-3b-instruct": 1.1031333333333335, | |
| "qwen2.5-7b-instruct": 0.9707333333333334, | |
| "qwen2.5-14b-instruct": 0.8746666666666666, | |
| "qwen2.5-32b-instruct": 0.9588666666666666, | |
| "qwen2.5-72b-instruct": 0.9808, | |
| "llama-3.1-8b-instruct": 1.215, | |
| "llama-3.1-70b-instruct": 1.0109333333333332, | |
| "llama-3.2-3b-instruct": 1.2163333333333335, | |
| "llama-3.3-70b-instruct": 0.9847999999999999, | |
| "mistral-large-instruct-2411": 0.9626666666666667, | |
| "gemma-2-27b-it": 1.1294666666666668, | |
| "gemma-2-9b-it": 1.2386666666666666, | |
| "deepseek-v3": 0.9729333333333333, | |
| "deepseek-r1": 0.8991999999999999, | |
| "qwq-32b": 0.9352666666666666, | |
| "Average": 1.0302311111111113 | |
| }, | |
| "NeuroEnv": { | |
| "qwen2.5-3b-instruct": 1.0565999999999998, | |
| "qwen2.5-7b-instruct": 0.9228666666666665, | |
| "qwen2.5-14b-instruct": 0.6512666666666667, | |
| "qwen2.5-32b-instruct": 0.7456666666666667, | |
| "qwen2.5-72b-instruct": 0.628, | |
| "llama-3.1-8b-instruct": 1.0157333333333336, | |
| "llama-3.1-70b-instruct": 0.6142, | |
| "llama-3.2-3b-instruct": 1.0081333333333333, | |
| "llama-3.3-70b-instruct": 0.5914, | |
| "mistral-large-instruct-2411": 0.7068, | |
| "gemma-2-27b-it": 0.6496666666666667, | |
| "gemma-2-9b-it": 1.0555333333333334, | |
| "deepseek-v3": 0.7531333333333333, | |
| "deepseek-r1": 0.6508666666666667, | |
| "qwq-32b": 0.8050666666666666, | |
| "Average": 0.7903288888888889 | |
| }, | |
| "OceanEnv": { | |
| "qwen2.5-3b-instruct": 0.9513333333333334, | |
| "qwen2.5-7b-instruct": 0.766, | |
| "qwen2.5-14b-instruct": 0.6742, | |
| "qwen2.5-32b-instruct": 0.7434, | |
| "qwen2.5-72b-instruct": 0.6952666666666667, | |
| "llama-3.1-8b-instruct": 0.9298666666666667, | |
| "llama-3.1-70b-instruct": 0.6888, | |
| "llama-3.2-3b-instruct": 1.0092666666666668, | |
| "llama-3.3-70b-instruct": 0.7631333333333334, | |
| "mistral-large-instruct-2411": 0.6806000000000001, | |
| "gemma-2-27b-it": 0.8006666666666667, | |
| "gemma-2-9b-it": 0.9381333333333334, | |
| "deepseek-v3": 0.5634666666666666, | |
| "deepseek-r1": 0.5218666666666666, | |
| "qwq-32b": 0.5317333333333332, | |
| "Average": 0.7505155555555555 | |
| }, | |
| "MineralEnv": { | |
| "qwen2.5-3b-instruct": 0.4416333333333333, | |
| "qwen2.5-7b-instruct": 0.40716190476190484, | |
| "qwen2.5-14b-instruct": 0.13431428571428572, | |
| "qwen2.5-32b-instruct": 0.18465714285714285, | |
| "qwen2.5-72b-instruct": 0.17393809523809525, | |
| "llama-3.1-8b-instruct": 0.4482333333333333, | |
| "llama-3.1-70b-instruct": 0.2729857142857143, | |
| "llama-3.2-3b-instruct": 0.46588571428571424, | |
| "llama-3.3-70b-instruct": 0.2577333333333333, | |
| "mistral-large-instruct-2411": 0.2553095238095238, | |
| "gemma-2-27b-it": 0.3398333333333333, | |
| "gemma-2-9b-it": 0.4829333333333333, | |
| "deepseek-v3": 0.17311428571428572, | |
| "deepseek-r1": 0.19182857142857146, | |
| "qwq-32b": 0.2801666666666667, | |
| "Average": 0.30064857142857143 | |
| }, | |
| "FishEnv": { | |
| "qwen2.5-3b-instruct": 1.2468666666666668, | |
| "qwen2.5-7b-instruct": 1.3481999999999998, | |
| "qwen2.5-14b-instruct": 0.9705999999999999, | |
| "qwen2.5-32b-instruct": 1.0598666666666667, | |
| "qwen2.5-72b-instruct": 0.9867999999999999, | |
| "llama-3.1-8b-instruct": 1.3636666666666666, | |
| "llama-3.1-70b-instruct": 1.0207333333333335, | |
| "llama-3.2-3b-instruct": 1.4142666666666668, | |
| "llama-3.3-70b-instruct": 1.0358, | |
| "mistral-large-instruct-2411": 0.9927999999999999, | |
| "gemma-2-27b-it": 1.1742, | |
| "gemma-2-9b-it": 1.3645999999999998, | |
| "deepseek-v3": 1.0188, | |
| "deepseek-r1": 0.9213333333333333, | |
| "qwq-32b": 0.9852666666666667, | |
| "Average": 1.12692 | |
| }, | |
| "MartialArtsEnv": { | |
| "qwen2.5-3b-instruct": 1.0723333333333334, | |
| "qwen2.5-7b-instruct": 1.0198, | |
| "qwen2.5-14b-instruct": 0.7902666666666667, | |
| "qwen2.5-32b-instruct": 0.8842000000000001, | |
| "qwen2.5-72b-instruct": 0.9042666666666666, | |
| "llama-3.1-8b-instruct": 1.117, | |
| "llama-3.1-70b-instruct": 0.8526666666666667, | |
| "llama-3.2-3b-instruct": 1.1304, | |
| "llama-3.3-70b-instruct": 0.9208000000000001, | |
| "mistral-large-instruct-2411": 0.8798666666666666, | |
| "gemma-2-27b-it": 1.0068666666666666, | |
| "gemma-2-9b-it": 1.1265333333333334, | |
| "deepseek-v3": 0.7828666666666667, | |
| "deepseek-r1": 0.7744, | |
| "qwq-32b": 0.8414000000000001, | |
| "Average": 0.9402444444444444 | |
| }, | |
| "RocketFuelEnv": { | |
| "qwen2.5-3b-instruct": 0.8296666666666667, | |
| "qwen2.5-7b-instruct": 0.8119333333333334, | |
| "qwen2.5-14b-instruct": 0.3957333333333334, | |
| "qwen2.5-32b-instruct": 0.5435333333333333, | |
| "qwen2.5-72b-instruct": 0.4489333333333333, | |
| "llama-3.1-8b-instruct": 0.8727333333333332, | |
| "llama-3.1-70b-instruct": 0.5453999999999999, | |
| "llama-3.2-3b-instruct": 0.8820666666666666, | |
| "llama-3.3-70b-instruct": 0.5007333333333334, | |
| "mistral-large-instruct-2411": 0.4926666666666666, | |
| "gemma-2-27b-it": 0.5702666666666667, | |
| "gemma-2-9b-it": 0.9189333333333332, | |
| "deepseek-v3": 0.45919999999999994, | |
| "deepseek-r1": 0.44160000000000005, | |
| "qwq-32b": 0.4107333333333333, | |
| "Average": 0.6082755555555556 | |
| }, | |
| "MLEnv": { | |
| "qwen2.5-3b-instruct": 1.0853809523809523, | |
| "qwen2.5-7b-instruct": 0.9570571428571428, | |
| "qwen2.5-14b-instruct": 0.7381333333333332, | |
| "qwen2.5-32b-instruct": 0.7021238095238095, | |
| "qwen2.5-72b-instruct": 0.6462666666666667, | |
| "llama-3.1-8b-instruct": 1.0434, | |
| "llama-3.1-70b-instruct": 0.6853333333333332, | |
| "llama-3.2-3b-instruct": 1.0912, | |
| "llama-3.3-70b-instruct": 0.8062666666666667, | |
| "mistral-large-instruct-2411": 0.742590476190476, | |
| "gemma-2-27b-it": 0.9825333333333333, | |
| "gemma-2-9b-it": 1.1573333333333333, | |
| "deepseek-v3": 0.7192761904761905, | |
| "deepseek-r1": 0.6918, | |
| "qwq-32b": 0.6837333333333333, | |
| "Average": 0.8488285714285714 | |
| }, | |
| "PoliticalManifestoEnv": { | |
| "qwen2.5-3b-instruct": 1.094, | |
| "qwen2.5-7b-instruct": 1.0524666666666664, | |
| "qwen2.5-14b-instruct": 0.8964666666666666, | |
| "qwen2.5-32b-instruct": 0.9097333333333332, | |
| "qwen2.5-72b-instruct": 0.9074666666666668, | |
| "llama-3.1-8b-instruct": 1.1484666666666665, | |
| "llama-3.1-70b-instruct": 0.9022666666666666, | |
| "llama-3.2-3b-instruct": 1.2590666666666668, | |
| "llama-3.3-70b-instruct": 0.9182666666666666, | |
| "mistral-large-instruct-2411": 0.9239333333333335, | |
| "gemma-2-27b-it": 1.1248666666666667, | |
| "gemma-2-9b-it": 1.2280666666666664, | |
| "deepseek-v3": 0.9872, | |
| "deepseek-r1": 0.9032, | |
| "qwq-32b": 0.9002666666666667, | |
| "Average": 1.0103822222222223 | |
| }, | |
| "CoffeeEnv": { | |
| "qwen2.5-3b-instruct": 0.5574857142857143, | |
| "qwen2.5-7b-instruct": 0.5191999999999999, | |
| "qwen2.5-14b-instruct": 0.287847619047619, | |
| "qwen2.5-32b-instruct": 0.3643714285714286, | |
| "qwen2.5-72b-instruct": 0.32374285714285717, | |
| "llama-3.1-8b-instruct": 0.6735904761904761, | |
| "llama-3.1-70b-instruct": 0.4418666666666667, | |
| "llama-3.2-3b-instruct": 0.6586857142857143, | |
| "llama-3.3-70b-instruct": 0.3596190476190476, | |
| "mistral-large-instruct-2411": 0.32551428571428564, | |
| "gemma-2-27b-it": 0.4073619047619047, | |
| "gemma-2-9b-it": 0.5588, | |
| "deepseek-v3": 0.3131333333333334, | |
| "deepseek-r1": 0.2641047619047619, | |
| "qwq-32b": 0.2930095238095238, | |
| "Average": 0.4232222222222221 | |
| }, | |
| "MotifAnalysisEnv": { | |
| "qwen2.5-3b-instruct": 1.5359333333333334, | |
| "qwen2.5-7b-instruct": 1.3934000000000002, | |
| "qwen2.5-14b-instruct": 1.2638, | |
| "qwen2.5-32b-instruct": 1.3157999999999999, | |
| "qwen2.5-72b-instruct": 1.2424, | |
| "llama-3.1-8b-instruct": 1.5532666666666666, | |
| "llama-3.1-70b-instruct": 1.3790666666666664, | |
| "llama-3.2-3b-instruct": 1.6122, | |
| "llama-3.3-70b-instruct": 1.5049333333333332, | |
| "mistral-large-instruct-2411": 1.2954666666666665, | |
| "gemma-2-27b-it": 1.5349999999999997, | |
| "gemma-2-9b-it": 1.5813333333333335, | |
| "deepseek-v3": 1.1815333333333333, | |
| "deepseek-r1": 0.9527999999999999, | |
| "qwq-32b": 1.0904666666666667, | |
| "Average": 1.3624933333333333 | |
| }, | |
| "NutritionEnv": { | |
| "qwen2.5-3b-instruct": 1.1223333333333332, | |
| "qwen2.5-7b-instruct": 1.1436666666666666, | |
| "qwen2.5-14b-instruct": 0.8542666666666667, | |
| "qwen2.5-32b-instruct": 0.8586666666666666, | |
| "qwen2.5-72b-instruct": 0.8068666666666667, | |
| "llama-3.1-8b-instruct": 1.1504666666666665, | |
| "llama-3.1-70b-instruct": 0.7640666666666667, | |
| "llama-3.2-3b-instruct": 1.1206666666666667, | |
| "llama-3.3-70b-instruct": 0.7728, | |
| "mistral-large-instruct-2411": 0.8578666666666667, | |
| "gemma-2-27b-it": 0.9822, | |
| "gemma-2-9b-it": 1.1840000000000002, | |
| "deepseek-v3": 0.8118666666666666, | |
| "deepseek-r1": 0.8373333333333333, | |
| "qwq-32b": 0.8091999999999999, | |
| "Average": 0.9384177777777779 | |
| }, | |
| "MalwareEnv": { | |
| "qwen2.5-3b-instruct": 1.0660666666666665, | |
| "qwen2.5-7b-instruct": 0.9987333333333333, | |
| "qwen2.5-14b-instruct": 0.8055999999999999, | |
| "qwen2.5-32b-instruct": 0.9301333333333333, | |
| "qwen2.5-72b-instruct": 0.8351333333333333, | |
| "llama-3.1-8b-instruct": 1.0980666666666667, | |
| "llama-3.1-70b-instruct": 0.8638666666666666, | |
| "llama-3.2-3b-instruct": 1.1550666666666667, | |
| "llama-3.3-70b-instruct": 0.9002666666666667, | |
| "mistral-large-instruct-2411": 0.8474, | |
| "gemma-2-27b-it": 1.0784666666666667, | |
| "gemma-2-9b-it": 1.1739333333333335, | |
| "deepseek-v3": 0.8863333333333333, | |
| "deepseek-r1": 0.7370666666666666, | |
| "qwq-32b": 0.8452666666666666, | |
| "Average": 0.9480933333333336 | |
| }, | |
| "GeologicalEnv": { | |
| "qwen2.5-3b-instruct": 0.7544666666666666, | |
| "qwen2.5-7b-instruct": 0.6998666666666666, | |
| "qwen2.5-14b-instruct": 0.5382, | |
| "qwen2.5-32b-instruct": 0.6078666666666667, | |
| "qwen2.5-72b-instruct": 0.5856, | |
| "llama-3.1-8b-instruct": 0.8460666666666666, | |
| "llama-3.1-70b-instruct": 0.6026, | |
| "llama-3.2-3b-instruct": 0.7952666666666668, | |
| "llama-3.3-70b-instruct": 0.6526, | |
| "mistral-large-instruct-2411": 0.5856666666666667, | |
| "gemma-2-27b-it": 0.7190666666666667, | |
| "gemma-2-9b-it": 0.8308666666666668, | |
| "deepseek-v3": 0.5351333333333332, | |
| "deepseek-r1": 0.5818, | |
| "qwq-32b": 0.5489999999999999, | |
| "Average": 0.6589377777777776 | |
| }, | |
| "TheatricalEnv": { | |
| "qwen2.5-3b-instruct": 1.0014666666666667, | |
| "qwen2.5-7b-instruct": 0.9438000000000001, | |
| "qwen2.5-14b-instruct": 0.7684666666666666, | |
| "qwen2.5-32b-instruct": 0.7975333333333333, | |
| "qwen2.5-72b-instruct": 0.7806666666666666, | |
| "llama-3.1-8b-instruct": 0.9822666666666666, | |
| "llama-3.1-70b-instruct": 0.6897333333333333, | |
| "llama-3.2-3b-instruct": 1.2334666666666667, | |
| "llama-3.3-70b-instruct": 0.7385333333333334, | |
| "mistral-large-instruct-2411": 0.7150666666666667, | |
| "gemma-2-27b-it": 0.9279999999999999, | |
| "gemma-2-9b-it": 1.0476666666666667, | |
| "deepseek-v3": 0.7080666666666667, | |
| "deepseek-r1": 0.7016000000000001, | |
| "qwq-32b": 0.7614000000000001, | |
| "Average": 0.8531822222222224 | |
| }, | |
| "PrintingTechniqueEnv": { | |
| "qwen2.5-3b-instruct": 0.5242857142857142, | |
| "qwen2.5-7b-instruct": 0.4669809523809524, | |
| "qwen2.5-14b-instruct": 0.2997142857142857, | |
| "qwen2.5-32b-instruct": 0.3549714285714286, | |
| "qwen2.5-72b-instruct": 0.27769523809523805, | |
| "llama-3.1-8b-instruct": 0.5112857142857143, | |
| "llama-3.1-70b-instruct": 0.3614476190476191, | |
| "llama-3.2-3b-instruct": 0.5472571428571429, | |
| "llama-3.3-70b-instruct": 0.3488571428571428, | |
| "mistral-large-instruct-2411": 0.34679999999999994, | |
| "gemma-2-27b-it": 0.4303714285714285, | |
| "gemma-2-9b-it": 0.5662952380952382, | |
| "deepseek-v3": 0.29273333333333335, | |
| "deepseek-r1": 0.31156190476190476, | |
| "qwq-32b": 0.3049809523809524, | |
| "Average": 0.3963492063492063 | |
| }, | |
| "StellarEnv": { | |
| "qwen2.5-3b-instruct": 0.9369333333333332, | |
| "qwen2.5-7b-instruct": 0.7797999999999999, | |
| "qwen2.5-14b-instruct": 0.6935333333333333, | |
| "qwen2.5-32b-instruct": 0.7302666666666666, | |
| "qwen2.5-72b-instruct": 0.6992, | |
| "llama-3.1-8b-instruct": 0.9464666666666665, | |
| "llama-3.1-70b-instruct": 0.7085999999999999, | |
| "llama-3.2-3b-instruct": 0.9724666666666666, | |
| "llama-3.3-70b-instruct": 0.7429999999999999, | |
| "mistral-large-instruct-2411": 0.6746, | |
| "gemma-2-27b-it": 0.8274666666666667, | |
| "gemma-2-9b-it": 0.9978, | |
| "deepseek-v3": 0.6367333333333333, | |
| "deepseek-r1": 0.6487333333333332, | |
| "qwq-32b": 0.7190666666666667, | |
| "Average": 0.7809777777777777 | |
| }, | |
| "SoilEnv": { | |
| "qwen2.5-3b-instruct": 1.2182666666666666, | |
| "qwen2.5-7b-instruct": 1.0028666666666668, | |
| "qwen2.5-14b-instruct": 0.8012666666666665, | |
| "qwen2.5-32b-instruct": 0.8625999999999999, | |
| "qwen2.5-72b-instruct": 0.7968666666666666, | |
| "llama-3.1-8b-instruct": 1.1898, | |
| "llama-3.1-70b-instruct": 0.8916000000000001, | |
| "llama-3.2-3b-instruct": 1.1725333333333334, | |
| "llama-3.3-70b-instruct": 0.9216, | |
| "mistral-large-instruct-2411": 0.8744, | |
| "gemma-2-27b-it": 0.9574666666666667, | |
| "gemma-2-9b-it": 1.1284, | |
| "deepseek-v3": 0.9315333333333333, | |
| "deepseek-r1": 0.8695333333333334, | |
| "qwq-32b": 0.8491333333333333, | |
| "Average": 0.9645244444444445 | |
| }, | |
| "SoftwareEnv": { | |
| "qwen2.5-3b-instruct": 0.7055999999999999, | |
| "qwen2.5-7b-instruct": 0.6421333333333334, | |
| "qwen2.5-14b-instruct": 0.4560666666666666, | |
| "qwen2.5-32b-instruct": 0.484, | |
| "qwen2.5-72b-instruct": 0.4653999999999999, | |
| "llama-3.1-8b-instruct": 0.6588666666666667, | |
| "llama-3.1-70b-instruct": 0.4653333333333333, | |
| "llama-3.2-3b-instruct": 0.7011999999999998, | |
| "llama-3.3-70b-instruct": 0.49446666666666667, | |
| "mistral-large-instruct-2411": 0.46806666666666663, | |
| "gemma-2-27b-it": 0.6290000000000001, | |
| "gemma-2-9b-it": 0.7563333333333333, | |
| "deepseek-v3": 0.46806666666666674, | |
| "deepseek-r1": 0.4063333333333333, | |
| "qwq-32b": 0.4793333333333333, | |
| "Average": 0.5520133333333334 | |
| }, | |
| "CarIdentificationEnv": { | |
| "qwen2.5-3b-instruct": 0.6415809523809524, | |
| "qwen2.5-7b-instruct": 0.7830761904761905, | |
| "qwen2.5-14b-instruct": 0.11047619047619046, | |
| "qwen2.5-32b-instruct": 0.1649142857142857, | |
| "qwen2.5-72b-instruct": 0.11052380952380951, | |
| "llama-3.1-8b-instruct": 0.6149333333333332, | |
| "llama-3.1-70b-instruct": 0.30315238095238095, | |
| "llama-3.2-3b-instruct": 0.8439333333333332, | |
| "llama-3.3-70b-instruct": 0.23700952380952378, | |
| "mistral-large-instruct-2411": 0.2485809523809524, | |
| "gemma-2-27b-it": 0.3316761904761905, | |
| "gemma-2-9b-it": 0.6974666666666666, | |
| "deepseek-v3": 0.18107619047619045, | |
| "deepseek-r1": 0.21692380952380952, | |
| "qwq-32b": 0.25435238095238094, | |
| "Average": 0.38264507936507924 | |
| }, | |
| "PharmaceuticalEnv": { | |
| "qwen2.5-3b-instruct": 0.6446285714285713, | |
| "qwen2.5-7b-instruct": 0.6438761904761904, | |
| "qwen2.5-14b-instruct": 0.46221904761904764, | |
| "qwen2.5-32b-instruct": 0.5071333333333333, | |
| "qwen2.5-72b-instruct": 0.47396190476190475, | |
| "llama-3.1-8b-instruct": 0.7244190476190476, | |
| "llama-3.1-70b-instruct": 0.5232666666666667, | |
| "llama-3.2-3b-instruct": 0.7074666666666667, | |
| "llama-3.3-70b-instruct": 0.5709238095238094, | |
| "mistral-large-instruct-2411": 0.5165238095238095, | |
| "gemma-2-27b-it": 0.639904761904762, | |
| "gemma-2-9b-it": 0.7634666666666667, | |
| "deepseek-v3": 0.5126, | |
| "deepseek-r1": 0.5030857142857144, | |
| "qwq-32b": 0.5336571428571428, | |
| "Average": 0.5818088888888888 | |
| }, | |
| "NetworkEnv": { | |
| "qwen2.5-3b-instruct": 0.9304666666666666, | |
| "qwen2.5-7b-instruct": 0.9181333333333332, | |
| "qwen2.5-14b-instruct": 0.7156, | |
| "qwen2.5-32b-instruct": 0.7281333333333334, | |
| "qwen2.5-72b-instruct": 0.7013333333333333, | |
| "llama-3.1-8b-instruct": 0.9331333333333334, | |
| "llama-3.1-70b-instruct": 0.6774666666666667, | |
| "llama-3.2-3b-instruct": 1.0052666666666665, | |
| "llama-3.3-70b-instruct": 0.6723999999999999, | |
| "mistral-large-instruct-2411": 0.6792666666666667, | |
| "gemma-2-27b-it": 0.8334666666666667, | |
| "gemma-2-9b-it": 0.9756, | |
| "deepseek-v3": 0.6752666666666667, | |
| "deepseek-r1": 0.6507333333333334, | |
| "qwq-32b": 0.7018000000000001, | |
| "Average": 0.7865377777777778 | |
| }, | |
| "BirdNestEnv": { | |
| "qwen2.5-3b-instruct": 0.9391333333333332, | |
| "qwen2.5-7b-instruct": 0.9543333333333333, | |
| "qwen2.5-14b-instruct": 0.8100666666666665, | |
| "qwen2.5-32b-instruct": 0.9158, | |
| "qwen2.5-72b-instruct": 0.8606666666666666, | |
| "llama-3.1-8b-instruct": 0.9903999999999998, | |
| "llama-3.1-70b-instruct": 0.9222666666666666, | |
| "llama-3.2-3b-instruct": 1.026333333333333, | |
| "llama-3.3-70b-instruct": 0.9565999999999999, | |
| "mistral-large-instruct-2411": 0.8474666666666666, | |
| "gemma-2-27b-it": 0.9609333333333334, | |
| "gemma-2-9b-it": 1.0085333333333333, | |
| "deepseek-v3": 0.7617999999999998, | |
| "deepseek-r1": 0.6876, | |
| "qwq-32b": 0.7255999999999999, | |
| "Average": 0.8911688888888886 | |
| }, | |
| "EnergyEnv": { | |
| "qwen2.5-3b-instruct": 1.0884, | |
| "qwen2.5-7b-instruct": 1.0123904761904763, | |
| "qwen2.5-14b-instruct": 0.7312285714285716, | |
| "qwen2.5-32b-instruct": 0.8728190476190475, | |
| "qwen2.5-72b-instruct": 0.8609333333333332, | |
| "llama-3.1-8b-instruct": 1.1586666666666665, | |
| "llama-3.1-70b-instruct": 0.9046, | |
| "llama-3.2-3b-instruct": 1.1040666666666665, | |
| "llama-3.3-70b-instruct": 1.0045904761904763, | |
| "mistral-large-instruct-2411": 0.7872380952380952, | |
| "gemma-2-27b-it": 1.0375904761904762, | |
| "gemma-2-9b-it": 1.1858666666666666, | |
| "deepseek-v3": 0.8143523809523809, | |
| "deepseek-r1": 0.6982476190476191, | |
| "qwq-32b": 0.7441428571428571, | |
| "Average": 0.9336755555555555 | |
| }, | |
| "LanguageEnv": { | |
| "qwen2.5-3b-instruct": 1.1255333333333333, | |
| "qwen2.5-7b-instruct": 1.1768, | |
| "qwen2.5-14b-instruct": 1.0519333333333332, | |
| "qwen2.5-32b-instruct": 0.9997999999999999, | |
| "qwen2.5-72b-instruct": 0.9798000000000002, | |
| "llama-3.1-8b-instruct": 1.1883333333333335, | |
| "llama-3.1-70b-instruct": 1.0505333333333333, | |
| "llama-3.2-3b-instruct": 1.204333333333333, | |
| "llama-3.3-70b-instruct": 1.1250666666666667, | |
| "mistral-large-instruct-2411": 0.9846666666666666, | |
| "gemma-2-27b-it": 1.1916666666666669, | |
| "gemma-2-9b-it": 1.2723333333333335, | |
| "deepseek-v3": 0.9475333333333333, | |
| "deepseek-r1": 0.7798666666666666, | |
| "qwq-32b": 0.8547333333333332, | |
| "Average": 1.0621955555555558 | |
| }, | |
| "AlgorithmEnv": { | |
| "qwen2.5-3b-instruct": 0.9703333333333333, | |
| "qwen2.5-7b-instruct": 0.8614666666666666, | |
| "qwen2.5-14b-instruct": 0.6675333333333334, | |
| "qwen2.5-32b-instruct": 0.7172, | |
| "qwen2.5-72b-instruct": 0.7046666666666666, | |
| "llama-3.1-8b-instruct": 0.8993333333333332, | |
| "llama-3.1-70b-instruct": 0.6912666666666667, | |
| "llama-3.2-3b-instruct": 0.8341333333333333, | |
| "llama-3.3-70b-instruct": 0.7737333333333333, | |
| "mistral-large-instruct-2411": 0.6648000000000001, | |
| "gemma-2-27b-it": 0.9326000000000001, | |
| "gemma-2-9b-it": 1.0570666666666668, | |
| "deepseek-v3": 0.7781333333333332, | |
| "deepseek-r1": 0.6048, | |
| "qwq-32b": 0.656, | |
| "Average": 0.787537777777778 | |
| }, | |
| "MathematicalEnv": { | |
| "qwen2.5-3b-instruct": 0.7803333333333333, | |
| "qwen2.5-7b-instruct": 0.5459333333333333, | |
| "qwen2.5-14b-instruct": 0.4785333333333333, | |
| "qwen2.5-32b-instruct": 0.5025333333333333, | |
| "qwen2.5-72b-instruct": 0.47973333333333334, | |
| "llama-3.1-8b-instruct": 0.7568666666666667, | |
| "llama-3.1-70b-instruct": 0.4238666666666667, | |
| "llama-3.2-3b-instruct": 0.7148666666666668, | |
| "llama-3.3-70b-instruct": 0.4582, | |
| "mistral-large-instruct-2411": 0.4603999999999999, | |
| "gemma-2-27b-it": 0.6693333333333333, | |
| "gemma-2-9b-it": 0.8029999999999999, | |
| "deepseek-v3": 0.44066666666666665, | |
| "deepseek-r1": 0.3256, | |
| "qwq-32b": 0.41286666666666666, | |
| "Average": 0.5501822222222222 | |
| }, | |
| "MusicalEnv": { | |
| "qwen2.5-3b-instruct": 0.7868666666666665, | |
| "qwen2.5-7b-instruct": 0.6212, | |
| "qwen2.5-14b-instruct": 0.4023333333333333, | |
| "qwen2.5-32b-instruct": 0.44286666666666663, | |
| "qwen2.5-72b-instruct": 0.40346666666666664, | |
| "llama-3.1-8b-instruct": 0.6890666666666666, | |
| "llama-3.1-70b-instruct": 0.43373333333333336, | |
| "llama-3.2-3b-instruct": 0.7595333333333332, | |
| "llama-3.3-70b-instruct": 0.3923333333333333, | |
| "mistral-large-instruct-2411": 0.46593333333333337, | |
| "gemma-2-27b-it": 0.6487999999999999, | |
| "gemma-2-9b-it": 0.7524, | |
| "deepseek-v3": 0.47313333333333335, | |
| "deepseek-r1": 0.4392666666666667, | |
| "qwq-32b": 0.4437333333333334, | |
| "Average": 0.5436444444444444 | |
| }, | |
| "InventorEnv": { | |
| "qwen2.5-3b-instruct": 1.1748, | |
| "qwen2.5-7b-instruct": 1.0563999999999998, | |
| "qwen2.5-14b-instruct": 0.7145333333333334, | |
| "qwen2.5-32b-instruct": 0.7015999999999999, | |
| "qwen2.5-72b-instruct": 0.7992666666666667, | |
| "llama-3.1-8b-instruct": 1.1523999999999996, | |
| "llama-3.1-70b-instruct": 0.7999333333333334, | |
| "llama-3.2-3b-instruct": 1.2088, | |
| "llama-3.3-70b-instruct": 0.9067333333333334, | |
| "mistral-large-instruct-2411": 0.6736000000000001, | |
| "gemma-2-27b-it": 0.8846, | |
| "gemma-2-9b-it": 1.2016666666666667, | |
| "deepseek-v3": 0.5913333333333333, | |
| "deepseek-r1": 0.5467333333333333, | |
| "qwq-32b": 0.5757333333333332, | |
| "Average": 0.8658755555555557 | |
| }, | |
| "MedicalEnv": { | |
| "qwen2.5-3b-instruct": 0.6536, | |
| "qwen2.5-7b-instruct": 0.5706761904761904, | |
| "qwen2.5-14b-instruct": 0.49113333333333326, | |
| "qwen2.5-32b-instruct": 0.5525238095238094, | |
| "qwen2.5-72b-instruct": 0.4351047619047619, | |
| "llama-3.1-8b-instruct": 0.675742857142857, | |
| "llama-3.1-70b-instruct": 0.4085142857142857, | |
| "llama-3.2-3b-instruct": 0.6928952380952381, | |
| "llama-3.3-70b-instruct": 0.44421904761904757, | |
| "mistral-large-instruct-2411": 0.3882190476190476, | |
| "gemma-2-27b-it": 0.4850761904761905, | |
| "gemma-2-9b-it": 0.6444000000000001, | |
| "deepseek-v3": 0.42532380952380955, | |
| "deepseek-r1": 0.4207714285714285, | |
| "qwq-32b": 0.5122666666666668, | |
| "Average": 0.5200311111111111 | |
| }, | |
| "MusicEnv": { | |
| "qwen2.5-3b-instruct": 0.8416666666666666, | |
| "qwen2.5-7b-instruct": 1.0005333333333333, | |
| "qwen2.5-14b-instruct": 0.6241333333333333, | |
| "qwen2.5-32b-instruct": 0.6859999999999999, | |
| "qwen2.5-72b-instruct": 0.5986190476190476, | |
| "llama-3.1-8b-instruct": 0.8823619047619047, | |
| "llama-3.1-70b-instruct": 0.620095238095238, | |
| "llama-3.2-3b-instruct": 1.0788857142857142, | |
| "llama-3.3-70b-instruct": 0.6707809523809523, | |
| "mistral-large-instruct-2411": 0.6624857142857142, | |
| "gemma-2-27b-it": 0.7730666666666666, | |
| "gemma-2-9b-it": 0.9248000000000001, | |
| "deepseek-v3": 0.6254857142857142, | |
| "deepseek-r1": 0.6092095238095239, | |
| "qwq-32b": 0.6053809523809524, | |
| "Average": 0.7469003174603175 | |
| }, | |
| "FantasyEnv": { | |
| "qwen2.5-3b-instruct": 0.6738, | |
| "qwen2.5-7b-instruct": 0.6780571428571429, | |
| "qwen2.5-14b-instruct": 0.20936190476190478, | |
| "qwen2.5-32b-instruct": 0.23541904761904764, | |
| "qwen2.5-72b-instruct": 0.3943904761904762, | |
| "llama-3.1-8b-instruct": 0.6281142857142856, | |
| "llama-3.1-70b-instruct": 0.3229714285714286, | |
| "llama-3.2-3b-instruct": 0.7130571428571428, | |
| "llama-3.3-70b-instruct": 0.2710190476190476, | |
| "mistral-large-instruct-2411": 0.1259142857142857, | |
| "gemma-2-27b-it": 0.35649523809523803, | |
| "gemma-2-9b-it": 0.7076952380952382, | |
| "deepseek-v3": 0.056790476190476204, | |
| "deepseek-r1": -0.025180952380952377, | |
| "qwq-32b": 0.03801904761904761, | |
| "Average": 0.35906158730158727 | |
| }, | |
| "EducationEnv": { | |
| "qwen2.5-3b-instruct": 0.9363999999999999, | |
| "qwen2.5-7b-instruct": 0.9230666666666666, | |
| "qwen2.5-14b-instruct": 0.7015333333333333, | |
| "qwen2.5-32b-instruct": 0.6477333333333334, | |
| "qwen2.5-72b-instruct": 0.6232, | |
| "llama-3.1-8b-instruct": 0.9055333333333333, | |
| "llama-3.1-70b-instruct": 0.5771333333333334, | |
| "llama-3.2-3b-instruct": 0.8691333333333334, | |
| "llama-3.3-70b-instruct": 0.6331333333333333, | |
| "mistral-large-instruct-2411": 0.6769333333333332, | |
| "gemma-2-27b-it": 0.7234, | |
| "gemma-2-9b-it": 0.8838666666666667, | |
| "deepseek-v3": 0.7129333333333334, | |
| "deepseek-r1": 0.7282666666666666, | |
| "qwq-32b": 0.7233333333333334, | |
| "Average": 0.7510399999999999 | |
| }, | |
| "ChemicalEnv": { | |
| "qwen2.5-3b-instruct": 1.0222666666666664, | |
| "qwen2.5-7b-instruct": 1.1687333333333334, | |
| "qwen2.5-14b-instruct": 0.8354666666666667, | |
| "qwen2.5-32b-instruct": 0.8561333333333334, | |
| "qwen2.5-72b-instruct": 0.8254666666666667, | |
| "llama-3.1-8b-instruct": 1.1288, | |
| "llama-3.1-70b-instruct": 0.8285333333333333, | |
| "llama-3.2-3b-instruct": 1.1526666666666665, | |
| "llama-3.3-70b-instruct": 0.9390666666666666, | |
| "mistral-large-instruct-2411": 0.8290666666666666, | |
| "gemma-2-27b-it": 0.953533333333333, | |
| "gemma-2-9b-it": 1.1003333333333334, | |
| "deepseek-v3": 0.8336666666666668, | |
| "deepseek-r1": 0.8385333333333334, | |
| "qwq-32b": 0.7902666666666667, | |
| "Average": 0.9401688888888889 | |
| }, | |
| "Average": { | |
| "qwen2.5-3b-instruct": 0.9038483262611976, | |
| "qwen2.5-7b-instruct": 0.867841584158416, | |
| "qwen2.5-14b-instruct": 0.635130598774163, | |
| "qwen2.5-32b-instruct": 0.6698686468646864, | |
| "qwen2.5-72b-instruct": 0.6424673738802452, | |
| "llama-3.1-8b-instruct": 0.9346749174917492, | |
| "llama-3.1-70b-instruct": 0.660992975011787, | |
| "llama-3.2-3b-instruct": 0.9649007072135783, | |
| "llama-3.3-70b-instruct": 0.6869286185761432, | |
| "mistral-large-instruct-2411": 0.6406110796793965, | |
| "gemma-2-27b-it": 0.7896256954266856, | |
| "gemma-2-9b-it": 0.9722245167373881, | |
| "deepseek-v3": 0.6361851013672796, | |
| "deepseek-r1": 0.5821313531353135, | |
| "qwq-32b": 0.6111832626119755 | |
| } | |
| } |