Papers: Evaluation - a mdouglas Collection

mdouglas 's Collections

Datasets: NeurIPS LLM Challenge 2023

Papers: GEC/Revision

Papers: Instruct

Papers: MoE/Ensemble

Papers: Evaluation

Papers: Quantization

Papers: Pruning

Papers: LLM as a Judge

Papers: Evaluation

updated Apr 10, 2024

Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models

Paper • 2310.17567 • Published Oct 26, 2023 • 1
This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models

Paper • 2310.15941 • Published Oct 24, 2023 • 6
Holistic Evaluation of Language Models

Paper • 2211.09110 • Published Nov 16, 2022 • 1
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

Paper • 2306.04757 • Published Jun 7, 2023 • 5
EleutherAI: Going Beyond "Open Science" to "Science in the Open"

Paper • 2210.06413 • Published Oct 12, 2022
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

Paper • 2310.20499 • Published Oct 31, 2023 • 8
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

Paper • 2311.07463 • Published Nov 13, 2023 • 15
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Paper • 2306.05685 • Published Jun 9, 2023 • 40
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

Paper • 2402.13249 • Published Feb 20, 2024 • 15