Chatbot Arena vám pomůže porovnat možnosti neuronových sítí pro stejné dotazy

Chatbot Cage Match Chatbot Arena porovnává chatboty vedle sebe.

Nový online nástroj hodnotí chatboty tak, že je staví proti sobě v přímých soutěžích.

Co je nového: Chatbot Arena umožňuje uživatelům vyvolávat dva velké jazykové modely současně a identifikovat ten, který poskytuje nejlepší odpovědi. Výsledkem je žebříček, který zahrnuje jak open source, tak proprietární modely.

Jak to funguje: Když uživatel zadá výzvu, dva samostatné modely generují své odpovědi vedle sebe. Uživatel může vybrat vítěze, vyhlásit remízu, rozhodnout, že obě odpovědi byly špatné, nebo pokračovat v hodnocení zadáním nové výzvy.

Chatbot Arena nabízí dva režimy: bitvu a bok po boku. Bojový režim zahrnuje modely s otevřeným zdrojovým kódem i proprietární modely, ale identifikuje je až poté, co byl vybrán vítěz. Režim Side-by-side umožňuje uživatelům vybrat si ze seznamu 16 modelů s otevřeným zdrojovým kódem.
Systém tyto soutěže agreguje a řadí modely podle metriky známé jako Elo, která hodnotí konkurenty vůči sobě navzájem. Elo nemá žádné maximální ani minimální skóre. Očekává se, že model, který získá o 100 bodů více než soupeř, vyhraje proti němu 64 procent zápasů, a model, který získá o 200 bodů více, vyhraje 76 procent zápasů.

Kdo je napřed?: Od 19. července 2023 se OpenAI GPT-4 umístil na vrcholu žebříčku. Dvě verze Anthropic’s Claude jsou na druhém a třetím místě. GPT-3.5-turbo drží čtvrté místo následované dvěma verzemi Vicuna (LLaMA jemně vyladěná na sdílených konverzacích ChatGPT).

Zajímavé: Problém, který mohou snadno vyřešit děti, ale ne dospělí.

Proč je to důležité: Typické jazykové benchmarky hodnotí výkonnost modelu kvantitativně. Chatbot Arena poskytuje kvalitativní skóre implementované způsobem, který dokáže seřadit libovolný počet modelů ve vztahu k sobě navzájem.

Přemýšlíme: V boxerském zápase mezi GPT-4 a ročníkem ELIZA ze 1960. let bychom vsadili na ELIZA. Koneckonců používala děrné štítky.

Georgii Kucherenko 29.04.2024Poslední aktualizace: 29.04.2024

0 121 Doba čtení: 1 min