Obsah
Chatbot Arena vám pomůže porovnat možnosti neuronových sítí pro stejné dotazy
Nový online nástroj hodnotí chatboty tak, že je staví proti sobě v přímých soutěžích.
Co je nového: Chatbot Arena umožňuje uživatelům vyvolávat dva velké jazykové modely současně a identifikovat ten, který poskytuje nejlepší odpovědi. Výsledkem je žebříček, který zahrnuje jak open source, tak proprietární modely.
Jak to funguje: Když uživatel zadá výzvu, dva samostatné modely generují své odpovědi vedle sebe. Uživatel může vybrat vítěze, vyhlásit remízu, rozhodnout, že obě odpovědi byly špatné, nebo pokračovat v hodnocení zadáním nové výzvy.
- Chatbot Arena nabízí dva režimy: bitvu a bok po boku. Bojový režim zahrnuje modely s otevřeným zdrojovým kódem i proprietární modely, ale identifikuje je až poté, co byl vybrán vítěz. Režim Side-by-side umožňuje uživatelům vybrat si ze seznamu 16 modelů s otevřeným zdrojovým kódem.
- Systém tyto soutěže agreguje a řadí modely podle metriky známé jako Elo, která hodnotí konkurenty vůči sobě navzájem. Elo nemá žádné maximální ani minimální skóre. Očekává se, že model, který získá o 100 bodů více než soupeř, vyhraje proti němu 64 procent zápasů, a model, který získá o 200 bodů více, vyhraje 76 procent zápasů.
Kdo je napřed?: Od 19. července 2023 se OpenAI GPT-4 umístil na vrcholu žebříčku. Dvě verze Anthropic’s Claude jsou na druhém a třetím místě. GPT-3.5-turbo drží čtvrté místo následované dvěma verzemi Vicuna (LLaMA jemně vyladěná na sdílených konverzacích ChatGPT).
Proč je to důležité: Typické jazykové benchmarky hodnotí výkonnost modelu kvantitativně. Chatbot Arena poskytuje kvalitativní skóre implementované způsobem, který dokáže seřadit libovolný počet modelů ve vztahu k sobě navzájem.
Přemýšlíme: V boxerském zápase mezi GPT-4 a ročníkem ELIZA ze 1960. let bychom vsadili na ELIZA. Koneckonců používala děrné štítky.