質疑応答の正確さ

GPT-3(OpenAI)

GPT-2(OpenAI)

Anthropic-LM v4-s3(Anthropic)

Turing-NLG(Microsoft)

J1-Grande v2 beta(ai21)

情報検索の正確さ

GPT-2(OpenAI)

Turing-NLG(Microsoft)

GPT-3(OpenAI)

Cohere xlarge (Cohere)

J1-Grande v2 beta(ai21)

要約の正確さ

Turing-NLG(Microsoft)

Anthropic-LM v4-s3(Anthropic)

Cohere xlarge (Cohere)

GPT-2(OpenAI)

GLM(中国清華大学主導のオープンプロジェクト)

問題発言検知の正確さ

GPT-3(OpenAI)

GPT-2(OpenAI)

BLOOM (仏政府主導のオープンプロジェクト)

Anthropic-LM v4-s3(Anthropic)

Turing-NLG(Microsoft)

出典:米スタンフォード大学の基盤モデル研究所