質疑応答の正確さ
GPT-3(OpenAI)
GPT-2(OpenAI)
Anthropic-LM v4-s3(Anthropic)
Turing-NLG(Microsoft)
J1-Grande v2 beta(ai21)
情報検索の正確さ
GPT-2(OpenAI)
Turing-NLG(Microsoft)
GPT-3(OpenAI)
Cohere xlarge (Cohere)
J1-Grande v2 beta(ai21)
要約の正確さ
Turing-NLG(Microsoft)
Anthropic-LM v4-s3(Anthropic)
Cohere xlarge (Cohere)
GPT-2(OpenAI)
GLM(中国清華大学主導のオープンプロジェクト)
問題発言検知の正確さ
GPT-3(OpenAI)
GPT-2(OpenAI)
BLOOM (仏政府主導のオープンプロジェクト)
Anthropic-LM v4-s3(Anthropic)
Turing-NLG(Microsoft)
出典:米スタンフォード大学の基盤モデル研究所