こうした動きに対抗しようとしているのが、世界中の研究者が開発に協力しているBigScienceと呼ばれるオープンプロジェクト。BigScienceは、BLOOMなど3個の基盤モデルを開発している。BLOOMは、フランス政府がスーパーコンピューターを提供するなどして開発に協力しており、AIが問題発言しないようにする技術の正確さで3位にランクインするなど、高い性能を誇っている。

同様に中国の清華大学を中心とするオープンプロジェクトは、中国語と英語のバイリンガル基盤モデルGLMを開発。GLMは、要約の正確さで5位にランクインしている。

この記事では、質疑応答、情報検索、要約、問題発言検知といった用途でのランキングのトップ5だけを紹介するが、スタンフォード大学基盤モデル研究所は詳細に渡って評価している。ただ同研究所は、純粋な言語モデルだけを比較している。Facebook(Meta)のCICEROは、対話エンジンと計画エンジンを合体させたモデルだし、GoogleのLaMDAは言語モデルを対話型に改良したモデル。なのでこのプロジェクトでは比較対象になっていない。今後こうした特定の用途に特化させた基盤モデルも次々と登場してくることだろう。今後開発したいサービスには、どの基盤モデルが合っているのか。しっかりと検討していただきたい。

ChatGPTはハイプサイクルを一気に駆け上がった。ここまで急速に期待値が高まったのだから、これから一気に幻滅期に向かう可能性が高い。AIは万能ではない。用途を狭く限定すれば人間以上の能力を発揮するが、用途を広く構えてしまえば問題を引き起こす可能性がある。虚偽の情報を拡散したり、差別発言をしたりして、社会問題や訴訟にまで発展するかもしれない。AIの基盤モデルを少数のテック大手が独占することに対する批判も、これから浮上してくることだろう。

言語AIはまだ黎明期。これかも技術革新が必要とされている。ブームに踊らされることなく、しっかりと腰を据えて社会に価値を提供し続けられるようなサービスを開発していただきたいと思う。

【順位】言語AIの用途別ベスト5