Multi-head attentionとは、入力されてくる文章や画像から注目点を計算する方法として機械学習では広く使われている。DeepSeekのMulti-head latent attentionとは、注目点を計算するための鍵(key)と値(value)を圧縮して共通化することによって計算作業を効率化する方法なのだという。

また、MoE(Mixture-of-experts 複数の専門家)とは、AIがいろいろな文章を学習していくにあたって、頭脳のなかに化学の専門家、文学の専門家、といったように多数の「専門家」を用意し、入力されてくる文章に応じてそれに適した専門家たちを動員して学習していくという仕組みで、他社も採用している。

DeepSeekMoEは専門家をより細分化することと、常に動員する共通の専門家を用意して共通性の高い知識を学習させることに特徴がある。以上二つとも生成AIの世界ではかなり広く使われている計算方法であるが、DeepSeekはそれを改良することによって格段に高い効率を実現した。

DeepSeekを生み出した幻方量化とはいったいいかなる会社なのであろうか。その創立者の梁文鋒は1985年に広東省湛江市生まれ。17歳で浙江大学電子情報エンジニアリング科に入学し、同大学の修士課程を修了した。2015年に株などの高速取引を行うクオンツ・ファンド、幻方量化を創立し、成功を収めて2021年には資産規模を1000億元近くにまで拡大した(劉・屈、2025)。

反中に再教育も可能なほどの開放性
【関連記事】