最新記事
AI

AIがそれらしい嘘をつくのは「創造性がありすぎるから」? AIのさらなる進化のため必要なこととは

AIS MAKE NO SENSE

2025年7月18日(金)16時00分
ルトビク・デサイ(サウスカロライナ大学教授)
何かを発言するロボット

ILLUSTRATION BY CAROL YEPESーMOMENT/GETTY IMAGES

<大規模言語モデル(LLM)は非常に有能に見えるが、文法の規則に頼らず意味を汲み取る能力は人間にも遠く及ばない>

大規模言語モデル(LLM)や画像生成モデルなどの生成AIは、医師や弁護士の国家試験を突破できる。数学オリンピックでは金メダル級の成績を収めるし、詩を書くことも美しい絵を描くことも、オリジナルの音楽を作ることもできる。

その有能ぶりを見ていると、いずれAI(人工知能)は人間の仕事を奪い、社会のあらゆる側面を大きく変えるに違いないと思えてくる。


だが時に人間と遜色ないコンテンツを生成する一方で、もっともらしいが事実に反する情報を堂々と提示したりもする。また懐疑派は、AIの推論能力に疑問を呈している。

LLMは人間の言語と思考を模倣するように構築されているが、人間とは似て非なるものだ。人間は幼少期から無数の知覚体験と周囲とのやりとりを通して学習するが、LLMは膨大な、大半がインターネット上で集めたデータを使って訓練される。

こうしたモデルは非常に優秀で、プロンプト(指示)を出すと自分で考えてタスクを実行する「AIエージェント」も登場した。人間の代わりに会議に出席し、買い物をし、保険の審査までしてくれるツールだ。

それでも重要なタスクを任せるならば、その前にLLMが世界をどう理解しているかを把握しておきたい。「言語と意味」を専門とする心理学者の私は研究チームと共に、LLMの「意味の理解度」を査定するベンチマークテストを開発した。

LLMにとって「意味をなす」とはどういうことなのだろう。私たちのテストでは、2つの名詞を組み合わせた語句を使い、そこに意味があるかどうかを判断させた。

英語が堪能な人にとって、「ビーチ・ボール(beach ball)」や「アップル・ケーキ(apple cake)」は意味をなす言葉だ。だが語順を入れ替えて「ボール・ビーチ」「ケーキ・アップル」とすると、通常は意味をなさなくなる。

ここに文法は関係ない。人間は言葉を使って周囲の人々と交流することを通じて、こうした語句を学び、意味を理解していく。

ではLLMは単語の組み合わせから、人間と同じように意味をくみ取ることができるのか。文法の規則が通用しない「名詞+名詞」の語句を使って、私たちはそうした能力を測ることにした。

例えば「赤い・ボール(redball)」のような「形容詞+名詞」の組み合わせは文法に依拠する形で意味を持ち、「ボール・赤い(ballred)」となると意味をなさなくなる。

「名詞+名詞」で能力判定

今回のテストでは単語の定義は尋ねず、LLMが文法に頼らずに単語の組み合わせから意味を探り出せるかどうかを探った。客観的な正解があるわけではなく、人間に近い意味の取り方ができるかを判定した。

テストには、あらかじめ人間の被験者が0(全く意味をなさない)〜4(完璧に意味をなす)の5段階で評価した1768種類の「名詞+名詞」の組み合わせを使った。意味をなす組み合わせと意味をなさない組み合わせを明確に分けるために、中間と評価された語句は除外した。そして意味の有無をジェミニ、クロード、GPT2種の最先端LLM4種に、人間の被験者と同じ5段階で評価させた。

結果は散々だった。例えば人間は「ケーキ・アップル」を、意味をほとんどなさない──5段階評価で平均1──と判断した。対してLLMはいずれも2〜4のスコアを付け、意味の有無について人間の95%より高く評価した。

「犬・そり(dog sled =犬ぞり)」と「そり・犬(sled dog =そりを引く犬)」のように語順を入れ替えても意味を持つ組み合わせの場合は、人間とLLMの評価にそこまで大きな開きはなかった。だがこうした語句でも、LLMが人間の95%より低く評価するケースもあった。

助け舟を出そうと、プロンプトに「意味をなす語句」と「意味をなさない語句」の例を増やしたところパフォーマンスはやや改善したが、人間とは比較にならなかった。

続いて語句の意味を5段階評価でなく、あるかないかの2択で答えさせた。するとパフォーマンスが上がり、特にクロード・オーパス3は優秀だったが、それでも人間には遠く及ばなかった。

AIに「創造性」は要らない

この結果からは、LLMに人間のような「意味を理解する能力」が備わっていないことがうかがえる。もっとも、テストが人間の評価を基準とした主観的タスクであることには、留意したほうがいいだろう。通常、ベンチマークで査定するのは推論や計画、コード生成の性能で、こうしたテストには客観的な正解がある。

今回のテストでパフォーマンスが振るわなかったのは、LLMに語句の意味を過大に評価する傾向があったからだ。本来意味をなさない語句にLLMは意味を見いだした。言い換えるなら、創造性を発揮しすぎた。

意味をなさない、あるいは意味の薄い語句も文脈次第で意味を持ち得るのが、原因かもしれない。例えば、ボールで埋め尽くされたビーチは「ボール・ビーチ」と呼べるかもしれない。だがこの名詞の組み合わせは、一般的ではない。

人間に近い感覚で世界を理解できるレベルにまで進化しない限り、LLMが部分的にでも人間の仕事を肩代わりするのは無理だろう。

誰かのミスであるにせよ意図的な攻撃であるにせよ、処理する情報が曖昧だったり混乱を招いたり、支離滅裂だったりするならば、LLMはそれを見抜いて警告できるようになるのが重要だ。筋の通った意味を無理やり見いだそうとする必要はない。

AIエージェントが誤配信のメールを受け取った場合は、「すみませんが、意味が分かりません」と返信するのが妥当。内容を創造的に解釈することは求められない。

会議で誰かが理解できない発言をしたなら、その場に居合わせたAIエージェントには「コメントの意味が分かりませんでした」と報告してほしい。保険金の請求に不明な点があるなら、AIエージェントは勝手に申請を却下するのではなく、「別の案件かもしれません」と人間に注意を促すのが正しい。

要するに、AIに求められるのは常に創造性を発揮して答えをひねり出すことではない。人間に近い感覚で物事の意味を理解し、人間と同じように分からないことは分からないと認める能力なのだ。

The Conversation

The Conversation

Rutvik Desai, Professor of Psychology, University of South Carolina

This article is republished from The Conversation under a Creative Commons license. Read the original article.


ニューズウィーク日本版 脳寿命を延ばす20の習慣
※画像をクリックすると
アマゾンに飛びます

2025年10月28日号(10月21日発売)は「脳寿命を延ばす20の習慣」特集。高齢者医療専門家・和田秀樹医師が説く、脳の健康を保ち認知症を予防する日々の行動と心がけ

※バックナンバーが読み放題となる定期購読はこちら



あわせて読みたい
ニュース速報

ワールド

トランプ米大統領、日韓などアジア歴訪 中国と「ディ

ビジネス

ムーディーズ、フランスの見通し「ネガティブ」に修正

ワールド

米国、コロンビア大統領に制裁 麻薬対策せずと非難

ワールド

再送-タイのシリキット王太后が93歳で死去、王室に
あわせて読みたい
MAGAZINE
特集:脳寿命を延ばす20の習慣
特集:脳寿命を延ばす20の習慣
2025年10月28日号(10/21発売)

高齢者医療専門家の和田秀樹医師が説く――脳の健康を保ち、認知症を予防する日々の行動と心がけ

メールマガジンのご登録はこちらから。
人気ランキング
  • 1
    中国レアアース輸出規制強化...代替調達先に浮上した国は?
  • 2
    シンガポール、南シナ海の防衛強化へ自国建造の多任務戦闘艦を進水 
  • 3
    「信じられない...」レストランで泣いている女性の元に現れた「1羽の野鳥」が取った「まさかの行動」にSNS涙
  • 4
    超大物俳優、地下鉄移動も「完璧な溶け込み具合」...…
  • 5
    熊本、東京、千葉...で相次ぐ懸念 「土地の買収=水…
  • 6
    「宇宙人の乗り物」が太陽系内に...? Xデーは10月2…
  • 7
    為替は先が読みにくい?「ドル以外」に目を向けると…
  • 8
    メーガン妃の「お尻」に手を伸ばすヘンリー王子、注…
  • 9
    アメリカの現状に「重なりすぎて怖い」...映画『ワン…
  • 10
    英国で「パブ離れ」が深刻化、閉店ペースが加速...苦…
  • 1
    【クイズ】ヒグマの生息数が「世界で最も多い国」はどこ?
  • 2
    今年、記録的な数の「中国の飲食店」が進出した国
  • 3
    1000人以上の女性と関係...英アンドルー王子、「称号返上を表明」も消えない生々しすぎる「罪状」
  • 4
    【クイズ】日本でツキノワグマの出没件数が「最も多…
  • 5
    超大物俳優、地下鉄移動も「完璧な溶け込み具合」...…
  • 6
    【クイズ】1位は「蚊」...世界で「2番目に」人間を殺…
  • 7
    中国レアアース輸出規制強化...代替調達先に浮上した…
  • 8
    報じられなかった中国人の「美談」
  • 9
    【2025年最新版】世界航空戦力TOP3...アメリカ・ロシ…
  • 10
    本当は「不健康な朝食」だった...専門家が警告する「…
  • 1
    かばんの中身を見れば一発でわかる!「認知症になりやすい人」が持ち歩く5つのアイテム
  • 2
    【クイズ】ヒグマの生息数が「世界で最も多い国」はどこ?
  • 3
    「大谷翔平の唯一の欠点は...」ドジャース・ロバーツ監督が明かすプレーオフ戦略、監督の意外な「日本的な一面」とは?
  • 4
    1000人以上の女性と関係...英アンドルー王子、「称号…
  • 5
    増加する「子どもを外注」する親たち...ネオ・ネグレ…
  • 6
    悲しみで8年間「羽をむしり続けた」オウム...新たな…
  • 7
    バフェット指数が異常値──アメリカ株に「数世代で最…
  • 8
    「日本の高齢化率は世界2位」→ダントツの1位は超意外…
  • 9
    お腹の脂肪を減らす「8つのヒント」とは?...食事以…
  • 10
    【クイズ】日本でツキノワグマの出没件数が「最も多…
トランプ2.0記事まとめ
日本再発見 シーズン2
CHALLENGING INNOVATOR
Wonderful Story
MOOK
ニューズウィーク日本版別冊
ニューズウィーク日本版別冊

好評発売中