これに対してグーグル広報のネッド・エイドリアンスは、「この調査には重大な欠陥がある」と本誌に語った。
ニューヨーク・タイムズ紙の調査はAIを使って別のAIを評価しているとエイドリアンスは指摘し、この手法を「古くて誤りが多いことで知られる評価手法」と形容する。
その上で、この手法は「人々が実際にグーグルで何を検索しているかを反映していない」と強調した。
今回の調査で使われたのは、オープンAIが開発した「SimpleQA」という評価手法で、事実を求める短い質問に対して大規模言語モデル(LLM)がどれだけ的確に答えられるかを判定する。
オープンAIによると、SimpleQAは正確だが範囲は限定的だという。測定できるのは事実を求める短い質問のみで、検証可能な正解が一つしかない場合に限られる。
「事実に基づく短い答えを出せる能力と、数多くの事実を盛り込んだ長文の回答を書く能力の間に相関関係があるかどうかは、まだ未解決の研究課題だ」とオープンAIは説明している。
ただしOumiの検証では、正しいことが証明できる質問でさえも、グーグル検索の「AIによる概要」で正しい答えが出せない場合があることが分かった。レポートでは、明らかに事実と違っていた複数の事例を挙げている。
AIが間違った答えを出す原因はさまざまだった。
情報の裏付けがないウェブサイトを引用することもあれば、正確な情報を記載したウェブサイトを引用しながらAIが情報を誤って解釈していた場合もあった。
正しい答えを出しながら、誤った内容を付け加えていたケースもある。