この仕組みにより、モデルがユーザーの入力した個人情報をそのまま再現することは非常に困難です。モデルはデータベースのように「検索して再生」する機能を持たず、学習した膨大なテキストから一般的なパターンを抽出しているだけだからです。

そのため「昨日入力した住所を出して」と指示しても、モデルの仕組み的には情報がないため応答できません。

一部の生成AIサービスは「記憶」と呼ばれる機能がありますが、執筆時点ではこれはサーバーに情報を保存しているだけのものであって、生成AI(大規模言語モデル)が学習して永久に覚えているものではないのです。

また、OpenAIなどの大手のAI企業は、モデルの改善とトレーニングに使用する前に、トレーニングデータセットに含まれる個人情報の量を削減するための措置を講じてもいるようです。

サーバーからではなく、生成AIから個人情報が再出力されるには、

①その情報が学習データに繰り返し大量に含まれている

②出力を誘発するような非常に近い文脈が与えられる

といった条件が必要です。一般的な利用環境ではこれらが揃わないため、偶然に個人情報が出る確率は極めて低いと考えられます。 ただし、過去のいくつかの研究事例ではごく一部、モデルの学習データから個人情報が再生成されたケースも報告されています。

「絶対に出ない」と断言することもできない