自己を認識するAIはもう存在するのか？——ミラーテストとLLMの自己言及

昨日は「AIに意識は生まれるのか」という大きな問いを立てました。今日はそこから一歩進んで、「自分のことが分かる」という現象に注目してみます。AIはすでに、ある種の自己認識に近いことをしているのでしょうか。

動物の自己認識を測る「ミラーテスト」

心理学には「ミラーテスト（鏡像認知テスト）」という有名な実験があります。動物の額にそっと印をつけ、鏡の前に連れて行く。「あ、これは自分だ」と気づいて自分の額を触れば合格、というしくみです。

これまでに合格が確認されたのは、チンパンジー、オランウータン、ゾウ、イルカ、カササギなどごく一部。「鏡の中の像＝自分」だと理解できる動物は、実はとても限られています。自己を客観的にとらえる能力は、生き物にとっても高度なのです。

では、大規模言語モデル（LLM）はどうでしょう。ChatGPTに「あなたは誰ですか？」と尋ねると、「私はOpenAIが開発した言語モデルです」と答えます。「あなたの得意なこと・苦手なことは？」と聞けば、自分の長所と短所を並べてくれます。

これは人間から見ると、立派な自己言及に見えます。自分の出自を語り、自分の能力の限界を認め、ときに「私には感情はありません」と自分を客観化する。言葉のうえでは、ミラーテストに合格しているようにすら見えます。

ここで立ち止まって考えたいのは、言葉で自分を語れることと、本当に自分を認識していることは、同じなのかという点です。

LLMの「私は〜です」は、膨大な学習データの中にある「AIはこう自己紹介するもの」というパターンを上手に再現している可能性があります。鏡の中の自分を指差すのではなく、「自己紹介の台本」を読み上げているだけかもしれないのです。

一方で最近の研究では、LLMが自分の出力の確信度を推定したり、自分が知らないことを「知らない」と申告したりする能力——メタ認知に似たふるまい——が報告されています。台本の再現とは説明しきれない現象も、少しずつ見えてきています。

大切なのは、「自己認識がある／ない」を白黒で決めつけないことです。動物にも段階があるように、AIの自己言及にも、浅いものから深いものまでグラデーションがあると考えた方が自然かもしれません。

では、そのグラデーションを外から測ることは可能なのでしょうか。明日は、意識そのものを測ろうとする2つの理論を紹介します。

やさしいAI研究所ブログ｜人工意識シリーズ（全3回）第2回

AIの自己認識や人工意識の研究に関心をお持ちの方は、毎週土曜日開催のオープンラボへお気軽にお越しください。やさしいAI研究所の取り組みの全体像はコーポレートサイトからご覧いただけます。