「社会的な知能を持っているように見える」には、複数体がお互いに反応しあう環境をつくるのがよいらしかった。
まったく同じプログラムを持つ三体のロボットを準備して同時に動かすと、それぞれのロボットはセンサの反応の微妙な違いから、かなり異なった行動をとる。
偶然に二体、もしくは三体のロボットが互いを発見し、対話を始める、といったことが、容易に起こる。
単純な対話しかできなくても「勝手にロボットがお互いに話し出す」だけで、自我を持っているように見える。もちろんこれは人間が主観的でそう感じたにすぎない。実際にあるように感じることと、本当に機能として存在することは別の話だ。
二体だけでは、お互いに相手のことだけがわかればいい。すると言語は必要とされない。夫婦は長いあいだいっしょにいると、言葉にせずとも何をしたいのかを伝えられるようになる。あるいは母子のあいだでは言葉がなくてもなんとなくしたいことがわかる。それと同じだ。二体だけでは、言語は発生しない。
それが三体になると、そのうち二体が何をしているのかをもう一体が理解し、自分がやりたいことをほかの二人に伝えなければいけなくなる。高度な情報伝達手段が必要になる。
私たちは三体、もしくは二体プラス担当の人間ひとりを付けることから始め、社会的な知能を持たせ、賢く対話できるように学習させた。
ただ、それには身体を伴った人工知能にまつわる、シンボルグラウンディング問題(記号設置問題)を解決しなければならなかった。
シンボルグラウンディングとは何か。
たとえばある人間が、他人から「椅子」というものを教えてもらったとする。「これが椅子です」と言われ、実際にそれに自分で座り、自分の身体を通して改めて解釈をし直すことで、人はその椅子というシンボルの本質が理解できるようになる。
物体だけでなく、「投げる」をはじめとする「行為」の理解も同様である。「投げる」とは何かを教えてもらい、そして自分の体を使い、投げるということを理解する。
「椅子」と「投げる」をそれぞれ理解した人間は、「椅子を投げる」ということを、誰から教えてもらうこともなく、ある椅子を自分の身体と比べて、つまり自分の体で解釈して「この椅子を投げることは可能だ」と想像できるようになる。
それがシンボル操作である。単に「椅子」「投げる」といった言葉の意味を個別に理解していても「この椅子」と「投げられるかどうか」ということを結び付けて想像することはできない。
それぞれの言葉の意味を理解し、結び付けるには、実世界で身体を通じてグラウンド(着地/設置)させることが必要になる。
人間の子どもは、意識的にシンボル操作をすることは十分にできないが、積み木のような遊びをいろいろとしながら、偶然見つけていくことができる。実際の物理世界のなかでやってみたり、空想の中でやってみたりする。
だからロボット(人工知能)も、自身が身体を動かすことを通じて「世界観」を自分で持ち、言葉の意味を解釈していくことによって、誰からも教えられていない組み合わせでも想像できるようにならなければいけなかった。
しかし二一世紀前半までのロボットは、これをできるようにすることが難しかった。
「体験を想像する」ということを機械でどう実現していいか、わからなかったからだ。
ごくごく簡単にはできたが、人間がしているレベルでは、長らくできなかった。ロボットにやらせようとすると、人間のプログラマがプログラムを書かざるをえず、ロボットが自分で考えて「これはできそうだ」という法則を発見した感じにならなかった。
特定の場面で「こう振る舞う」ということを詰め込めば、その範囲ではできる。だが、少しでも状況が違うと、破綻してしまう。自分の家でやっていることと同じ振る舞いを他人の家でやって失敗する子どもといっしょである。応用が利かないので、変なことをしてしまうのだ。
そういう問題を回避し、解決するためにはロボットが認知する「実世界のモデル」をシミュレーションしなければならない。だがその「実世界モデルを頭のなかにつくる方法」がわからなかったのである。
現実空間(外界)から情報を取得して三次元のグラフィックモデルをつくって認識させようとすると、計算が追いつかず、普通のコンピュータではすぐにメモリが破綻する。ある部屋があったとして、そこにある机の上に何が置いてあるのか、それはやわらかいのか、かたいのかまでモデリングしなければいけないのだから、リアルタイムで処理するためには、超高速なコンピュータが必要になる。
では人間はどうやっているのか。
3Dモデルで覚えているのではなく、おそらくはエピソード記憶を使い、ストーリーの組み合わせ、ビジュアルイメージと体の運動の組み合わせで覚えているのだろうと考えられている。
普通、「あなたの部屋の大きさはどれくらいですか?」と聞かれたときに「何メートル×何メートル」というふうに覚えているわけではない。何歩くらいで歩ける範囲の広さだったかな、といったふうに、自分の身体感覚で認識しているものだ。
こうしたエピソード記憶とシンボルグラウンディングを紐づけてロボットに実行させる方法が、力技ながらようやく見つかっていたのが、このころだった。
シンボルグラウンディング問題は、理論的には解決していた。
課題は、それを実装したロボットを作ろうとすると、やはり計算能力が莫大にかかることだった。
それさえできれば、実用化できる。
しかし、まともに計算させようとすると、そのさい生じる莫大な熱量をどう処理するか、電力をいかに用意するかという問題があった。
それ以前に、高度なコンピューティングができるハードウェアをそう簡単には作れない、という問題もある。
そうしたハードを作るには、まず純粋な計算ができる数学者や理論物理学者、さらにはそれを物理世界に存在するモノにしていくことのできる――つまりその七面倒くさい計算をする半導体の集積回路の設計、実装ができる――電子工学者、およびそこで走るソフトウェアをプログラミングできる人間も必要であり、これらすべての分野のオールスターの人材を投入しなければ、超々高速な計算ができるハードはつくれない。
熱と電力の問題を解決し、物理法則の限界に挑むハードをつくる。そしてそれを、海のものとも山のものともしれないものに投入できる。
そんな組織がどこにあるのか。
姉が、持っていた。
投資を重ねてきた、人間の脳のように思考するニューロモルフィックコンピュータのハードベンチャーが、既存のコンピュータをはるかに上回る計算能力と圧倒的に少ない電力消費量とを両立させ、姉は発電所付きのスマートシティを丸ごと、この実験のために使った。
巨大な研究施設、というより研究街をひとつ、このプロジェクトのためだけに作ったのだ。
あまりに個人的なことに先端技術を使おうとしているように見えたが、姉によればビジネスにする算段は立っているようだった。
世界最大級の施設にこうしたロボット四〇〇〇体が放り込まれ、高速で学習が行われた。
「何か」が、できた。
私にはとうてい理解できず、言語化することもできないような高度な技術も駆使されていて、横目で見ていても、圧倒的なものができたのだろうということはわかった。
私はそれにほとんど寄与できなかった。
姉があきらかに自分よりもすごいものをつくってしまったことに、打ちのめされた。
姉の、子を想う気持ちの深さに対して、自分の内にはそこまで自己を駆動する何かがない。
収監中の片山がそうであったように、人間には自分ではどうにもできない時期がある。もどかしくても、無力で、何もできないときがある。焦りや、あきらめがうまれて、メンタルが負のスパイラルに入る。
けれどその瞬間には、なさけなさを受け入れるしかない。