人工知能研究におけるディープラーニングの限界

ENGINEER

人工知能はディープラーニング(深層学習)により大きな躍進を遂げました。しかし、まだ人間の能力と比肩するまでには至っていません。

▲出典:Machine Learning Memoirs[11]機械学習の下位概念であるディープラーニングにより、人工知能は過去10年間で、さまざまな用途で超人的な正確性を実現してきました。革新的なカスタマーエクスペリエンス、機械翻訳、言語認識、自律走行車、デジタル画像領域、テキスト生成、音声理解、およびその他の多数のAIアプリケーションなど、列挙するとその範囲の広さに圧倒されます[2]。

AIエージェントが機械学習アルゴリズムに基づいてデータから学習するのとは対照的に、ディープラーニングはAIエージェント自体が入力データを自律的に分析できるようにするニューラルネットワークアーキテクチャに基づいています。つまり、人間が情報分析を行うときに脳が行っている情報解析プロセスと同様のプロセスで学習するのです。ディープラーニングモデルは、データをどう処理するかを指定するためのアルゴリズムを必要としません。これは、人間が収集した膨大な量のデータによって可能になります。

「伝統的な」タイプのディープラーニングは、フィードフォワードモジュール(畳み込みニューラルネットワーク)とリカレントニューラルネットワーク(LSTM [4]やMemNN [5]のようなメモリユニット)を組み合わせて稼働しています。これらのディープラーニングモデルは、「推論する」能力に制限されています。例えば推論問題を長期かつ大量に実行する能力や、答えに到達するための方法を合理化するのに有効です(注:創造的な思考ができない、という意味合い)。

このような能力制限だけではなく、不透明性についても懸念が広まっています。その懸念とは、ディープラーニングモデルがどんな決定をどのように下すのか、その理由を必ずしも明確にできない、という点についてです[6]。特定のモデルが正しい解決策を見つけるかどうかも重要ですが、その解決策を是とする根拠が不明確なままでいると、さまざまな問題を引き起こす可能性があります。たとえば、銀行があなたの与信評価にAIを利用したとしましょう。その結果、銀行はあなたへの融資を見送ると決定したとします。このばあい多くの州では、銀行にはその理由を明確にする義務があると法律で定めています。しかしながら、AIを利用していたローン部門では(おそらく)ローンが拒否された理由について明確な説明をすることができないでしょう。

▲図1 |リカレントニューラルネットワーク(RNN)によって生成されたキャプション。ここで使用されているRNNは、高レベルの画像提示をキャプションに識別するように訓練されている。[1]

最も致命的なディープラーニングの短所は、常識の欠如です。ディープラーニングモデルは、パターンを認識するのには最適かもしれません。一方で、そのパターンが何を意味するのかを理解できません。また、そのパターンが成立する理由を解説することも苦手です。ディープラーニングモデルに理性を与えるためには、単一の出力(つまり、画像の解釈可能性、段落の翻訳など)ではなく、構造を変更する必要があります。代替出力、つまり文章の訳出に用いられる方法を、想定しうる中でもっとも完全と思われる組み合わせを活用して出力するよう、モデルを改善しなければなりません。これがエネルギーベースモデルが意図していることです(このモデルでは、考慮すべきすべての構成因子にスコアリングをします)。

近年では、自動でルートや道路状況を把握して走行する自律走行車の分野にまつわるAIについて、一般の人々から懸念が寄せられています[7]。開発が思うほど進んでいなかったり、また一部では死者を出したりもしているためです[8]。「完全性が期待されている世の中の風潮があるため、AIは問題を内包している」という声も出てきています。また自動運転車に関する徹底的な学習により、AIは人間の運転手よりも事故を少なくするというデータも出ていますが、世の人たちはAIが引き起こす死傷事故がゼロにならない限り、自律走行車を信頼しないでしょう。

さらに厄介なことに、ディープラーニングはあらゆる場面で活用されうると予想されているにも関わらず、その利用と普及が制限されています[19] [20] [21] [22] [23] [24] [25] [26] [27 ] [28] [29] [30] [31] [32]。現実世界における規則性を捉えるためには、「整った」データではなく「粗い」データからニューラルネットワークを作成する方策を見つけることが不可欠であるためです。というのも、人が「整った」データで教師付き学習を行うと、現実世界での「粗い」データ入力に対応できなくなるかもしれないのです。一部の人たちは、ディープラーニングと敵対的な機械学習テクニック[17] [18]を組み合わせることで、私たちが探している答えが見つかると期待しています。

残念なことに一般の人々は、ディープラーニングについて公平な判断ができるほど知識を持っていません。もしディープラーニングの活用の場がAIの研究室だけに限られていたら、それでもいいかもしれません。しかしながら、今日ではあらゆる用途に利用可能なディープラーニング技術が開発・使用されていいます。テック系企業幹部やマーケティング担当者が、ディープラーニングを重視し、その長所を活用することは喜ばしいことです。しかしそれと同時に、AIの弱点を認識し、機能を最大限に発揮できる分野に焦点を絞ることも重要かもしれません。

Mrinmaya Sachanによる文芸(文学)的人工知能の研究[33]がすばらしい発展を遂げたのも、ディープラーニングのおかげでした。それもかかわらず、今日のAIシステムは依然として「人間の知性らしさ」とでもいえる、本質的な性質を欠いているのはなぜでしょうか。さらに問うべき課題として浮上するのは、人類が人間の能力(推論、理解、常識)を持ったAIシステム、いわば、真のインテリジェントシステムを開発するために、人工知能にどのようなタスクを課し、その目標を達成できたかどうかをどのように評価すべきか、ということです。彼の研究では、社会システムの形で適用できる利点とともに、AIシステムをさらに発展させるための2つのフレームワークを使用することによって、AIシステムに関する標準化テストの実施を提案しています。これによって、社会善と教育の形で有益な結果がもたらされる、とも述べています。

ディープラーニングと意思決定について、私たちはニューラルネットワークを真の意味で理論的に理解できているでしょうか?

脳の構造を模倣しようとする人工ニューラルネットワークは、人工ニューロン(ノード)の多数の接続を有しています。ネットワーク自体はアルゴリズムではなく、求められたタスクを達成するためにさまざまな機械学習アルゴリズムが機能できるフレームワークといえます。ニューラルネットワークエンジニアリングの基礎は、ヒューリスティックにほぼ基づいており、ネットワークアーキテクチャの選択にもやや重点が置かれています。

残念ながら、特定のモデルに適したニューロン数を決定する方法を教えてくれる明確な理論はありません。ニューロンの数とモデルの全体的な容量に関する理論的な研究はあります[12] [13] [14]が、それらを適用するのは現実的ではないのが実情です。

Stanford大学のSanjeev Arora教授は、ディープニューラルネットワークの一般化理論[15]に鮮やかなアプローチを提示しています。この理論では、ディープラーニングの一般化にまつわる謎について言及しています。ImageNetとランダムなラベルを付けた画像でディープラーニングモデルをトレーニングするとしましょう。この手法では高精度な結果を得られる一方で、より高次の一般化を促す正則化戦略を使用してもそれほど役に立ちません[16]。なぜなら訓練されたニューラルネットは、まだ検知していない画像にどのようなラベルがつくのかを予測できないからです。これは言い換えるなら、ニューラルネットワークは一般化が不得意ということです。

▲図2 | CIFAR-10データセットで訓練された3種類のディープニューラルネットワークを騙して成功した1ピクセル攻撃。[9] [10] |元のラベルは黒で表示されており、攻撃の出力ラベルは対応する信頼区間と共に青で表示されている[9]。

また、ニューラルネットワークのモデル出力[9]に使用する大きな画像データセットに「小さなニュアンス」を追加すると、ディープニューラルネットワークアーキテクチャが脆弱性を示すことが最近の研究者によって発見されました。こうした発見は、AIという技術への信頼を落とすかもしれません。たとえば自律走行車は、あらゆる種類のニュアンス(雨、雪、霧、影、誤検知など)にさらされるためです。わずかなニュアンスの変化によって、路面状況などのデータが無意味なものになる可能性があるのは、自律走行車にとって致命的でしょう。TeslaやUberを含む多数の会社・研究者がこうした課題に取り組み、改善されることを筆者は期待しています。そして同時に、こうした動きを一般の人たちに気づいてもらうことも大切でしょう。

▲図3 |ディープニューラルネットワーク(DNN)への1ピクセル攻撃[9]

今日、私たちはテクノロジーに囲まれています。各家庭のスマートガジェットや、ポケットの中のスマートフォン、机の上のコンピューター、私たちをインターネットにつなぐルーター等々……。これらのテクノロジーにはベースアーキテクチャと呼ばれるものが搭載されています。それらは堅牢な工学原理、高い応用レベルの数学、物理学、電気、コンピュータおよびソフトウェア工学などの知識や知見が結晶となって支え、機能しています。ここまでくるには、数え切れないほどの統計的テストと品質実証試験が行われてきました。

ディープラーニングモデルでは、初期モデルを訓練するために大量のデータを必要とします。高精度な結果を導き、かつ過剰適合(※訓練データに対して学習されているが、未知データに対しては適合できていない、汎化できていない状態)を防ぐために、転移学習(※すでに学習したモデルを別の領域に適応させる技術)を逐次タスク形式で実施することが重要になります。長期的に見たときに、「ディープニューラルアーキテクチャ」の内部で何が起きているのかを深く理解せずに技術的解決策を構築することは、実質的にも理論的にも賢明であるとは到底いえません。

謝辞

この記事の作成にあたり、建設的な批判をしてくれたMatt Gormley(カーネギーメロン大学助教授)とArthur Chan(プリンシパルスピーチアーキテクト、AIDL.ioおよびディープラーニングスペシャリスト)に感謝します。

免責事項:この記事は著者の見解であり、カーネギーメロン大学、またはその著者に関連する他の企業の(直接または間接的な)見解を示すものではありません。

(原文:Roberto Iriondo 翻訳者:Yuki Sato)

 

【引用元】

[1] Deep Learning Review| Yann LeCun, Yoshua Bengio, Geoffrey Hinton | http://pages.cs.wisc.edu/~dyer/cs540/handouts/deep-learning-nature2015.pdf

[2] 30 Amazing Applications of Deep Learning | Yaron Hadad | http://www.yaronhadad.com/deep-learning-most-amazing-applications/

[3] Introduction to Deep Learning | Bhiksha Raj | Carnegie Mellon University | http://deeplearning.cs.cmu.edu/

[4] Understanding LSTM Networks | Christopher Olah | http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] Memory Augmented Neural-Networks | Facebook AI Research | https://github.com/facebook/MemNN

[6] The Dark Secret at the Heart of Artificial Intelligence | MIT Technology Review | https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/

[7] MIT 6.S094: Deep Learning for Self-Driving Cars | Massachusetts Institute of Technology | https://selfdrivingcars.mit.edu/

[8] List of Self Driving Car Fatalities | Wikipedia | https://en.wikipedia.org/wiki/List_of_self-driving_car_fatalities

[9] One Pixel Attack for Fooling Deep Neural Networks | Jiawei Su, Danilo Vasconcellos Vargas, Kouichi Sakurai | https://arxiv.org/pdf/1710.08864.pdf

[10] Canadian Institute for Advanced Research Dataset | CIFAR-10 Dataset | https://www.cs.toronto.edu/~kriz/cifar.html

[11] Images, courtesy of Machine Learning Memoirs | https://mlmemoirs.xyz

[12] Deep Neural Network Capacity | Aosen Wang, Hua Zhou, Wenyao Xu, Xin Chen | Arxiv | https://arxiv.org/abs/1708.05029

[13] On Characterizing the Capacity of Neural Networks Using Algebraic Topology | William H. Guss, Ruslan Salakhutdinov | Machine Learning Department, School of Computer Science, Carnegie Mellon University | https://arxiv.org/pdf/1802.04443.pdf

[14] Information Theory, Complexity, and Neural Networks | Yaser S. Abu-Mostafa | California Institute of Technology | http://work.caltech.edu/pub/Abu-Mostafa1989nnet.pdf

[15] Generalization Theory and Deep Nets, An Introduction | Sanjeev Arora | Stanford University | http://www.offconvex.org/2017/12/08/generalization1/

[16] Understanding Deep Learning Requires Re-Thinking Generalization | Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals | https://arxiv.org/pdf/1611.03530.pdf

[17] The Limitations of Deep Learning in Adversarial Settings | Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z. Berkay Celik, Ananthram Swami | Proceedings of the 1st IEEE European Symposium on Security and Privacy, IEEE 2016. Saarbrucken, Germany | http://patrickmcdaniel.org/pubs/esp16.pdf

[18] Machine Learning in Adversarial Settings | Patrick McDaniel, Nicolas Papernot, and Z. Berkay Celik | Pennsylvania State University | http://patrickmcdaniel.org/pubs/ieeespmag16.pdf

[19] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, 2012.

[20] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf. Deepface: Closing the gap to humanlevel performance in face verification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1701–1708, 2014.

[21] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. Advances in Neural Information Processing Systems, 2015.

[22] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, et al. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In Proceedings of the IEEE international conference on computer vision, pages 1026–1034, 2015.

[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016.

[25] Geoffrey Hinton, Li Deng, Dong Yu, George E Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N Sainath, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6):82–97, 2012.

[26] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, et al. Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567, 2014.

[27] Wayne Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Mike Seltzer, Andreas Stolcke, Dong Yu, and Geoffrey Zweig. Achieving human parity in conversational speech recognition. arXiv preprint arXiv:1610.05256, 2016.

[28] Chung-Cheng Chiu, Tara N Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J Weiss, Kanishka Rao, Katya Gonina, et al. State-of-the-art speech recognition with sequence-to-sequence models. arXiv preprint arXiv:1712.01769, 2017.

[29] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. In International Conference on Learning Representations, 2015.

[30] Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems, pages 3104–3112, 2014.

[31] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144, 2016.

[32] Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, et al. Achieving human parity on automatic chinese to english news translation. arXiv preprint arXiv:1803.05567, 2018.

[33] Mrinmaya Sachan, Towards Literate Artificial Intelligence, Machine Learning Department at Carnegie Mellon University, https://pdfs.semanticscholar.org/25c5/6f52c528112da99d0ae7e559500ef7532d3a.pdf

SHARE

RELATED

  • お問い合わせ
  • お問い合わせ
  • お問い合わせ