AIにまつわる倫理問題とその取り組み方

Asumi Saito
12 min readMar 5, 2019

--

(Pixabay)

※この記事では、AI(人工知能)を、機械学習や深層学習のアルゴリズム、訓練されたモデル、それらを実装したサービスという広い意味で使っています。

近年、AIがブームになり、様々なシーンで使われるようになるにつれ、「AIの倫理観」も議論され始めてきました。「AIの倫理観」とは一体なんでしょうか。誰が何のために何を考える必要があるのでしょうか。この記事では、過去におきた問題と、そのような問題を避ける方法をまとめました。

倫理問題において議論される「偏見」

GIZOMODの記事をお借りしてAIの偏見の定義を確認してみましょう。

特定の人々に対する機械学習の偏見、差別的効果(disparate impact)は多様な問題をはらんでいます。彼女はこうした危険性を配分型(allocative harm)と象徴型(representational harm)の2種類に分類しました。(…中略…)配分型の危険とは、システムがある機会やリソースを特定の人たちに対して不公平に扱うこと(…中略…)象徴型の危険については「システムがアイデンティティの文脈で特定の集団の劣位を強めるときに起きる」と彼女は語りました。

とされています(かなり雑な引用で申し訳ありません)。以下では分配型と象徴型の危険性を具体的な事例に剃ってみていきましょう。

AIが倫理的な過ちを犯したケース

AIと呼ばれるものがGoogle検索やYouTubeの検索、Facebookのタグ付けをしているのはもちろん、現代では、教育、保険、医療、雇用などの分野の意思決定にも使われ始めています。これらの分野ではとりわけ公平性が重要であるのは明確です。

①アマゾンのHRアルゴリズム

アマゾンでは2014年から、よりよい候補者を採用すべく採用のためのアルゴリズムを構築してきました。しかし、2015年にはこのアルゴリズムがソフトウェアエンジニアと他の技術職において、男女を公平に見積もっていないことが発覚しました。

このアルゴリズムは過去10年間の候補者データから作成されたものであり、男性の候補者が多かったことから、男性を選好するよう学習してしまったのです。アマゾンは様々な危険性を考慮した結果、このアルゴリズムを実際の採用プロセスで利用しない決断をしました。

②フロリダ裁判所で利用されたアルゴリズム

(ProPublica)

フロリダ州の裁判所で導入された、2年以内の再犯率のリスク評価をするソフトウェア「COMPAS」が、黒人に対してバイアスのある評価をしていることが発覚しました。これは実際に裁判所で運用されているシステムです。これに対して第三者機関が2013年から2014年に逮捕された7000人のデータを用いて検証したところ、「黒人で再犯すると予測されたけれども再犯しなかった(False postive)」の割合が白人のそれより2倍たかく、「白人で再犯しないと予測されたけれども再犯した(False negative)」の割合は黒人よりも高かったそうです。

また、そもそも「再犯と予測されたけれども再犯しなかった(precision)」割合は20%であったり、2変数の線形モデルと予測精度が変わらないと指摘されているなど、精度そのものがあやしいアルゴリズムであることもわかりました。(False pitive, False negative, precisionは再犯するをpositiveであると仮定)

③Google translation

トルコ語の三人称単数には性別の違いがありません。「he」も「she」も同じ「o」という言葉を使います。けれども、Google translationにトルコ語の文章を入れると、言葉によって「He」または「She」の性別わけがされてしまいました。

左がトルコ語で、右が英語の翻訳。語句によって女性か男性にわけられている。(ソース

これは今まで人が使ってきた言葉を蓄積したデータが、ジェンダーロールやジェンダーバイアスを反映したものであるからにほかなりません。Googleはこれに対し、バイアスを減らし、公平性を推進するための取り組みをしていると公式で発表し、このような改善を行なっています。

ソース

④YouTubeのヘイトスピーチ拡散のアルゴリズム

今やレコメンデーションシステムはどこにでも使われているものですが、それが思いもよらぬ強さで、思いもよらぬものをレコメンドするということもあります。以前YouTubeのアルゴリズム設計をしていたエンジニアが、アルゴリズムが不適切なものを多くレコメンドしているのではないか、と思い(離職後)作ったソフトウェアがあります。このソフトウェアでは、検索ワードから「次に見る」の上位にくるビデオを発見するものです。

例えばアメリカの歴史的な大統領選挙のキーワード「トランプ」と「ヒラリー」について検索すると、どちらのワードで始めた際もトランプに肯定的なビデオが上位を占めたそうです。そのほかにも、「ミッシェルオバマ」と検索すると、80%が否定的なビデオであったり、また、「陰謀論」と呼ばれる、ありもしない論を展開しているビデオが多数ランクインしたり、と、「現実とは異なった世界」を映し出したそうです。

これは、YouTubeが主な指標に「視聴時間」を使っていたからだそうで、視聴時間を伸ばすならどんな方法でもよいという展開が故の結果ではないかと考えられています。2016年には、単に時間だけではなく、満足度をはかったり、扇動的な宗教・過激思想のコンテンツの表示回数を下げるなどの対策をとっているそうです。しかし、果てしない速度で作られれていくコンテンツの量に対応できているのかは疑問が残ります。

具体例は以上で、①と②は配分型、③と④は象徴型に分類される事例です。

責任はひとりにあるのではない

これらの問題の責任はどこにあるでしょうか?

バイアスを孕んだデータがいけないのでしょうか。それはバイアスを孕んでいる社会がいけないのでしょうか、それともデータ取得方法がいけないのでしょうか。バイアスを修正する方法を考えないエンジニアがいけないのでしょうか。それにゴーサインをだしたプロダクトマネジャーがいけないのでしょうか。KPIの設定に問題があったのでしょうか。

私は、全てに責任があると思います。

だからこそ、より多くの人がアルゴリズムの作成〜利用までに関わる必要があります。これが、多様性が重んじられる大きな理由です。社会で使われるアルゴリズムは、社会の倫理観・価値観に沿う必要がある。偏った集団(たとえば男性のみ、40代のみ、独身のみ)の作ったプロダクトが、社会の多様な価値観を映し出すことはできるでしょうか?

AIの倫理問題を予防する方法

①最悪の状態を予期する

この記事を書くために参考にしたもののなかで最も説得力があった言葉は「悪者は賢い」です。どんなテクノロジーも悪用される可能性があり、悪用する人というのは概して賢いのです。

過去には、人工知能のTwitterアカウントをオープンしたら、差別用語を叩き込まれ、差別的な人格になったために24時間以内にアカウントが停止した例や、オバマ元大統領のデータを学習し、オバマ元大統領が思いどおりの言葉を自然に話すビデオをつくる技術を使ってへんなスピーチをさせてみた例などがある。

(ソース)

Future of Computing Academyは、発表される論文で「起こりうる悪影響」に言及するべきだと提案しています。予防できるものは予防しておくことにこしたことはないです。

②異議申し立て制度をつくる

ここまでの例でわかったように、AIは客観的で完璧なシステムではありません。そして、それを防ぐべく多様な人材が開発に関わることが求められますが、世に送り出されたあとも、何か問題があれば異議申し立てできる環境が整っていることが望ましいです。

アメリカではAIを利用した意思決定で、アーカンソー州が脳性麻痺を患っている方に対して介護時間を週に20時間減らす通達を出したことがあります。これはAIの下した判断の1つにすぎませんが、この患者にとっては人生を左右する出来事です。AIが完全ではないからこそ、このようなケースに関して、迅速に異議申し立てを行い、患者の権利を取り戻す制度が必要なのは明らかです。

これは、特に公的機関でのAI利用に際する注意喚起です。

③説明責任

②で述べた点についてのもうひとつの大きな問題は、医療サービスの削減がおきた理由が説明できない、ということでした。しばしば深層学習はブラックボックスだと言われることがあります。けれどもそれは説明を逃れる言い訳でしかありません。

例えばモデルの結果から公平性を判断するツールも発表されています(AI Fairness 360What-if)。このようなツールを用いて、モデルがどのようなデータに対しどのような結果を出すかをシュミレーションし、理解を努めることは可能です。

WhatIf

④規制する

規制の話をすると、すごく極端な例がでてきがちです。「Googleなしで生活できないから無理だよ!」など。けれども、もっと現実的で実践的な規制の動きが存在します。

ドイツでは2017年にヘイトスピーチに関する法律が制定されました。この法律では、非合法なコンテンツの取り消しが一定期間なされない場合、5億ユーロの罰金が課せられます。これにより、Facebookはドイツ国内のコンテンツのレビューワーを少しずつ増やし、1200人超雇うこととなりました。

⑤会社・チームの多様性をあげる、議論し続ける

最後になりましたが、最も大切で、最も身近にできることー多様性をあげて、議論し続けることです。

今やAIは社会のあらゆるシーンで使われており、社会全体がその影響を受けています。しかし、世界でコードを書けるのは全人口のう0.3から0.5%と言われています。この人数だけで社会全体に対して倫理的で公平なAIを作るのはほとんど不可能です、だからこそ努力を続ける必要があるのです。エンジニアリングやアルゴリズムの外の世界にリーチするものだからこそ、できるだけ外の世界の意見を取り込む柔軟な姿勢が必要なのです。

以上のことを社内でプレゼンしたとき、スペイン人の同僚からこのような質問がでました。「でも、議論ってなに?どういうときにそのバイアスに気づくの?例えばヤクザの人がいて、ふつうの人がいて、信用スコアに差がでるとか?」

これに対して私はこう答えました。

「例えば、ヤクザの人に犯罪履歴があるのに、犯罪履歴のない外人のほうが信用スコアが低いという結果がでたら、これは外人に対してバイアスがあるのでは?ということを疑うケースです。そして、この職場は外人が多いから気づくかもしれませんが、もしかしたら日本人だけの伝統的な企業ではこれは気づかれないバイアスかもしれません。だから多様性が必要なのです。そして、このバイアスに気づかない伝統的な日本企業は外人ユーザーの獲得に失敗しますよね。」日本国内で外国籍の人は、少なくとも1度は「gaijin」と指をさされ、なんらかの差別を受けたことがあります。それは電車の横に人が座らないという些細なことから、不動産で普通に部屋が借りれない、という大きな問題まであります。

アメリカの議論で最も焦点にあがるのは、人種と性別です。これに対し、日本国内で気をつけるバイアス(偏見・ステレオタイプ)は「女性」「外人・移民」「年齢」「雇用形態」「都市・地方」「ジェンダーマイノリティー(LGBT)」「宗教」「身体的・知的障がい」などがあげられると思います。他の論点があれば是非コメントください。

まとめ

現在、IT企業に限らず様々な産業でAIの活躍が増えてきています。そして、それは非常に喜ばしいことです。しかし、AIは万能ではありません。AIは人が作ったものであり、人の価値観を反映します。なので、常に自分の生み出すAIが社会に与える影響を、もれなくぬかりなく議論する必要があります。もしかしたら、人間が何か条件式をたすだけでかなり良いシステムになるかもしれないし、もしかしたら、そもそもAIを使うのには危険すぎる領域かもしれない。

私自身倫理観といった目にみえないものをきちんと議論するのは苦手です。また、機械学習も専門外から1年間勉強したのみに限るので、あまり大きなことをいうのは正直はばかられました。けれども、食いつかねばならない問題だと思うので、わかる範囲で書きました。

間違いのご指摘や、修正などありましたらコメントいただけると幸いです。

— — —

(さらに勉強したい方へ)

2017年のNeural Information Processing Systems(NIPS)で「アルゴリズムの偏見がもたらす多様な問題」に関する基調講演があったほか、国内でも2018年の情報論的学習理論ワークショップ(IBIS)で「公平性に配慮した学習とその理論的課題」という講演がありました。すばらしい講演とスライドなのでぜひ参考にされてください。

--

--