今日はAIについてのトピックです。今日やっぱりこれは外せません。ホワイトワーカーへの影響は凄まじく今後は超一部のホワイトカラーしか残念ながら残りません。厳しいですけどこの変化は必ずきます。
いわゆる「ブルシットジョブ」はAIが得意です。不平不満も言いませんしね。「ブルシットジョブ」自体いらないかもですが。
人間とAIのコラボレーションというテーマで論文『人間とAIの組み合わせが有効な場合:システマティックレビューとメタ分析』が出ていたようなのでこちら考えてみたいと思います。
人間–AIシステムの可能性を語る時、私たちの多くは暗黙的に、人間–AIの組み合わせは単体(人間かAI)よりも優れているべきだと考えていると思います!
「AI 」vs 「AI *人間」であれば「AI *人間」のほうがいろいろともっと強いでしょ!と思いたいはず。
When combinations of humans and AI are useful: A systematic review and meta-analysis
この記事のもくじ
この研究のポイント
少し悲しいかもですが、
- 平均的に見れば、人間–AIの組み合わせは、人間またはAIのどちらか単独で最も優れた方よりも有意にパフォーマンスが悪いことが明らかになった。つまり単独のほうが優れている。
- つまり、人間とAIの組み合わせは人間単独よりは優れているが、人間またはAIのどちらか最も優れたものよりは劣っていることが示された。
現時点での実験データを総合的に見ると、「人間–AIの組み合わせ」ではなく、単に人間またはAI単独を使用した方が良い場合が多かった。
じゃあ、AI単独のほうがいいじゃん!というなんとも悲しい結果かなと思いました。
【要旨】
人間の能力を強化するために人工知能(AI)の利用が増加していることを背景として、研究者らはさまざまなタスク、システム、参加者集団を対象に、人間とAIの協働システムを研究してきた。しかし、これほど多くの研究があるにもかかわらず、「どのような状況で人間とAIの組み合わせが、単独(人間のみ、AIのみ)よりも優れているのか」については広範な概念的理解がまだ不足している。本研究では、この問題に取り組むため、事前登録に基づく系統的レビューとメタ分析を実施し、106の実験研究(370の効果量を報告)を分析した。対象論文は、2020年1月1日から2023年6月30日までに出版されたものであり、複数の分野のデータベース(ACM Digital Library、Web of Science、AIS eLibrary)から収集した。各研究は、人間単独、AI単独、人間–AIの組み合わせそれぞれのパフォーマンスを評価したオリジナルの実験を含むことを条件とした。
その結果、まず平均すると人間–AIの組み合わせは、人間またはAIのどちらか単独で最も優れた方よりも有意にパフォーマンスが悪いことが明らかになった(Hedges’ g = −0.23、95%信頼区間:−0.39〜−0.07)。次に、意思決定を伴うタスクではパフォーマンスが低下する一方で、コンテンツ生成を伴うタスクでは有意に大きなパフォーマンス向上が見られた。また、人間がAI単独よりも優れている場合には、人間–AIの組み合わせでパフォーマンスが向上したが、AIが人間単独より優れている場合にはパフォーマンスが低下した。今回の分析結果には、出版バイアスの可能性や分析対象の研究デザインのばらつきといった限界もある。
全体として、本研究は人間–AI協働の効果が多様であることを示すとともに、人間–AIシステムを改善するための有望な方向性を示唆している。
タスクタイプの調整効果の結果
この論文では、人間とAIの組み合わせによるパフォーマンスの変化が、タスクの性質によって異なることが報告されています。主に、「判断タスク」と「創造タスク」の2種類に分類して分析されました。
#1判断タスク(Decision Tasks)の詳細
定義:判断タスクとは、限られた数の選択肢の中から最善の選択肢を選ぶタスクです。例えば、診断判断、画像分類、ホテルのレビューの真偽判定などが含まれます。
結果:判断タスクにおいては、人間–AI協働システムのパフォーマンスは平均的に低下しました。
効果量:Hedges’ g = −0.27(p = 0.002; 95% CI [−0.44 ~ −0.10])
解釈:これは、人間とAIがそれぞれ独立してタスク全体を処理し、その後に人間が最終決定を下すという形式が多かったためと考えられています。結果として、人間がAIの提案を不適切に信頼(過信や不信)したことでパフォーマンスが下がった可能性が示されています。
結果は以下のとおりだったそうです。
論文中に示された具体的な実験結果の一例として、Cabreraらの研究(文献中での引用番号34)が挙げられています。この研究では、以下の2つのタスクについて具体的な数値結果が報告されていましたよ。
タスク | 人間単独の正解率 | AI単独の正解率 | 人間とAIの協働システムの正解率 |
偽ホテルレビュー検出(Fake hotel review detection) | 55% | 73% | 69%(協働で低下) |
鳥の画像分類 | 81% | 73% | 90%(協働による改善) |
偽ホテルレビュー検出タスクでは、AIのほうが人間よりも正確でした。(AI:73%、人間:55%)が、人間–AI協働(69%)はAI単独よりも低下。なんとなくAIのほうが得意そうですよね。
鳥の画像分類タスクでは、なんと人間がAIよりも正確であり、人間がAIを補助として適切に利用した結果、人間とAIの協働システムは両者単独よりも大きく改善しました。
#2創造タスク(Creation Tasks)の詳細
定義:創造タスクとは、回答が自由記述形式であり、新しい内容を生成することを目的とするタスク(例えば文章コンテンツ作成や画像作成など)のようです。
結果:創造タスクでは人間–AI協働がプラスの効果を示したものの、統計的に有意ではなかった。
効果量:Hedges’ g = 0.19(p = 0.180; 95% CI [−0.09 ~ 0.48])
解釈:創造的なタスクの場合、人間が持つ創造性や知識・直感が重要ですが、実際には多くのルーティン的な作業も含まれます。このようなルーティン作業をAIが効率的にサポートすることで、人間の創造性が活かされ、協働によるパフォーマンスが向上する可能性が指摘されています。ただし、創造タスクに関する実験数が比較的少ない(n=34)ため、統計的に明確な有意性は示されませんでした。という点は少し留意です。
この研究からわかる私たちがすべき行動とは?
じゃあどうすればいいのでしょうか?以下のようになるんだと思います。
- 1,1、フェイクニュースなどの判断はバイアスのないAIに任せるほうがいい(AIが明らかに優れている部分のみをAIに任せるようにする)
- 1.2、画像認識など「人間の認知能力」と相性が良い場合は、AIとコラボ。
- 2、創造タスクの場合は、AIとコラボすべき! 人間が方向性やアイデアを出し、AIが定型的な作業を効率的に補助するという役割分担が、相乗効果を引き出す理想的な協働形態である可能性
タスクの種類 | 人間とAIの理想的な役割分担 | 具体例 | 理由(根拠) |
判断タスク | AIが得意な判断はAIに全面的に任せる | フェイクニュース判定、偽レビュー判定など | (人間はバイアスや誤解を持ちやすく)、AIが一貫した基準で安定して判断できるため |
判断タスク | 人間が得意な判断は、人間がAIを補助として適切に利用する | 鳥の画像分類など、知識や文脈理解が求められる分類作業 | 人間の認知的能力が高い場合は、AIの支援を活用し、人間が最終的に判断することで効果が向上 |
創造タスク | 人間とAIが協働(コラボ)すべき | コンテンツ作成、文章生成、画像生成、アイデア生成など | 人間が創造性やアイデアを出し、AIが定型的な補助作業を行うことで効率が向上。特に生成型AIを活用すると相乗効果が生まれやすい |
クリエイティブについては人間はAIのサポートを借りたほうが良く、なにかをジャッジしたいときはAIだけの場合とAIを補助にしてもらったほうがいいかもということでした。自分の感覚ともあっていいます。人間はどうしてもバイアスがあり合理的に判断できません。
私の場合、文字でお伝えすることをメインとしているので「創造タスク」を日々実践しているのですがまさに日々コラボ中です。
この人ならこんな言い回しなはず、とか、AIで作成した文章に感情的で個性的な部分を加えるとかしています。あとはベトナムの実務はAIもよくわかってないのでここの領域はやっぱり現場の経験が生きるんですよね。