「自動で動いているように見せて、裏では人間が動かす」——この一見だましのような手法が、AI機能や複雑な自動化のプロトタイピングで圧倒的に効率的な検証手段になります。Wizard of Oz は、開発に何ヶ月もかかる機能の 「ユーザーが本当に欲しいかどうか」を、開発0分で検証するための実践的方法です。
なぜ Wizard of Oz が必要なのか
問題(Problem)
AI機能・自動化・パーソナライズ・チャットボットなど 「動的に応答する複雑機能」 は、ペーパープロトタイピングで検証できません。紙では「ユーザーが入力した内容に応じて画面が変わる」体験を再現できないからです。
しかしフル実装すると数週間〜数ヶ月のエンジニアリング投資が発生します。実装後に「そもそもユーザーは欲しくなかった」と判明するリスクが、AI/自動化プロジェクトで最も恐ろしい失敗パターンです。
親近感(Affinity)
「最低限のAIを実装してテストしよう」と判断すると、データ準備・モデル選定・推論環境整備で簡単に1ヶ月消えます。「もっと簡単に検証できないのか」——この感覚は、プロダクトマネージャーやデザインリサーチャーが繰り返し直面します。
解決策(Solution)
Wizard of Oz は 「裏側を人間が即興で動かす」 ことで、AI/自動化の体験を 本物そっくりに再現します。被験者は「自動で動いている」と思って操作しており、実際は別室のオペレーター(ウィザード)が手動で応答を返す——この設計で、真の利用文脈での反応を引き出せます。
実施手順
ステップ1: 検証したいAI/自動化機能のスコープ確定(15分)
「このボタンを押したらAIが◯◯を返す」レベルの粒度まで絞ります。
- 入力(ユーザー操作)
- 処理(裏で人間がやること)
- 出力(被験者の画面に出す内容)
- 応答時間(リアルAIの想定速度に合わせる、3〜5秒など)
ステップ2: オペレーター用ツールの準備(30〜60分)
- 被験者画面: Figma or HTMLモック(操作可)
- オペレーター画面: 別PC、被験者画面を画面共有で見られる
- 応答チャネル: Slack/Discord/直接画面操作
- 応答テンプレ: あらかじめ「想定パターン10〜20種」を用意
ステップ3: シナリオ設計(15分)
被験者にやってもらうタスクを設計。
- 起点: 「あなたは◯◯したい状況です」
- ゴール: 「画面に◯◯が出たら成功」
- 制限時間: 10〜15分
ステップ4: テスト実施(30分)
- 被験者には 「裏で人間が操作している」ことを最後まで言わない
- オペレーターは応答時間を一定に保つ(速すぎるとAIに見えない、遅すぎると不自然)
- 発話を促す(思考発話法と組み合わせる)
ステップ5: デブリーフィング(10〜15分)
テスト終了後、「実は裏で人が動かしていました」と種明かしする。被験者の感想を聞きながら:
- 「もし本当のAIだったらどう感じたか」
- 「期待と違った瞬間」
- 「もっと欲しかった応答パターン」
を引き出します。
ファシリテーションのコツ
- 応答パターンは20〜30種類を事前に用意: 即興だけで回そうとすると、オペレーターのパターンに被験者が気づいてしまう
- オペレーター2名体制が望ましい: 1名が応答、1名がログ記録に専念
- 想定外の入力が来たら「処理中」表示で時間稼ぎ: AIは万能ではないという前提を被験者は持っている
- 応答に意図的にエラーを混ぜる: 100%正解だと逆に不自然、AI らしさは「たまに外す」ことで強化される
ペーパープロトとの比較
| 軸 | ペーパープロト | Wizard of Oz |
|---|---|---|
| 適した検証対象 | 静的UI、画面遷移 | 動的応答、AI、自動化 |
| 準備時間 | 30分 | 60〜90分 |
| 被験者人数 | 1〜3名 | 1名(個別) |
| 必要なファシリ人数 | 1名 | 2名(オペ+テスター) |
| 得られる学び | 概念伝達・操作性 | 期待値・応答品質・行動パターン |
| 手法の組み合わせ | 早期Discovery | Discovery後半〜Define |
ペーパープロトは「概念が伝わるか」、Wizard of Oz は「動的な振る舞いに対して期待値が成立するか」を検証します。両者は段階的に組み合わせるのが定石です。
よくある失敗と対策
失敗1: 被験者にオペレーターの存在がバレる
応答時間が一定でない、応答内容に人間味が出すぎる、操作音が漏れる——いずれも被験者を「これは演技だ」モードにしてしまいます。
対策: オペレーターを別室に配置、画面共有で操作、応答は事前テンプレ中心、応答時間に1〜2秒のランダム性を入れる。
失敗2: 応答パターンが薄く、即興が破綻する
20パターンしか用意していないのに、被験者が予想外の入力を連発するケース。
対策: 「処理中…」「より詳しい情報が必要です」などの 時間稼ぎテンプレ を5〜10種準備しておく。
失敗3: 被験者の発話が引き出せない
AIっぽい体験への没入が強すぎて、被験者が黙ってしまう。
対策: 起点で「考えたことを声に出してください」と明示、応答が出るたびに「これは期待通りでしたか?」と短く問う。