「使えるか」は確認できた。しかし「また来るか」が分からない。

ユーザビリティテストを終えたあと、そういう状態に陥るチームは多い。タスク完了率は80%を超えた。エラーも3件に減った。しかしユーザーが「このプロダクトを選び続けるか」への答えは、どこにも記録されていない。

感情的な印象が購買決定と継続利用を左右するとき、行動観察だけの検証には構造的な盲点がある。 Desirability Testing は、その盲点を埋めるために設計された手法だ。

Desirability Testing とは

Desirability Testing は、ユーザーがデザインや体験に対して抱く感情的・美的な印象を測定する定性調査手法だ。

2002年、Microsoftの研究者 Joey Benedek と Trish Miner が発表した論文「Measuring Desirability: New Methods for Evaluating Desirability in a Usability Lab Setting」において体系化された。彼らが開発したのが Microsoft Reaction Cards（Product Reaction Cards）——118枚の形容詞カードである。

カードには「使いやすい」「先進的」「信頼できる」「退屈な」「混乱させる」「押しつけがましい」など、ポジティブ・ネガティブ両方の形容詞が含まれる。ユーザーはプロトタイプや完成品を体験した後、これらのカードから自分の印象に合うものを選び、選んだ理由を語る。「選択 + 語り」のプロセスが、言語化しにくい感情的印象を引き出す仕掛けになっている。

DVFフレームワークにおける位置づけ

IDEOが提唱するDVF（Desirability / Viability / Feasibility）フレームワークにおいて、Desirability Testing は「D層」——人々が本当にそれを欲しいと思うか——を検証するための代表的手法だ。

層	問い	主な検証手法
Desirability	ユーザーが望むか・好きか・選ぶか	Desirability Testing, ユーザーインタビュー
Viability	事業として成立するか	ビジネスモデル検証, 財務シミュレーション
Feasibility	技術的に実現できるか	テクニカルプロトタイプ, エンジニアリングレビュー

FとVの検証を先行させながらDを検証しないまま開発を進めると、「技術的には動くが誰も使わない」という結末を招く。Desirability Testing はDVFの交点を確認するための、最も実施コストの低い手段の一つだ。

ユーザビリティテストとの使い分け

ワークショップでよく起こるのは、「両方やらなければいけないのか」という問いだ。答えは「測りたいものが違う」に尽きる。

観点	ユーザビリティテスト	Desirability Testing
測定対象	操作性・タスク完了率・エラー発生	感情的印象・美的評価・感情的共鳴
主な問い	「使えるか」	「好きか・信頼できるか・また選ぶか」
データの性質	観察可能な行動データ	自己申告の感情・言語データ
適切なタイミング	中忠実度〜高忠実度プロトタイプ	視覚的印象が伝わるプロトタイプ以降
セッション時間	45〜90分	30〜60分（単体実施時）

両者は排他的ではない。1回のセッション内で組み合わせる場合、タスク実行（行動観察）を先に済ませてからカード選択（感情評価）に移行するのが原則だ。逆順にすると、感情的な印象が先に確定し、タスク遂行の行動が歪む。

実施するタイミングの判定フロー

Desirability Testing には「最適なタイミング」がある。早すぎると評価できるものがなく、遅すぎると設計変更のコストが上がる。

概念段階（アイデアスケッチ）→ 実施難易度: 高 視覚的印象がないため、カード選択の根拠が薄くなる。このフェーズでは代わりにムードボードを用いた感情マッピングが有効だ。

低忠実度プロトタイプ（紙・ワイヤー）→ 実施推奨度: 中 基本的なレイアウトと情報構造の感情的印象は確認できる。「雑然とした感じがする」「素っ気なすぎる」などのフィードバックが得られる。デザイン方向性の初期確認に使う。

中〜高忠実度プロトタイプ（インタラクティブ）→ 実施推奨度: 高 最も情報量が多いタイミング。ビジュアルデザインと操作感の両方への反応が取れる。このフェーズでのDesirability Testingが、最もROIが高い。

リリース直前〜後 → 実施推奨度: 中 事前検証としては遅いが、競合比較や次期バージョンの方向性確認に活用できる。

手順：セッションの設計と進め方

1. 事前準備（1〜2時間）

カードは公式サイトからPDFを入手し、A4で印刷後にカットする。1セット最低2部用意する（ユーザーが並べて比較しやすくなる）。

参加者の選定基準を明確にする。ターゲットペルソナに合致しているかが最重要で、既存ユーザーと非ユーザーを混在させると比較分析が豊かになる。

1セッションの参加人数は1名が原則だ。複数名だと、最初に発言した人の言語がカード選択に影響する（社会的促進効果）。

2. セッション冒頭：場の設定（5〜10分）

「正解はない」という前置きを必ず入れる。「あなたの感性を評価するのではなく、このデザインを評価するためのテストです」という文言を一語一語ゆっくり伝える。

緊張をほぐすために、テーマと無関係な形容詞（「あなた自身を5枚のカードで表すとしたら？」）で練習させると、カード選択の行為に慣れる。

3. プロトタイプ体験（15〜30分）

特定のタスクを設定し、実際に操作してもらう。考えていること・感じていることを声に出してもらう（Think Aloud法）と、後のデブリーフが深くなる。

ファシリテーターはメモを取りながら、感情的な反応が見えた瞬間（顔をしかめる、操作を止める、「あ、ここは」と声が漏れるなど）を記録する。これがデブリーフの質問の素材になる。

4. カード選択（10〜15分）

118枚を全数確認してもらい、「自分の印象に当てはまるもの」を選んでもらう。枚数制限はないが、最終的に「最も強く感じた5枚」まで絞り込んでもらう。

実際にやってみると、5枚への絞り込みの段階で最も豊かな対話が生まれる。 「“先進的”か”洗練された”かどちらに絞ろうか」と迷う瞬間に、ユーザーが自分でも気づいていなかった印象の輪郭が立ち上がる。この迷いを「どちらがより強く残りますか」と引き出すのが、ファシリテーターの腕の見せ所だ。

5. デブリーフ（20〜30分）

選んだ5枚それぞれについて「なぜこのカードを選びましたか」「どの場面でそう感じましたか」を問う。

重要：カードの言葉をそのまま繰り返させないこと。「“信頼できる”を選んだ理由を教えてください」への回答が「信頼できそうだと感じたからです」では何も分からない。「“信頼できる”を選んだのはどの場面を見てですか」「何がそう感じさせましたか」という形で、具体的な体験へのアンカーを求める。

サンプルサイズ：15〜20名の根拠

Benedek と Miner の元論文では、15〜20名の参加者でパターンが収束することが実証されている。5名以下では個人差が結果を支配し、30名を超えると新しい発見が著しく減少する。

ただし前提条件がある。対象ユーザーが均質な1セグメントに限定されている場合だ。ペルソナが2種類以上存在する場合は、セグメントごとに15〜20名ずつ必要になる。リソースが限られる場合、最低8名でも一次的なパターンは得られるが、外れ値の扱いに注意が必要だ。

分析：カードデータを設計に変換する

頻度マップの作成

全参加者のカード選択を集計し、選択回数の多い形容詞を可視化する。ポジティブ・ネガティブを色分けして並べると、現在のデザインが「何として認識されているか」の地図が完成する。

意図とのギャップ確認

設計チームが「こう感じてほしい」と意図した形容詞と、実際に選ばれた形容詞を比較する。意図と現実のズレがある箇所が、優先的に設計修正すべきポイントだ。

例：チームが「シンプル・直感的」を目指したが、ユーザーは「退屈・素っ気ない」を選んだ場合、「シンプル」と「冷たさ」の間にある設計の問題を探る。

ネガティブカードの深掘り

ポジティブなカードより、ネガティブなカードが選ばれた理由のほうが設計改善に直結する情報を含む。「混乱させる」「圧倒的な」「予測できない」は、どの具体的な設計要素がそう感じさせているかを必ずデブリーフで突き止める。

よくある失敗と対策

失敗1：カード選択の理由を聞き忘れる

「5枚選んでもらいました、終了です」は致命的だ。カードの選択数は量的な参考値にすぎず、設計に使えるのはデブリーフで引き出した言語データだ。必ず「なぜ」「どの場面で」を聞く。

失敗2：ターゲット外のユーザーでテストする

手が届きやすいという理由で社内スタッフや家族・友人でテストすると、ターゲットペルソナの感情的反応とは全く異なる結果が出る。リクルーティングのコストを惜しんだ代償は、設計ミスとして後から帰ってくる。

失敗3：数字だけで報告する

「ポジティブカードが73%、ネガティブカードが27%」という報告は経営陣には受けがいいが、設計への示唆がない。「○○と感じたユーザーが△名おり、その全員が□□の場面でそう感じていた」という形式が、改善アクションに直結する。

失敗4：1回のテストで完結させようとする

Desirability Testing はイテレーティブに実施するほど価値が高まる。設計変更の前後で同じセッションを繰り返すと、感情的印象の変化が定量的に追跡できる。「先進的」の選択率が8%から31%に上がったというデータは、デザインの効果を可視化する強力な根拠になる。

やってみよう：今週から始める最小実装

Microsoft Reaction CardsのPDFを公式サイトからダウンロードし、A4で印刷・カット（30分）
現行プロダクトの最も「よく使われる機能」を3つ選ぶ
ターゲットユーザー3名に連絡し、30分のオンラインセッションを打診する
セッションでは「機能を使ってみてからカードを選ぶ」の手順で実施する
5枚への絞り込みを必ず行い、それぞれの理由を言語で記録する

最初は3名で十分だ。 パターンを見るには数が足りないが、「自分たちが想定していなかった感情的印象がある」という発見は、3名でも起きる。その発見が、次のステップの動力になる。

Desirability Testing の本質は、ユーザーの語彙を設計の語彙に変換することにある。「なんか好き」「なんとなく違う」という感覚は、設計の改善指示にならない。しかし「先進的だが冷たい」「使いやすいが退屈」という言語は、具体的な設計変更の方向を指し示す。感情を数えるのではなく、感情を言語にして設計に戻す——それがこの手法の核心だ。

プロトタイプの段階でまだ動的なインタラクションが実装できていない場合は、ウィザード・オブ・オズ法でAI応答や自動化機能を人手で再現し、Desirability Testing と組み合わせることで、感情評価の精度を大きく高められる。