「使えるか」は分かった。でも「好きか」が分からない。

ユーザビリティテストを終えて、そういう状態になることがある。タスク完了率は高い。エラーも減った。しかしユーザーが「また使いたい」と思うかどうか、「他の人に勧めたい」と感じるかどうか——その確信が持てない。

Desirability Testing は、「好き嫌い」を聞くテストではない。 ユーザーがプロダクトや体験に対して抱く感情的な印象の解像度を上げるための手法だ。「いい感じだと思う」という曖昧な感触を、具体的な言語に変換する。それがこのテストの本質的な役割である。

Desirability Testing とは何か

Desirability Testing は、ユーザーがデザインに対して抱く感情的・美的な印象を測定する定性的調査手法である。

2002年、Microsoft の研究者 Joey Benedek と Trish Miner が発表した論文 “Measuring Desirability: New Methods for Evaluating Desirability in a Usability Lab Setting” において体系化された。彼らが開発したのが Microsoft Reaction Cards（Product Reaction Cards とも呼ばれる）——118枚の形容詞カードである。

カードに記載された形容詞は「使いやすい」「先進的」「信頼できる」「退屈な」「混乱させる」「押しつけがましい」など、ポジティブ・ネガティブ両方が含まれる。ユーザーはプロトタイプや完成品を体験した後、これらのカードから自分の印象に合うものを選び、選んだ理由を語る。この「選択＋語り」のプロセスが、言語化しにくい感情的印象を引き出す仕掛けになっている。

Benedek と Miner は、この手法によってユーザー間の比較と時系列変化の追跡が可能になることを実証した。「ユーザーAとBがともに”先進的”を選んだが、Aは肯定的な意味で、Bは距離感を感じて選んだ」という違いも、デブリーフで引き出せる。

ユーザビリティテストとの使い分け

ワークショップでよく起こるのは、「Desirability Testing もユーザビリティテストもやらなければいけないのか」という問いだ。答えは「測りたいものが違う」である。

観点	ユーザビリティテスト	Desirability Testing
測定対象	操作性・タスク完了率・エラー発生	感情的印象・美的評価・感情的共鳴
主な問い	「使えるか」	「好きか・信頼できるか・また使いたいか」
データの性質	観察可能な行動データ	自己申告の感情・言語データ
実施タイミング	中忠実度〜高忠実度プロトタイプ	視覚的印象が伝わるプロトタイプ以降
セッション時間	45〜90分	30〜60分（カード選択15分 + デブリーフ30〜45分）
ファシリテーション難度	中（行動観察が中心）	高（感情の言語化を引き出す質問技術が必要）

両者は排他的ではない。1回のセッションでユーザビリティテストの後半に Desirability Testing を組み込む設計も有効だ。ただし順序は重要で、タスク実行（行動観察）を先に済ませてから、カード選択（感情評価）に移行する。逆順だと、感情的な印象がタスク遂行に影響する。

Microsoft Reaction Cards の使い方

セッションの基本構造

プロトタイプ体験（15〜30分）——タスクを通じてプロダクトを一定時間体験してもらう
カード選択（10〜15分）——118枚のカードを全部確認し、自分の印象に当てはまるものを選ぶ。枚数制限はないが、最終的に「最も強く感じた5枚」に絞り込んでもらう
デブリーフ（20〜30分）——選んだカードそれぞれについて「なぜこれを選んだか」「どの場面でそう感じたか」を話してもらう

カード選択の進め方

参加者に「正解はない」ことを繰り返し伝える。「テストしているのはプロダクトであり、あなたの感性を評価しているのではない」という前置きは、ユーザビリティテストと同様に必要だ。

実際にやってみると、5枚への絞り込みの段階で最も豊かな対話が生まれる。「“先進的”か”洗練された”かどちらに絞ろうか」と迷う瞬間に、ユーザーが自分でも気づいていなかった印象の輪郭が立ち上がる。この迷いをファシリテーターが「どちらが強く残りますか？」と引き出すのが技術の見せ所だ。

118枚の物理カードを使う環境が整わない場合、デジタル版として FigJam や Miro 上にカードを配置して実施する方法もある。実務では印刷したA5カードを使うケースが多い。ファシリテーターが事前にカードを印刷し、セッション前にテーブルに広げておくと進行がスムーズになる。

デブリーフの質問設計

デブリーフはカード選択より重要だ。選ばれた単語は入口に過ぎない。

有効な質問パターンは以下の通り。

「“信頼できる”を選びましたね。どの瞬間にそう感じましたか？」（特定の場面への誘導）
「逆に、今回選ばなかったカードで気になったものはありますか？」（ネガティブ印象の引き出し）
「“退屈な”を選んでいませんが、もし使っていたらどの部分に当てはまりましたか？」（批判的視点の引き出し）

参加者の声を直接引用して記録に残す習慣をつけること。「先進的だと感じた」という要約ではなく「画面が切り替わるときのアニメーションが、なんか未来っぽくて」という生の言葉がプロトタイプ改善のヒントになる。

どの段階で使うか——判定フロー

Desirability Testing は万能ではない。実施タイミングの判断が、テストの価値を左右する。

プロトタイプの段階を確認する
        ↓
【低忠実度（紙・ワイヤーフレーム）】
  → 視覚的な印象が伝わらない段階
  → Desirability Testing には早すぎる
  → ユーザビリティテストを先に実施する

【中忠実度（デジタルモックアップ・カラー付き）】
  → 視覚的なトーン・配色・レイアウトが伝わる段階
  → Desirability Testing の実施可能タイミング
  → ブランド印象・感情的トーンの検証に有効

【高忠実度（インタラクション付き・完成形に近い）】
  → Desirability Testing に最も適したタイミング
  → ユーザビリティテストと組み合わせて実施する
  → デザイン変更前後の比較にも使える

ワークショップで「プロトタイプはまだ紙ですが Desirability Testing をやりたい」という要望が出たとき、正直に伝える必要がある。視覚的な印象が形成されていない段階では、カードの選択がランダムになる。 テストした感覚は得られるが、データとしての信頼性は低い。

Reaction Cards の限界と補完手法

Benedek と Miner 自身が論文の中で認めているように、Reaction Cards にはいくつかの構造的な限界がある。

文化・言語依存の問題。 英語圏のユーザーを前提に開発されたカードは、日本語翻訳時に意味がずれる形容詞がある。「Sophisticated」を「洗練された」と訳すか「複雑な（難しい）」と解釈するかで、ユーザーの選択理由が変わる。日本語でテストを実施する場合、事前に用語の定義を簡単に確認するか、各カードに短い説明を添える工夫が有効だ。

自己申告の信頼性。 ユーザーが「信頼できる」を選んだとき、それが本当に信頼感に基づくのか、「そう答えるべきだ」という社会的期待に引っ張られているのかを、カード選択だけでは区別できない。デブリーフで具体的な場面を問う質問を重ねることが、この問題への対処になる。

観察行動との乖離。 ユーザビリティテスト中に明らかに迷っていたにも関わらず、「使いやすい」を選ぶ参加者がいる。自己評価と行動観察を突き合わせて読む必要がある。

補完手法として、Attrakdiff（実用的品質と感情的品質を独立に測定する問診票）との組み合わせが有効だ。Desirability Testing の定性データと Attrakdiff の定量データを並列で分析することで、感情的評価の全体像が立体的になる。

よくある失敗パターン

デブリーフなしでカード集計だけで終わらせる。

カードの選択分布をグラフ化して「“先進的”が最多でした」と報告して終わりにするケースが現場でよく起こる。これは Desirability Testing の最も一般的な失敗だ。集計は見取り図に過ぎない。「なぜその言葉を選んだか」のナラティブを収集しないと、改善の方向性を誤る。

少なすぎる参加者で決定的な結論を出す。

2〜3名の結果で「ユーザーはこのデザインを”楽しい”と感じている」と断言するのは危険だ。Desirability Testing は定性的手法であり、5〜8名が最低限の規模感である。ユーザーセグメントが複数ある場合は、各セグメントから最低3名を確保する。

ネガティブカードを軽視する。

「退屈な」「圧倒的な」「難しい」などのネガティブカードが選ばれた際、「まあ仕方がない」で流してしまうワークショップが多い。参加者からの声として、ネガティブカードを選んだ理由のほうが「どこを直すか」の具体的な手がかりになるケースが多い。ネガティブカードには必ずデブリーフで掘り下げる時間を確保する。

やってみよう——最小構成での実施手順

準備時間を最小化して Desirability Testing を体験するための手順を示す。

用意するもの（30分で準備可能）

Reaction Cards の日本語版印刷リスト（30〜50語に絞ったセレクション版でも機能する）
プロトタイプ（デジタルモックアップかインタラクティブプロトタイプ）
付箋と太マジック（デブリーフでの引用記録用）
タイマー

セッション当日の時間配分（60分版）

説明と導入（5分）——「あなたの感性をテストしているのではない」を明確に伝える
プロトタイプ体験（15分）——特定のタスクを実行してもらう
カード選択（10分）——全カードを確認し、最大5枚を選ぶ
デブリーフ（25分）——選んだカードについて対話する。「なぜ」と「どの場面で」を必ず聞く
まとめと感謝（5分）

分析の最初のステップ

セッション終了後、選ばれたカードと発言の引用を付箋に書き出す。5名分を並べると、同じカードを選んでも理由が異なるパターンと、理由まで一致するパターンが見えてくる。後者こそが、プロトタイプ改善の根拠となるインサイトだ。

ユーザビリティテストで「使えること」を確認したら、次は「好かれること」を確認する。その間に立つのが Desirability Testing である。手を動かして初めて、この手法の価値が分かる。

参考文献

Joey Benedek & Trish Miner, “Measuring Desirability: New Methods for Evaluating Desirability in a Usability Lab Setting”, Proceedings of the Usability Professionals Association 2002 Annual Conference, 2002
Marc Hassenzahl & Noam Tractinsky, “User Experience — A Research Agenda”, Behaviour & Information Technology, 25(2), 2006
Nielsen Norman Group, “Measuring Perceived Usability: The SUS, UMUX-Lite, and NPS Compared”, nngroup.com
William Albert & Thomas Tullis, Measuring the User Experience: Collecting, Analyzing, and Presenting Usability Metrics, 2nd ed., Morgan Kaufmann, 2013