2017/3/23更新

UXのベンチマーク調査で陥りがちな５つのミス

Jeff Sauro

Jeffはアメリカの統計アナリストで、UXメトリクスの第一人者。

この記事はMeasuring Uからの翻訳転載です。配信元または著者の許可を得て配信しています。

5 COMMON MISTAKES IN UX BENCHMARK STUDIES

デザインの変更がどのくらいUXを改善するのか測定するためには、ベンチマークが必要です。信頼できるベンチマークがあれば、膨大な事象から改善点を探し出すことができます。調査は数多く行われていますが、実はどれも過ちを犯す危険性をはらんでいるのです。

調査結果を正しく把握することはとても重要です。調査結果は比較材料として長期間利用され、正しい調査結果を得られなかった場合、誤った判断が何年も影響を持ってしまう可能性があります。

この記事では、ベンチマーク調査を行うにあたってもっとも起きやすい５つの失敗と、その失敗をどうやって未然に防ぐかについてお話します。

１. 誤ったタイプの参加者でのテスト

ベンチマーク調査には参加者が必要です。今では参加者を迅速かつ簡単に派遣してくれるサービスが多くあり、大衆をターゲットにした調査を行う際にとても便利です。しかしながら、会計士、IT管理者、放射線技師、最近家を売った人といった、ある特定の性質を持つ参加者を集める手段としては、理想的とは言えません。特定分野の知識と専門的なタスクの扱いは、データに大きな影響を持つので、彼らをどう集めるのかが重要なのです。

やるべきこと：必須となる分野の知識とユーザーのスキルを把握し、それに応じて、専門家を派遣してくれる質のいい提供元を利用しましょう。

もし適切な集団の参加者を使っているかどうか判断できない場合は、理想の参加者と実際の参加者がどう違っているのか把握できるように、参加者のスキルと知識を記録しましょう。たとえば、1年目のサンプルは多くの経験を持つユーザーが多く、2年目のサンプルでは初心者のユーザーが多かった場合、その不一致を考慮して分析する必要があります。

２. 誤ったタスクを実行する

ECサイトのようなタスクベースでの調査では、多くの指標が調査参加者に実行させるタスクの影響を受けます。ですから、見当違いのタスクを提供すれば、見当違いの結果になってしまいます。しかし、ユーザーがサイトで何をしようとしているのか知ることはより複雑です。効率的にユーザーのタスクをシミュレーションし、正しい方法で検証しなければなりません。特に時代遅れな調査において顕著ですが、ユーザーが実際にサイトで行う行動と関連がないタスクをとてもよく目にします。

やるべきこと：「簡単である」とか、「適切に見える」という理由で調査のタスクを選択するのは避けましょう。頻度が高いタスクの分析に基づいたデータを使い、ステークホルダーの信頼を得ましょう。たとえ大勢がこのタスクを失敗したとしても、ステークホルダーは気にとめるでしょうか？　難しすぎず簡単すぎない、現実的な成功の基準を設けることが重要なのです。意味のある結果が見込めるタスクを作成するために、事前テストと実験を行いましょう。

３. 正確で十分な指標が集められていない

多くのベンチマーク調査は膨大なタスクと質問で肥大化しています。調査は参加者が疲弊しない程度の時間であるべきな一方で、ユーザー体験を明らかにするのに十分な量のデータを収集しなければなりません。つまり参加者が何を行っているのか（行動基準）、何を考えているのか（態度基準）、そして彼らが誰なのか（経験と人口統計）を測定する必要があるのです。

やるべきこと：タスクとテストの面で参加者の態度と行動を両方測定できるような、複数の手法を用いましょう。可能であれば、会社のKPIに関連した質問を含めましょう。

４. サンプル数が少なすぎる

予算が限られているとき、サンプルの規模はベンチマーク調査において削減される筆頭候補です。ユーザーあたりの費用がとても高価な場合は仕方がないでしょう。しかし、参加者を増やす際にかかるコストは、ベンチマークを設定しプランニングする初期コストにと比べると少ないということを忘れてはいけません。

たった20個の製品を製造するために高価な工場を構築するのは無駄です。同じように、ごく少人数の参加者からのデータを収集するためだけに、ベンチマーク調査のプランニングを行う手間をとらなければならないのではあまりに報われません。参加者が少なすぎると、注視すべき変化とただの偶然を見分けることはできないでしょう。特に競争的なベンチマークではなおさらです。

やるべきこと：将来的な比較や自分たち特有の調査のことも踏まえて、どのくらい正確に行うべきなのか決めましょう。それに応じて必要となるサンプルのサイズを見積もりましょう。

５. サンプリングエラーについて考慮していない

どんな目的のための調査だとしても、データのサンプリングエラーの影響を無視してはいけません。それはサンプルが大きなサイズの場合でも同じです。統計的に比較することで、不必要な事象から変化の兆候を見つけることができるため、どんなサイズのサンプルを用いた調査でも行うべきなのです。

やるべきこと：ランダム性を考慮していることを実証にするために、信頼区間と正しい統計テスト (一般的には２標本t検定か、２群の比率の差の検定) を用いましょう。私たちはUX Boot Campでどのテストを用いるべきかをしっかりと踏まえています。