2019/4/2更新

UXベンチマーキングのすすめ

Jeff Sauro

Measuring Uの創設者。シックスシグマに熟練した統計学分析者であり、ユーザーエクスペリエンスを定量化したパイオニアでもあります。

この記事はMeasuring Uからの翻訳転載です。配信元または著者の許可を得て配信しています。

An Introduction to UX Benchmarking

UXのベンチマーキングは、ユーザーがインターフェイスをどのように使用し、理解しているかを知るための効果的な手段です。これは、Webサイトやソフトウェア、モバイルアプリにも同じことが言えます。

ベンチマーキングは、ユーザー体験を体系的に改善するための計画に欠かせないものです。

効果的なベンチマークの実施とは、まずベンチマークとは何か、そしてユーザー体験とは何かを理解するを意味しています。その上で、手法や指標、分析を進めていくのです。

効果的なベンチマークの実施には、多くの要素が影響を与えます。今度発売される私の『Benchmarking the User Experience』という書籍で、ベンチマークについてさらに詳しく取り上げています。

ユーザー体験とは？

ユーザー体験という言葉の定義や、ユーザー体験がUIやユーザービリティテストとどのように異なるかについて、見解の相違が多いように思います。公式な定義を提示するつもりはありませんが、ここではTullis氏とAlbert氏両名と同じ定義を使います。それは、ユーザー体験とはユーザーのインターフェイスとのインタラクションにおける、あらゆる動作と態度の組み合わせであるというものです。

具体的に以下の項目が含まれますが、これらに限定されるわけではありません。

タスクを完了する能力
タスク完了や情報を見つけるのにかかる時間
製品や情報を見つける能力
見た目に対する態度
信用と信頼に対する態度
使いやすさ、利便さや満足度の感じ方

これらの項目は、多くの典型的なユーザビリティテストの指標としても使われますが、態度やブランディング、ロイヤリティ、見た目などより広義な指標を含んでいます。これ自体は、ユーザビリティテストの手法や専門用語から多く借用しています。

ベンチマークとは何であり、なぜ行うのか？

ベンチマークは、指標を比較または評価するための基準です。ベンチマークにはおもしろい語源があります。元々は地質調査の分野の用語で、調査者が石を固定するために「ベンチ」と呼ばれる金具で印を刻んだことに由来しています。これは、建築における基準点として使われたのでしょう。

コンピューターの世界だと、ベンチマークはソフトウェアやハードウェアのパフォーマンスを判断するための評価を指します。そして、テストやトライアル時のパフォーマンスを測定するための基準となります（CPUやデータベースのパフォーマンスなど）。同様に、UXのベンチマークでもインターフェイスに関連するパフォーマンスを測定するための指標を設定する基準を用いてインターフェイスを評価することを含みます。

図１：地質調査でのマーク。正しい標高を計測するため「ベンチ」や標尺を置いて使われます。

ユーザー体験の測定における特徴の１つに、デザインの改善が実際に定量的な差異を生み出したかどうかが、時間が経ってからわかるというものがあります。定期的なベンチマーク調査は、それを慣行化するための良い方法です。一定間隔（１年ごとや四半期ごとなど）や、デザインや機能の重要な変更があった際に実施すると、ベンチマークはもっとも効果的です。

図２は、ある自動車のWebサイトで2011年、2012年、2014年の３年間に渡って行われた同一のタスクを表しています。

図２：自動車WebサイトでUXのベンチマーク調査を行ったとき、５つのタスクの完了率を測定したもの。

上手なベンチマークは、重要な比較に関連したWebサイトや製品の欠陥部分を示します。比較対象となるのは以下のような項目です。

製品/Webサイトの前回のバージョン
競合製品
産業との関連性
産業における基準（NPSやコンバーション率など）
同一企業のほかの製品

何をベンチマークするのか？

ほとんどどのようなものでもベンチマークの対象にすることはできますが、ベンチマーク評価が可能なものには以下のようなものがあります。

Webサイト（B2CおよびB2B）：Walmart.com、Costco、GE.comでの買い物の体験
デスクトップソフトウェア（B2CおよびB2B）：QuickBooks、Excel、iTunes
Webアプリ：Salesforce.comやMailChimp
モバイルのWebサイト：PayPalのモバイルサイト
モバイルアプリ：Facebook、Snapchat、Chaseのモバイルバンクアプリ
物理デバイス：リモートコントロール、車のエンターテインメントシステム、医療用デバイス
会社の内部アプリ：会計報告用アプリや人事用システム
サービス体験：カスタマーサポートの電話やセットアップまでの体験（OOBE）

２種類のベンチマーク調査

ベンチマーク調査には本質的に２つの種類があります。それは、回顧法とタスクベースです。

回顧法（Retrospective）：被験者に、直近の体験を思い出して質問に答えてもらいます。私たちはこのアプローチを、消費者向けソフトウェアとビジネスソフトのベンチマークレポートに使っています。このアプローチを使うのに、ソフトウェアにアクセスする必要はありません。既存のユーザーに、過去の行動（間違いを起こしやすいもの）を思い出してもらってテストするだけです。

タスクベース（Task Based）：被験者にインターフェイス上で指示されたタスクに挑戦してもらい、設定された条件下での使用法をシミュレーションしてもらいます（これは同時調査と呼ばれることもあります）。これは一般的なユーサビリティテスト設定で、クライアントと一緒に作業を行うときによく使用します。このアプローチを使って、タスクへのインタラクションをより詳細に理解することができます。また新規・既存の両ユーザーでテストすることも可能です。ただしソフトウェアやアプリにアクセスする必要があり、タスクの定義と成功基準の設定も行わなければなりません。

回顧法とタスクベースの調査は、異なる体験を焦点とします。図３はそれを図解しています。

図３：回顧法とタスクベースのベンチマーク調査は、体験の中で異なる部分に焦点を当てます。過去に使用したことのあるユーザーの既存の態度（回顧法）と、シミュレーションを通して現在進行形で行われるユーザーのインタラクションから見られる態度と行動（タスクベース）です。

また、UXのベンチマーク調査は、回顧法とタスクベースを組み合わせた手法で行うことができます。可能であれば、私たちはいつでもこのアプローチを使用します。最初に最近の顧客に対して体験を振り返るように尋ね、そのあと既存と新規の顧客を混ぜ合わせてタスクを完了してもらうように要求するのです。

私たちはこの混成アプローチを、ホテルのUXベンチマーク調査で活用しました。405名の被験者に、５つのホテルWebサイトの中の１つを思い出してもらい、SUPR-Q（回顧法）を含む体験についての一連の質問に回答してもらいました。また、別の160名の参加者はどんなホテルでもいいのでオンラインでホテル予約をしたことがある人たちで、彼らには同一のホテルのWebサイトから、ランダムで割り当てられる２つのタスクを完了してもらいました（タスクベースあるいは同時調査）。これにより私たちは、ユーザー体験に関してより多くを理解することができました。１種類の方法だけを使っていたのでは、ここまでの理解を得られなかったでしょう。

UXベンチマークの異なる方法

タスクベースのUXベンチマークを行うときは、モデレートされたテストとされていないテストの、異なる２種類の方法から選択する必要があります。

モデレートされたテスト：モデレートされたテストでは、参加者に加えてファシリテーターあるいはモデレーターが必要です。モデレートされたテストは対面式で行うか、GoToMeetingやWebExなどのモニター用ソフトを使って遠隔式で行われます。

モデレートされていないテスト：モデレートされていないテストは調査と似ています。参加者は基本的に質問に回答したりタスクをこなしたりする指示に従い、調査を自己管理します。私たちのMUIQ platformやLoop11、UserZoomのようなソフトウェアが、プロセスの自動化に役立ちます。またタイミングやクリック、ヒートマップ、ビデオを含む豊富な一連のデータを収集することもできます。ほかにもタスクを完了してその体験を振り返るために、SurveyMonkeyのような調査用のプラットフォームを使ったりすれば、より低コストで低技術な解決策で行うこともできます（ただしデータ収集の指標が自動化されてなかったり、動画が使えなかったりする欠点があります）。

モデレートされたテスト・されていないテストにはそれぞれ多くの利点・欠点があります。その中でも大きな違いは、モデレートされていないテストのほうが、より多くの場所で大勢の被験者から、データを素早く収集できることです。１対１のインタラクションによるデータの詳細性は損なわれますが、多くのベンチマーク調査ではデータ数の多さ自体が優先されることが多いです。

ベンチマークの指標

データ収集の指標こそがベンチマークのすべてです。よくベンチマーク調査は累積的評価と呼ばれます。累積的評価では問題の発見よりも、現状の体験を評価することのほうが重要視されます。

評価にあたって、より広い調査レベルの指標と細かいタスクレベルの指標の両方を使って体験を数値化します（タスクがある場合です）。

調査ベースの指標

これらの指標は、回顧法とタスクベースのどちらにおいても、調査の最初か最後の段階で収集されるのが通常です。

SUPR-Q：Webサイトのユーザー体験における全体的な質の測定基準を提供します。さらに、ユーサビリティや見た目、信頼性、ロイヤリティの測定基準も与えられます。

SUPR-Qm：モバイルアプリのユーザー体験のためのアンケートです。

SUS：知覚的なユーサビリティの測定基準です。ソフトウェアに向いています。

NPS：すべてのインターフェイスにおける顧客ロイヤリティの測定基準です。消費者が関与するものに向いています。

UMUX-Lite：知覚的な便利さや使いやすさのコンパクトな測定基準です（もうじき記事が出ます）。

ブランド態度/ブランドリフト：ブランドはUXの指標に対して大きな影響を与えます。調査の前後でブランドを測定することは、ブランドの印象に対して体験がどの程度（プラスやマイナスの）効果をもっているかを特定するのに役立ちます。

タスクレベル指標

タスクを行う調査の場合、タスクの一部やタスク終了後に集められる指標として以下のものがもっとも一般的です。

態度：使いやすさに対する認識（SEQ）と自信（タスク後に収集されます）。

行動：完了度やタスクの時間、エラー（タスクから収集されます）

まとめ

UXのベンチマークは、Webサイトやモバイルアプリ、製品、ソフトウェアなどのインターフェイスを定量化できる測定基準を提供します。

良いベンチマークからは、以前の状態や競合製品、業界標準などからきちんと比較に対して、インターフェイスがどのようなパフォーマンスをしているかをスコアで示します。

ベンチマークには、回顧法（被験者が実際の使用を振り返るもの）とタスクベース（被験者がシュミレーションでタスクを実行するもの）があります。UXベンチマークのデータ収集にはユーサビリティテストと同様の方法が含まれ、モデレートされたものとモデレートされていないアプローチがあります。

ベンチマークのデータ収集は、SUPR-Q、SUS、NPSなどの調査ベースものから始め、調査したいタスクがある場合に完了率、時間、エラー、SEQなどのタスクレベルものを実施すると良いでしょう。