2018/4/6更新

NPSの評価を変えるとどの程度影響が及ぶのか

Jeff Sauro

Measuring Uの創設者。シックスシグマに熟練した統計学分析者であり、ユーザーエクスペリエンスを定量化したパイオニアでもあります。

この記事はMeasuring Uからの翻訳転載です。配信元または著者の許可を得て配信しています。

CHANGING THE NET PROMOTER SCALE: HOW MUCH DOES IT MATTER?

ネットプロモータースコア（NPS）は、顧客のロイヤルティを測定する人気の指標です。

多くの企業にとって、NPSは最重要の測定基準です。

業界や部門、規模を問わずさまざまな企業で幅広く使用されているため、多くの疑問や論争が起こるのは驚くべきことではありません。

NPSを主要な測定基準として使用すべきかなど、システマチックなものから、NPSをパーセンテージとして扱うべきかかどうかなど、の些末なものまで多々あります。

NPSにあまり詳しくない方のために説明すると、NPSとは「その製品を友人や同僚に薦める可能性はどれくらいありますか」という１つの質問に基づいています。参加者はその質問に11段階評価で回答します（０=まったく勧めません、10 =とても勧めたいです）。

９か10と答えた場合は「推奨者」、７と８は「中立者」、０〜６は「批判者」とみなされます。批判者は、製品やサービスについて良くないことを言う可能性がある顧客で、ほかの顧客の製品やサービスを利用する際の妨げとなる可能性さえもあります。推奨者は製品やサービスについて、ポジティブなことを広めてくれる可能性がもっとも高い顧客です。

ネットプロモータースコアの「ネット」とは、推奨者の割合から批判者の割合を差し引いたことに由来しています。低いスコアは、推奨者よりも批判者が多いことを意味し、高いスコアは、推奨者が批判者を上回っていることを意味します。つまり、ネガティブな口コミよりもポジティブな口コミのほうが多いということです。

なぜ10や７、５段階ではなく11段階評価なのか

NPSについて疑問となるのは、11段階もの評価が必要なのかということです。NPSについて書いたFred Reichheld氏は、０から始まる11の回答の選択肢は回答者にとって明確なシグナルで、１がもっとも適した手段ではないとし、「０〜10段階では、混乱は起こりません」（99ページ）と述べています。

Reichheld氏自身は、「ほかの評価でもうまくいくように見える」と数字のばらつきについて認識しており、エンタープライズレンタルカーの５段階評価を例として引き合いに出しています。（98ページ）

NPSの世界の外では、評価段階の数自体が独自の論争を起こしています（私の意見にも多くの議論があります）。回答の選択肢の数はデータに影響を及ぼしますが、一般的にどうしようもないというほどではありません。アンケートの項目が少なければ少ないほど、回答の選択肢の数を変えることでスコアがより変わりやすくなります。ほかのすべての項目が同じであれば、回答の選択肢が増えるほど良くなります。したがって、評価段階を11から９、７または５に減らすことは、実際は（わずかではありますが）利益よりも損害を招くのです。

しかし、11段階評価に対する懸念は通常実用的な問題で、統計的な問題ではありません。推奨の可能性に関する質問（LTR）は、調査においてほかの項目と一緒に提示されることがよくあります。通常、多くの質問項目では５または７段階で評価するリッカート尺度が使われます。11段階の評価が含まれると、回答者は企業がよく使用する５または10段階の評価から、評価尺度を切り替えることが必要とされます。さらには、11段階評価の幅が製品内のコンパクトな調査やモバイル画面での表示を困難にしてしまうのです。

その結果、私が働いていた企業の中には10段階変化（１〜10）を使用している企業もあれば、LTRの項目としては大きく変更された５段階評価を使用している企業もありました。このような変化は、状況に変化をもたらすのでしょうか。もしそうであれば、どの程度でしょうか。

回答の選択肢の数を変えると影響はあるのか

回答の選択肢の数を変えることによるネットプロモータースコアへの影響を理解するために、11段階のオリジナル版、10段階と５段階に変えたもの（それぞれ以下のとおり）の、３つの回答選択肢のバリエーションを使用してスコアの差を調べました。

2017年11月にオンラインパネルを使用して、異なる年齢、性別、職業の米国の参加者520名からデータを収集しました。遡及的分析とモデレートされていないUXベンチマーク調査の、２つの調査があります。

私たちの目標は、さまざまなネットプロモータースコア（高から低パフォーマー）を持つブランドや製品を集めることでした。遡及的分析において、以下の企業の製品やサービスを利用したことのある参加者を起用しました。（企業/製品ごとに49〜53の回答が収集されました）。

米国航空会社

United
Delta
American Airlines

エンターテイメント/メディア

Netflix
iTunes
Facebook

衛星放送テレビ/テレビプロバイダ

Dish
DirecTV
Comcast

UXベンチマーク調査では、参加者を２つのオンライン学習プラットフォーム（LinkedInの一部のLynda.comまたはUdemy）のいずれかに無作為に割り当てました。そして、MUIQリサーチプラットフォームを使用してWebサイト上で２つの作業を完了するように求めました。

どちらの調査においても、参加者にはNPSの質問の３つのバリエーションすべてがランダムに割り当てられるようにし、シーケンス効果を回避しました。質問は同じページに提示されておらず、遡及的調査ではNPS項目の各バリエーション間に、参加者の体験について問う追加の質問が置かれています。

私たちは以下のルーブリック採点を使用して、未処理の回答すべてを企業/製品別に推奨者、中立者、批判者を含むネットプロモータースコアに変換しました。

バリエーション	推奨者	中立者	批判者
11段階	9-10	7-8	0-6
10段階	9-10	7-8	1-6
５段階	5	4	1-3

結果

下の表の結果は、異常な回答パターンの８人の回答者を除外した（下記の除外メモを参照）、評価の種類と製品のネットプロモータースコアを示しています。予想通り、オリジナルの11段階評価を使用したものは、良いネットプロモータースコアの幅が見られます。Netflixがもっとも高い63％で、Comcastがもっとも低い-55％です。

回答の尺度は、実際にネットプロモータースコアに影響を与えました。２つのもっとも顕著な違いは、DeltaとComcastに現れました。Deltaでは、11段階評価と10段階評価との間に、-10ポイントのNPSから4ポイントのNPS（批判者ではp <.10の差異）まで、14ポイントの差異があります。Comcastでは、11段階評価と５段階評価との間に、8ポイントの差異があります（それぞれ-55％と-63％）。選択肢の尺度の数だけが変わった、同一の質問にランダムに回答しているということを思い出してください。

	NPS 11	NPS 10	NPS 5
American	-8%	-6%	-8%
Comcast	-55%	-53%	-63%
Delta	-10%	4%	-8%
DirecTV	-14%	-12%	-20%
Dish	-16%	-8%	-16%
Facebook	29%	31%	21%
iTunes	8%	2%	2%
Lynda	-15%	-15%	-21%
Netflix	63%	63%	61%
Udemy	0%	3%	6%
United	-15%	-8%	-13%

異常な回答パターン

未処理の回答の調査は、一部の参加者が大きく異なる回答をしたことを示しています。下の表は、10段階と11段階評価間における同じ参加者の５つの異常な回答を示しています。５段階と11段階間においても３つの回答があります。

	参加者 #	NPS10	NPS11	NPS5
Delta Airlines	144	9	2
Facebook	293	8	3
Dish Network	217	2	6
Comcast	93	3	7
Netflix	383	7	3
Dish Network	237		9	2
American	28		5	5
United	417		3	4

たとえば、参加者＃144は、10段階の選択肢では推奨者（９の回答）だったのですが、11段階の選択肢では批判者（２の回答）でした。参加者＃417は、11段階評価では批判者であり（３の回答）、５段階評価では中立者でした（４の回答）。

このような回答に関しては、参加者が回答する際に間違ってしまったか、あるいは注意を払っていなかった可能性があります。一部の参加者は、前の質問から影響を受けている可能性もあります。また、尺度が変わったときに混乱したり、同じまたは似たような回答を示すことで、回答に一貫性を持たせようとした可能性もあるでしょう。

上記の表からネットプロモータースコアを計算する際に、これらの８つの悪質な回答をデータセットから除外しました。しかし、こういった異常な回答を除外しても、評価間での違いは残っていました。

評価間の差

下の表は、10段階対11段階、５段階対11段階変化間の企業/ブランド別の絶対差と実際の差と、11の企業/ブランド間における合計平均差を示しています。

	11 vs 10 (Abs. Value)	11 vs 10	11 vs 5 (Abs. Value)	11 vs 5
平均差	4%	2%	4%	-2%
American	2%	2%	0%	0%
Comcast	2%	2%	8%	-8%
Delta	14%	14%	2%	2%
DirecTV	2%	2%	6%	-6%
Dish	8%	8%	0%	0%
Facebook	2%	2%	8%	-8%
iTunes	6%	-6%	6%	-6%
Lynda	0%	0%	6%	-6%
Netflix	0%	0%	2%	-2%
Udemy	3%	3%	6%	6%
United	8%	8%	2%	2%

表１：11のブランドの、さまざまな段階評価（11、10および５）のネットプロモータースコア

興味深いことに、11段階評価対５段階評価と11段階評価対10段階評価は、平均絶対差が４％ポイントと同じ数値でした。

批判者の削減

驚くことではありませんが、評価の低い部分（Reichheld氏の０にあたるもの）を除去すると、10段階評価のスコアは増加しました。11のネットプロモータースコアのうち10項目が、11段階よりも高いか等しい11対10の列で見られます。（10段階の条件ではiTunesのみが低くなりました）。

10段階と５段階変化の両方において、批判者の総数は減少しました。 11段階のバリエーションは、残った512の回答のうち197から185に変化し、統計的には7.6％という大幅な減少（p = .01）を示しました。５段階変化の場合、批判者の数も8.6％に減少しました（197から180; p <.01）。

５段階評価の推奨者の削減

10段階変化においては、推奨者の影響は取るに足らないものでした。推奨者の総数は、512のうち184から188にわずかに増加した程度です（推奨者の2.2％の増加）。

ところが５段階変化においては、推奨者の数は512のうち184から153へと大幅に減少しました（16.8％の減少、p <.01）。この結果、スコアの差は10段階バージョンほどの上向きのバイヤスではありませんでした。５段階バージョンに対しては、11のうち５つがそのまま同じか減少し、６つが11段階と比バージョンべて減少しました。

概要と論点

この分析では、ネットプロモータースコアや除去する項目を計算する際に使われる評価の変更に関して、多くのことを説明してきました。

NPSの評価を変更するとスコアに（多少の）影響が出る：評価を変更した際の平均絶対差は約４％ポイント（サンプルサイズが約50の場合）ですが、Delta Airlinesでは14点も高く変動していました。
５段階対10段階評価では同じエラーが発生する：興味深いことに、10段階と５段階変化間における平均差の顕著な違いは見られませんでした。両方とも平均絶対誤差は約４％ポイントでした。
10段階評価での批判者の減少：10段階評価は、推奨者が同様に減少することなく（むしろわずかに増加）、批判者の割合を減少させました（約８％）。これは、11段階評価と比較してネットプロモータースコアが同じかそれよりも高い11のブランドのうち、10ブランドで増加しました。
５段階評価は、批判者と推奨者を減らした：回答の選択肢が少なければ少ないほど、極端な「５」という回答を選択する参加者が少なくなりました。少人数の批判者（８％減少）によって概して相殺された、少人数の推奨者（17％）において起こりました。スコアの変化は、増加または減少した約半分のブランドにおいてより微妙な差異でした。
10段階評価はさらに悪い代替となる：少し驚いたことに、11段階評価と10段階評価間における批判者の減少の微妙な違いには、それほど互換性がありません。今後の記事では、これらの10段階評価を最大限に活用する他の方法を検討します（代わりに平均を使用）。
ネットプロモータースコアはある範囲内にとどまった：ほとんどの場合、使用する評価（５、10、または11）にかかわらず、ネットプロモータースコアは同じような範囲に収まりました。たとえば、Netflixは一貫して60代の高いスコアに、Facebookは平均スコア（20〜30代）に、そしてComcastは非常に低いスコア（-50〜-60代）になりました。
外部ベンチマークの損失：5または10段階評価を使用する際の主な欠点は、外部ベンチマークが異なることです。この分析は、あなたのスコアと公開されたベンチマークの間の差が、約４％になる可能性があるということを示唆しています。
違いがより顕著になる：観察された差異（統計学的に有意なもの）は大きく見えるかもしれません。しかし、もっとも大きな差（14ポイントの変化）でさえ、200％ポイントのネットプロモータースコアの範囲においては、たった7％の変化しか表しません。
サンプリングの誤差に注意：サンプルサイズが大きくなると、ここで観察される違いのほとんどが統計学的に有意なものになります。そして、信頼区間と統計的検定を使用することで、ロイヤルティシグナルからサンプリングに無関係なノイズを減らすのに役立てることができます。
参加者の変化：評価間のいくつかの違いは、参加者の回答の避けることのできない変化に起因する可能性があります。たとえば参加者は、製品を推奨する可能性があるときに、６または７の間で迷うでしょう。この１ポイントの変化は、NPS（中立者から批判者）により顕著な影響をもたらすでしょう。今後の分析では、同一の11段階のLTRアイテムを繰り返し尋ねることによって、同じ研究においてどのくらいの変動が予想されるかを推定することができます。
一貫性を保つ：この分析では、10または5段階のバージョンを使用した履歴がある場合、使用しているものをずっと使い続けることを勧めます。11段階バージョンへ変更することによる効果はほとんどありませんが、NPSスコアには比較エラー（この分析では、約±４％と言われています）があるということに留意しましょう。

この記事の前のバージョンにコメントしてくれたJim Lewisに感謝します。

Facebook Netflix