ケーススタディ:NetflixはどのようにA/Bテストを実施しているのか?

Jessie Chen

Jessie Chen氏はサンフランシスコを拠点とするUI/UXデザイナーです。

この記事はuxdesign.ccからの翻訳転載です。配信元または著者の許可を得て配信しています。

How Netflix does A/B Testing (2016-07-26)

https://uxdesign.cc/how-netflix-does-a-b-testing-87df9f9bf57c#.4p0kaz1hj

Netflixはどうやって素晴らしいストリーミング体験を提供しているのでしょうか? 彼らがどのようにサイトを作り、さらにA/Bテストを通してどのようにUIの改善をしているのでしょうか?

この記事では私がYelpで参加したDesigners+Geeks eventで学んだことから共有します。2人のスピーカー、Anna Blaylocky氏とNavin Iyengar氏はNetflixのプロダクト・デザイナーであり、何年も何百万人という会員に行ってきたA/Bテストから収集した実態について語ってくれました。また、参加者がデザインを考える上で手助けとなるようないくつかの関連する例を示してくれました。

https://uxdesign.cc/how-netflix-does-a-b-testing-87df9f9bf57c#.4p0kaz1hj

科学的な手順

https://uxdesign.cc/how-netflix-does-a-b-testing-87df9f9bf57c#.4p0kaz1hj

仮説

科学において仮説は、研究や実験を通して検証されるアイデアや事象の原因を指します。デザインでは理論やや予想を「仮説」と呼ぶことができます。

https://uxdesign.cc/how-netflix-does-a-b-testing-87df9f9bf57c#.4p0kaz1hj

仮説の基本的な概念には、あらかじめ決まった結論・結果がありません。仮説は検証することができ、またその検証は再現性があるものです。

A/Bテストの基本的なコンセプトは、1つのコントロール・グループ(統制群)と1つかそれ以上の実験グループを対象とした実験を行うという点にあります。これらのグループをNetflixでは「セル」と呼びます。実験において、ユーザーはそれぞれ1つのセルに所属します。さらに、いくつかあるセルの中の1つが常に「デフォルト・セル」となります。そのセルがコントロール・グループの代表となり、テスト対象ではないユーザーと同じ条件のもとでサービスを体験します。— Netflix blogより

NetflixではA/Bテストはこのように行われます。まず、テストが実行されるとすぐに、特定の重要指標のトラッキングを始めます。例えば、ストリーミング時間や継続率などが重要指標として挙げられます。十分に意味のある結果を得ることができたら、テストの有効性を確認し、さまざまなバリエーションの中から1番結果の良かったものを見つけ出します。

https://uxdesign.cc/how-netflix-does-a-b-testing-87df9f9bf57c#.4p0kaz1hj

1-fd55jw4tbidgvhdmmsz7g

仮説のプロセスを解説するスライド

実験の実施

実験とは、実験を実際に行う一連の行為のことを指します。Netflixのように多くの企業は、ユーザーデータを得るために実験をおこなっています。課題を解決するのには種類・量の両方において十分なデータを確実に得る必要があり、そのために時間と労力をかけて可能な限り効率的かつ適切に実験をおこなうことは重要なことです。

1-bfjasg5uzsevpkhmd7endq

初めてホームページにログインした際の画面

Netflixのトップページにあるおすすめ番組が、ログインをするたびに変わることに気づいたことがあるかもしれません。それらはすべて、Netflixによる番組を見てもらうための複雑な実験の一部なのです。

1-merthpwnzkecfqrtn0nkng

サインインしていないユーザーがHouse Of Cardsのページを見た時の様子

1-dn15e_cx-cche-p5ugazow

2回目のログイン時の画面

1-y7zqwf3vihehoqo2hqtdow

アカウントユーザー名を変えた際のホームページ

1-13zlfh6uto7zmmk-tndjcw

アカウントを子供の名前に切り替えた際の画面

1-xag56xvmiiwagtck8cdc_q

サインインしていない時のホームページ

A/Bテストでは、異なるコンテンツを異なるユーザーグループに提供します。そして、各ユーザーグループ毎のリアクションを集計し、その結果を元に今後の戦略を組み立てるというのがA/Bテストの考え方です。以下はNeflixのエンジニア Gopal Krishnan氏のブログより。

90秒で会員の関心を得ることができなければ、その会員は興味を失い違うことを始めてしまうでしょう。正しいコンテンツを提供できなかった、もしくはコンテンツは問題ないが番組を見るべき十分な理由をユーザーに提供できないと、ユーザーは離脱してしまい失敗となります。

2013年にNetflixは、ある番組のオーディエンスを増やすために、複数のアートワークを作成する実験を行いました。結果は以下の通りです。

1-v7fo2krsrliyuaev2cscnq

Netflixのブログより(セル1:デフォルト、セル2:14%改善、セル3:6%改善)

ユーザーがアートワークの変化に反応していることはすぐにわかりました。それは同時に、Netflixにおいてユーザーが探しているストーリーを見つけやすくする今より良い方法があるということも示していました。

Netflixは後に、同じ背景画像を持ち、異なるアスペクト比やサイズ、言語のタイトルロゴを持つアートワークをグループ化するシステムを作りました。アートワークの効果をトラッキングするために他のTV番組でも実験を重ねました。例は以下の通りです。

1-9qex5ihacv8-etjh8ctibq

Netflixのブログより。印のついた画像が他よりも大きく効果が出ました。

1-mzognpkoncrjtul8vz77za

Netflixのブログより。印のついた画像が他よりも大きく効果が出ました。

この2つのブログポストではNetflixのA/Bテストについて更に学ぶことができます。

How Netflix selects the best artwork for videos through A/B testing

The Netflix experimentation platform NetflixのエンジニアがA/Bテストを実行する上で、専門のエンジニアのサポートを受けることが可能になるサービスについてです。

学ぶべきこと

A/Bテストはユーザーの行動を学ぶための最も信頼のできる方法です。デザイナーとして、実験というレンズを通して私たち自身の仕事を見ることが必要です。

1-mcugyi6lgcfwd01ngukq_a

プレゼンテーションより。あなたの直感はいつも正解とは限りません。

1-dlzs0s-cdrajqp3-os6yua

1.いつ・なぜA/Bテストを行うか

デザインができたのなら、A/Bテストを用いて微調整を行いましょう。改善の目的とすべき指標は、継続率と収益です。A/Bテストとユーザーのトラッキングを時間かけてすることで、その変化が継続率と収益性の向上に寄与しているかを確認することができます。

もし改善したなら、それをデフォルトとしましょう。このようにして、継続的にビジネス指標を改善するためにA/Bテストは使われます。

2.ユーザーにして欲しいことが実行されいるか

私の経験では、ユーザーがいつも想定通りにタスクを完了してくれるとは限りません。さらに、ユーザーがページ上の特定のボタンを見つけることが出来ないことも時にはあります。

理由はさまざまです。デザインが直感的ではない、色が鮮明でない、ITの知識がない、ページ上に選択肢が多すぎて決めることができない、などの理由を挙げることができます。

3.あなたの直感は正しいか?

悲しいことに、ユーザーの行動に関する私たちの直感は間違っているかもしれません。それを改善する唯一の方法はA/Bテストです。

A/Bテストは、あるUXデザインがもう片方よりも効果的であることを検証する最良の方法です。ある仕事では、私たちのプロダクト・チームは不動産ウェブサイトにおいてA/Bテストを実施し、どちらのUXデザインが良いかを検証しました。

デザインを変更することで、グーグルの広告をクリックしたユーザーの登録率が改善するかを検証しようとした例があります。彼らはデザインをいくつか作成し、テストを行いました。物件の画像を隠すようなデザインが1番だと思っていましたが、物件の画像とその価格の両方を隠すデザインが最も高いコンバージョン率でした。

4.境界線を探検しよう

ベストのアイデアは、たくさんのアイデアの探求から生まれるものです。私たちのプロダクト・チームは、さまざまなプロジェクトで協力しながら仕事をこなしています。デザイナーからプロダクト・マネージャー、開発者までさまざまなチームと一緒に、その境目を探検することになります。私たちがプロトタイプをテストした後に、開発者やプロダクト・マネージャーからベストなアイデアが出てくることもあります。

5.人々が言うことではなく、行動を観察しよう。

ユーザーと話す時に、覚えておくべきなのは「ユーザーが言うことと実際の行動は異なる」ということです。私が今週行ったいくつかのユーザー・テストの中に、その理由を説明できる完璧な例がありました。とあるユーザーに対し連絡先リストのプロトタイプのテストを行い、彼に日常的に連絡先をソートすることはあるかと質問をしました。彼は、「必要がないのでしない」と答えました。しかし、彼は新しいソート・メニューを見ると、ソートとフィルタリングの便利さに驚き、すぐにこの機能は公開されるのか聞いてきました。

6.データを使って機会の大きさを予想しよう

  • ・いつも「なぜ」についてです
  • ・データはアイデアを形作ることに役立ちます
  • ・A/Bテストが矛盾していないかチェックしましょう

あなたのユーザーについて知ることはデザイン・プロセスにおいて最もエキサイティングな部分です。完成されたデザインは存在しませんが、デザインを改善しユーザーに可能な限り最高の経験を提供するためのチャンスは沢山あります。

ユーザーのために微調整をすること、彼らのリアクションを測定すること、そしてプロダクト・チームと一緒に次のステップを見つけ出すことを私は楽しんでいます。


イベント