ビッグデータは常に話題を呼んでいるが、その正体とは何か?そしてなぜ正確な視聴者測定にとって贈り物でありながら潜在的な障害にもなり得るのか?ビッグデータのメリットとデメリット、そしてそれを機能させる方法を探る。
ビッグデータとは何か?
線形メディアの世界では、ビッグデータとは通常、エンドユーザーに番組を配信するシステム自体が生成する2種類のデータストリームを指す。ケーブルや衛星のセットトップボックス(DishやDirecTVなど)からのリターンパスデータ(RPD)、およびインターネット接続型スマートテレビ(SamsungやVizioなど)からの自動コンテンツ認識(ACR)である。


ACRデータ
ACR技術はチャンネル変更のログではなく、テレビ画面上の映像を監視します。映像は指紋のように機能し、大規模な参照ライブラリと比較されることで、番組や広告の正体を特定します。映像にはタイムスタンプが付けられ、再生がいつ行われているかを把握します。
RPDデータ
セットトップボックスがどのチャンネルに合わせられているか、およびチャンネル変更がいつ行われるかを記録します。このデータはテレビ番組表と照合することで、特定の時間にどの番組が放送されているかを特定できます。さらに、プロバイダーの広告サーバーまたはそのパートナーからのデータと組み合わせることで、世帯がどの広告に接触しているかを把握することが可能です。
どちらの場合も、エンドユーザーは自分のデバイスでのデータ収集を許可しています。データ収集は測定だけでなく、ユーザーの好みやコンテンツの推奨など、非常に望まれる機能も推進するため、協力度は比較的高いです。RPD または ACR データセットは、3,000 万台以上のデバイスを網羅している場合があります。
ビッグデータがなぜ重要なのか?

かつて人々が選べるチャンネルはごくわずかだった。世帯視聴率1が60を超える(1983年の『M*A*S*H』最終回のように)あるいは40を超える(1998年の『Seinfeld』最終回のように)ことなど、今日の脚本番組では考えられない。我々ははるかに細分化された世界に生きており、番組選択肢のリストは非常に長く、非常に長い。
テレビ視聴者にとっては素晴らしいことだが、パネル調査では複雑化する。全国10万1千人のパネル調査では、視聴率0.2の番組は80世帯が視聴することになり、アトランタやダラスの都市圏ではたった1世帯しか視聴しないかもしれない。 測定対象となるデバイスが数千万台に達したことで、ビッグデータは調査会社がテレビ視聴状況をはるかに詳細なレベルで報告することを可能にし、小規模で多様な視聴者を抱える多くの番組をカバーできるようになりました。しかしビッグデータ自体は、視聴率測定のために設計されたものではありません。視聴率測定におけるビッグデータのメリットとデメリットについて掘り下げていきます。
ビッグデータの限界
課題1:ビッグデータは代表的ではない
メディアの買い手と売り手が確信を持って取引を行うためには、あらゆる多様性を反映した測定ソリューションが必要です。すべての年齢層、人種、民族、その他多くの主要な人口統計学的特性や行動特性が、基礎データに存在し、かつ比例的に反映されている必要があります。
しかし規模は代表性を保証しない。ニールセン全国テレビパネルの設置台数を分析した結果、RPD(リモートパネルデバイス)導入世帯は一般人口に比べて高齢化が進み、人種的多様性が著しく低いことが判明した。例えばヒスパニック系世帯は約30%過小評価されており、25歳未満の世帯主はRPDデータセットからほぼ完全に欠落している。 一方、ACRデータセットは一般人口より若年層に偏っており、世帯人数も多くなっています。ビッグデータにおける統計的加重処理はこの問題を隠蔽する可能性はあっても、過小評価された視聴者層の欠落した固有の視聴行動を補うことはできません。
さらに悪いことに、RPDとACRデータのみに依存する測定ソリューションでは、増加傾向にあるオーバー・ザ・エア2(OTA)視聴世帯やストリーミング専用世帯を捕捉できない。
課題2:ビッグデータでは視聴行動のすべてを捉えられない可能性がある
たとえ代表的な世帯を含んでいたとしても、RPDおよびACRデータセットは、世帯内のすべてのセットトップボックスや、スマートテレビ以外の家庭内の他のテレビからの視聴を捕捉していません。 これらの追加テレビでは、家族ごとに異なる番組が視聴される可能性がある(例えばキッチンでは料理番組、プレイルームでは子供向け番組など)。したがって、ビッグデータ世帯は人口全体を代表しないだけでなく、ビッグデータ自体も家庭内で発生している可能性のある全視聴行動を代表していないのである。

RPDに依存する調査会社にとって厄介な問題は、接続されたテレビがオフになってもセットトップボックスがオンのままになることが多い点だ。この「ファントム」チューニングにより、プロバイダーによっては実際の視聴率が145%から260%も過大評価されることがある。これを補正する手法は存在するが、実際の視聴データに基づくパネルのような基準点がない場合、適切なヒューリスティックを開発するのは困難である。
ACRもデータ品質の問題から免れてはいません。一部のスマートTVストリーミングアプリは、アプリ使用中にACRが画面上のコンテンツをキャプチャするのをブロックします。実際にはアプリによってコンテンツがブロックされているのに、テレビがオフになっているように見える場合があります。また、ほとんどのプロバイダーは利用可能な全番組のごく一部しか監視していません。最近の分析では、ACRプロバイダーが現在監視しているのは全利用可能局のわずか31%に過ぎず、記録された視聴時間の23%は依然として監視対象外の局から発生していることが判明しました。比較対象となる参照用フィンガープリントがないため、こうした視聴は報告されません。
課題3:ビッグデータには視聴者層の情報が欠けている
RPDおよびACRプロバイダーは数百万台のデバイスから視聴データを収集するが、誰が視聴しているかは把握しておらず、これが広告主が最終的に求めている情報である。
その欠点を補う一つの方法は、第三者の人口統計データ提供業者と提携することである。これらの企業は国内の全世帯の人口統計構成を記録しており、調査会社は特定の世帯における総視聴データとその世帯の人口統計構成から、誰が何を視聴しているかをモデル化しようとするかもしれない。
子供向け番組?それは家の中の子供からの視聴だろう。プロレス試合?それは男性視聴者からの視聴に違いない。機械学習アルゴリズムを補う現実世界の参照基準がなければ、この種のモデリングがどこで破綻するかは容易に想像がつく。当然ながら、世帯規模が大きくなるほど信頼性は低下し、結果として子供がいる世帯や非白人層、若年層といった大規模家族のデータ精度を損なうことになる。
パネルデータの利点
安定した信頼性の高い視聴者測定ソリューションを求めるブランドやメディア企業にとって、上記の課題は致命的である。こうした制限を克服するにはパネルデータが不可欠だ。
ニールセンでは、RPD(視聴率データ)やACR(視聴率測定)データを分析する際、パネル調査対象の世帯とデバイスを特定し、それらの世帯における視聴データを当社の視聴率計測器が捕捉した視聴行動と比較します。これらの世帯においてパネル調査を真実の源泉として活用することで、ビッグデータが真実から乖離する箇所を特定し、こうした異常値を補正する堅牢なモデルを開発することが可能です。
例えば、デバイスが家の中のどこにあるかを特定し、そのチューニングデータを特定の視聴者に紐付ける手法を開発しました。別のモデルは、セットトップボックスがオンの状態でテレビ本体がオフかどうかを判断するのに役立ちます。さらに別のモデルは、余分なチューニングとして記録されるデバイスの更新や、デバイスが同時に複数のチューニングイベントを返す状況を整理できます。
人こそが、装置ではない

結局のところ、視聴者調査はデバイスではなく、人についてのものである。
ビッグデータがメディア研究者の武器庫に大きな付加価値をもたらすことは疑いようがない。これまで不可能だったほど詳細な分析を可能にする扉を開くのだ。しかし本質的に欠陥があり、偏っており、最も根本的には近視眼的である。視聴データではなく、チューニングデータを捉えるに過ぎないのだ。
その潜在能力を発揮するには、データのクリーニング、補完、調整、そして関連する人口統計情報による強化が必要です。そこでパネルデータが活用されます。機械学習は強力なトレーニングデータと検証データで最も効果を発揮し、今日のメディア調査事業の中核をなす全国代表パネルデータほど優れたトレーニングデータは業界に存在しません。
ニールセンの Need to Know 視聴者測定の基本を解説し、メディア業界で最も注目されるトピックをわかりやすく解説します。すべての記事はこちらから こちらでお読みください。
注記
1世帯視聴率とは、国内の全世帯のうち、特定の番組を視聴している世帯の割合を指す。
2アンテナからの「電波」を介して受信可能な番組。地上波放送(OTA)は、最初に利用可能となったテレビ放送方式である。



