Big Data sorgt immer wieder für Schlagzeilen, aber was genau ist das eigentlich und warum ist es sowohl ein Segen als auch ein potenzielles Hindernis für eine genaue Zielgruppenmessung? Wir untersuchen die Vor- und Nachteile von Big Data und die Möglichkeiten, es erfolgreich einzusetzen.
Was ist Big Data?
In der linearen Medienwelt bezieht sich Big Data in der Regel auf zwei Arten von Datenströmen, die von genau den Systemen erzeugt werden, die Programme an Endnutzer liefern: Rückwegdaten (RPD) von Kabel- oder Satelliten-Set-Top-Boxen (wie Dish oder DirecTV) und automatische Inhaltserkennung (ACR) von mit dem Internet verbundenen Smart-TV-Geräten (wie Samsung oder Vizio).


ACR-Daten
Anstelle eines Protokolls der Kanalwechsel überwacht die ACR-Technologie die Bilder auf dem Fernsehbildschirm. Die Bilder fungieren wie Fingerabdrücke, die mit einer großen Referenzbibliothek verglichen werden, um zu identifizieren, um welches Programm oder welche Werbung es sich tatsächlich handelt. Die Bilder werden mit einem Zeitstempel versehen, um zu verstehen, wann die Wiedergabe stattfindet.
RPD-Daten
Zeichnet auf, auf welchen Kanal die Set-Top-Box eingestellt ist und zu welcher Zeit Kanalwechsel stattfinden. Diese Daten können mit einem Fernsehprogramm abgeglichen werden, um festzustellen, welche Sendung zu diesem bestimmten Zeitpunkt läuft, und mit Daten von den Ad-Servern des Anbieters oder seinen Partnern, um herauszufinden, welcher Werbung der Haushalt ausgesetzt ist.
In beiden Fällen gestatten Endnutzer die Datenerfassung auf ihren Geräten. Die Kooperationsbereitschaft ist relativ hoch, da die Datenerfassung nicht nur der Messung dient, sondern auch für begehrte Funktionen wie Nutzerpräferenzen und Inhaltsempfehlungen genutzt wird. Ein RPD- oder ACR-Datensatz kann weit über 30 Millionen Geräte umfassen.
Warum ist Big Data so wichtig?

Es gab eine Zeit, in der die Menschen nur aus einer Handvoll Kanälen wählen konnten. EineHaushaltsbewertung1 von über 60 (wie beim Finale von M*A*S*H im Jahr 1983) oder sogar 40 (wie beim Finale von Seinfeld im Jahr 1998) ist für eine Scripted-Show heute unvorstellbar. Wir leben in einer viel fragmentierteren Welt mit einer sehr langen Liste von Programmoptionen.
Das ist großartig für Fernsehzuschauer, erschwert jedoch die panelbasierte Forschung: In einem landesweiten Panel mit 101.000 Personen wird eine Fernsehsendung mit einer Bewertung von 0,2 von 80 Haushalten gesehen, davon vielleicht nur einem im Großraum Atlanta oder Dallas. Mit Millionen von gemessenen Geräten ermöglicht Big Data Forschungsunternehmen, die Fernsehnutzung auf einer viel detaillierteren Ebene zu erfassen und so eine viel größere Anzahl von Programmen mit kleinen und oft unterschiedlichen Zuschauergruppen abzudecken. Aber Big Data war nie dafür gedacht, allein für die Zuschauerforschung verwendet zu werden. Wir werden uns mit einigen Vor- und Nachteilen von Big Data in der Zuschauerforschung befassen.
Die Grenzen von Big Data
Herausforderung Nr. 1: Big Data ist nicht repräsentativ
Um Transaktionen mit Vertrauen durchführen zu können, benötigen Medienkäufer und -verkäufer eine Messlösung, die die Bevölkerung in ihrer ganzen Vielfalt widerspiegelt: Alle Altersgruppen, Rassen, Ethnien und viele andere wichtige demografische und verhaltensbezogene Merkmale müssen in den zugrunde liegenden Daten proportional vertreten sein.
Aber Größe garantiert keine Repräsentativität. Bei der Analyse der installierten Gerätezahlen im Nielsen National TV Panel haben wir festgestellt, dass Haushalte mit RPD überproportional älter und weniger ethnisch vielfältig sind als die allgemeine Bevölkerung. Hispanische Haushalte sind beispielsweise um etwa 30 % unterrepräsentiert, und Haushaltsvorstände unter 25 Jahren fehlen fast vollständig in den RPD-Datensätzen. Auf der anderen Seite sind die ACR-Datensätze jünger als die allgemeine Bevölkerung und weisen auch mehr Haushaltsmitglieder auf. Die Verwendung statistischer Gewichtung in Big Data kann das Problem zwar verschleiern, aber sie kann die fehlenden, einzigartigen Sehgewohnheiten unterrepräsentierter Zielgruppen nicht ausgleichen.
Erschwerend kommt hinzu, dass eine Messlösung, die sich ausschließlich auf RPD- und ACR-Daten stützt, Haushalteohne Kabelanschluss und reine Streaming-Haushalte übersehen würde, die einen wachsenden Anteil ausmachen.
Herausforderung Nr. 2: Big Data erfasst möglicherweise nicht das gesamte Sehverhalten.
Selbst wenn sie repräsentative Haushalte umfassen, erfassen die RPD- und ACR-Datensätze nicht die Nutzung aller Set-Top-Boxen im Haushalt oder anderer Fernsehgeräte im Haushalt, die keine Smart-TVs sind. Auf diesen zusätzlichen Fernsehgeräten werden möglicherweise unterschiedliche Programme für verschiedene Familienmitglieder abgespielt (z. B. Kochsendungen in der Küche oder Kindersendungen im Spielzimmer), sodass Big-Data-Haushalte nicht nur nicht repräsentativ für die Bevölkerung sind, sondern auch die Big Data selbst nicht repräsentativ für alle Fernsehgewohnheiten sind, die in diesen Haushalten möglicherweise vorkommen.

Ein frustrierendes Problem für Forschungsunternehmen, die sich auf RPD verlassen, ist, dass die Set-Top-Box oft eingeschaltet bleibt, wenn der angeschlossene Fernseher ausgeschaltet wird. Diese „Phantom”-Einschaltung kann die tatsächlichen Zuschauerzahlen je nach Anbieter um 145 % bis 260 % überhöhen. Es gibt Modelle, mit denen dies kompensiert werden kann, aber ohne einen Bezugspunkt – wie beispielsweise eine auf tatsächlichen Zuschauerzahlen basierende Umfrage – kann es schwierig sein, die richtigen Heuristiken zu entwickeln.
Auch ACR ist nicht immun gegen Probleme mit der Datenqualität. Einige Smart-TV-Streaming-Anwendungen blockieren ACR daran, die Inhalte auf dem Bildschirm zu erfassen, während die App verwendet wird. Es kann so aussehen, als sei der Fernseher ausgeschaltet, obwohl die Inhalte in Wirklichkeit von einer App blockiert werden. Und die meisten Anbieter überwachen nur einen kleinen Teil aller verfügbaren Programme. In einer aktuellen Analyse haben wir festgestellt, dass ACR-Anbieter derzeit nur 31 % aller verfügbaren Sender überwachen und 23 % der aufgezeichneten Minuten immer noch von Sendern stammen, die nicht überwacht werden. Da es keine Referenz-Fingerabdrücke zum Vergleich gibt, werden diese Zuschauerzahlen nicht gemeldet.
Herausforderung Nr. 3: Bei Big Data fehlen demografische Daten zu den Zuschauern.
RPD- und ACR-Anbieter erfassen Tuning-Daten von Millionen von Geräten, wissen jedoch nicht, wer fernsieht – und genau das ist es, was Werbetreibende letztendlich wissen möchten.
Eine Möglichkeit, diesen Mangel auszugleichen, besteht darin, mit externen Anbietern von demografischen Daten zusammenzuarbeiten. Diese Unternehmen führen Aufzeichnungen über die demografische Zusammensetzung jedes Haushalts im Land, und ein Forschungsunternehmen könnte versuchen, allein anhand der Gesamtzahl der Einschaltdaten eines bestimmten Haushalts und der demografischen Zusammensetzung dieses Haushalts ein Modell darüber zu erstellen, wer was sieht.
Ein Kinderprogramm? Das muss von einem Kind im Haushalt stammen. Ein Wrestling-Kampf? Das muss von einem männlichen Zuschauer stammen. Ohne einen Bezugspunkt aus dem realen Leben, der den Algorithmus für maschinelles Lernen unterstützt, lässt sich leicht erkennen, wo diese Art der Modellierung versagen könnte. Es überrascht nicht, dass die Zuverlässigkeit mit der Größe des Haushalts zunehmend abnimmt, was letztlich die Genauigkeit der Daten für größere Familien beeinträchtigt, beispielsweise solche mit Kindern, nicht-weißen und jüngeren Zuschauern.
Die Vorteile von Paneldaten
Für Marken und Medienunternehmen, die nach einer stabilen, zuverlässigen Lösung zur Messung der Zuschauerzahlen suchen, sind die oben genannten Herausforderungen ein No-Go. Paneldaten sind entscheidend, um diese Einschränkungen zu überwinden.
Wenn wir bei Nielsen RPD- oder ACR-Daten analysieren, können wir feststellen, welche Haushalte und Geräte zu unseren Panels gehören, und die Einschaltdaten in diesen Haushalten mit dem von unseren Messgeräten erfassten Fernsehverhalten vergleichen. Indem wir unsere Panels als verlässliche Quelle für diese Haushalte nutzen, können wir genau feststellen, wo Big Data von der Realität abweicht, und robuste Modelle entwickeln, um diese Anomalien zu korrigieren.
Beispielsweise haben wir eine Methode entwickelt, um herauszufinden, wo sich ein Gerät innerhalb eines Hauses befindet, und seine Empfangsdaten bestimmten Zuschauern zuzuordnen. Ein weiteres Modell hilft uns dabei festzustellen, ob ein Fernseher ausgeschaltet ist, während die Set-Top-Box eingeschaltet ist. Ein weiteres Modell kann Geräteaktualisierungen, die als zusätzliche Empfangsdaten registriert werden, sowie Situationen, in denen ein Gerät mehr als ein Empfangssignal gleichzeitig zurückgibt, aussortieren.
Menschen, nicht Geräte

Letztendlich geht es bei der Zuschauerforschung um Menschen, nicht um Geräte.
Es besteht kein Zweifel daran, dass Big Data eine großartige Ergänzung für das Arsenal der Medienforscher darstellt. Es eröffnet Möglichkeiten für eine detailliertere Berichterstattung, als dies in der Vergangenheit jemals möglich war. Aber es ist von Natur aus fehlerhaft, voreingenommen und vor allem kurzsichtig: Es erfasst Einschaltdaten, nicht Sehdaten.
Um sein Potenzial voll auszuschöpfen, muss es bereinigt, ergänzt, kalibriert und mit relevanten demografischen Daten angereichert werden. Hier kommen Paneldaten ins Spiel. Maschinelles Lernen funktioniert am besten mit aussagekräftigen Trainings- und Validierungsdaten, und es gibt keine besseren Trainingsdaten in der Branche als die national repräsentativen Paneldaten, die das Herzstück der heutigen Medienforschung bilden.
Nielsen’s Need to Know beschäftigt sich mit den Grundlagen der Zuschauerforschung und erklärt die aktuellsten Themen der Medienbranche. Lesen Sie alle Artikel hier.
Hinweis
1 Die Haushaltsreichweite ist der Prozentsatz aller Haushalte im Land, die ein bestimmtes Programm empfangen.
2 Programme, die über ein „Signal” von einer Antenne empfangen werden können. Über Antenne (OTA) ausgestrahlte Sendungen waren die erste Art von Fernsehen, die verfügbar war.



