Big Data macht immer wieder Schlagzeilen, aber was genau ist das eigentlich, und warum ist es sowohl ein Geschenk als auch ein potenzielles Hindernis für eine genaue Publikumsmessung? Wir befassen uns mit den Vor- und Nachteilen von Big Data und den Möglichkeiten, sie zu nutzen.
Was ist Big Data?
In der Welt der linearen Medien bezieht sich Big Data in der Regel auf zwei Arten von Datenströmen, die von den Systemen erzeugt werden, die die Programme an die Endnutzer liefern: Rückkanal-Daten (RPD) von Kabel- oder Satelliten-Set-Top-Boxen (wie Dish oder DirecTV) und automatische Inhaltserkennung (ACR) von mit dem Internet verbundenen Smart-TV-Geräten (wie Samsung oder Vizio).


ACR-Daten
Anstelle eines Protokolls der Kanalwechsel überwacht die ACR-Technologie die Bilder auf dem Fernsehbildschirm. Die Bilder wirken wie Fingerabdrücke, die mit einer großen Referenzbibliothek verglichen werden, um festzustellen, um welches Programm oder welche Werbung es sich tatsächlich handelt. Die Bilder werden mit einem Zeitstempel versehen, um zu verstehen, wann die Wiedergabe erfolgt.
RPD-Daten
Es wird aufgezeichnet, auf welchen Kanal die Set-Top-Box eingestellt ist und zu welcher Zeit ein Kanalwechsel stattfindet. Diese Daten können mit einem Fernsehprogramm abgeglichen werden, um festzustellen, welches Programm zu einer bestimmten Zeit läuft, und mit Daten von den Anzeigenservern des Anbieters oder seiner Partner, um herauszufinden, welcher Werbung der Haushalt ausgesetzt ist.
In beiden Fällen erlauben die Endnutzer die Datenerfassung auf ihren Geräten. Die Bereitschaft zur Zusammenarbeit ist relativ groß, da die Datenerfassung nicht nur der Messung dient, sondern auch den gewünschten Funktionen wie Nutzerpräferenzen und Inhaltsempfehlungen. Ein RPD- oder ACR-Datensatz kann weit über 30 Millionen Geräte umfassen.
Warum ist Big Data eine große Sache?

There was a time when people had only a handful of channels to choose from. A household rating1 over 60 (like the finale of M*A*S*H in 1983) or even 40 (like the Seinfeld finale in 1998) is unfathomable for a scripted show today. We live in a much more fragmented world, with a very long, long list of programming options.
Das ist gut für die Fernsehzuschauer, aber es erschwert die Dinge für die panel Forschung: In einem landesweiten panel mit 101.000 Personen wird eine Fernsehsendung mit einer Bewertung von 0,2 von 80 Haushalten gesehen, aber vielleicht nur von einem im Großraum Atlanta oder Dallas. Mit zig Millionen von Geräten, die gemessen werden, ermöglicht es Big Data den Marktforschungsunternehmen, die Fernsehnutzung auf einer viel detaillierteren Ebene zu erfassen, so dass viel mehr Programme mit einem kleinen und oft unterschiedlichen Publikum abgedeckt werden können. Big Data an sich war jedoch nie für die Messung der Einschaltquoten gedacht. Wir werden uns mit den Vor- und Nachteilen von Big Data bei der Messung der Einschaltquoten befassen.
Die Grenzen von Big Data
Herausforderung Nr. 1: Große Daten sind nicht repräsentativ
Um vertrauensvoll handeln zu können, benötigen Medienkäufer und -verkäufer eine Messlösung, die die Bevölkerung in ihrer ganzen Vielfalt widerspiegelt: All age groups, races, ethnicities and many other key demographic and behavioral characteristics need to be present and proportional in the underlying data.
But size doesn’t guarantee representativeness. When analyzing installed counts in the Nielsen National TV panel, we’ve found that homes with RPD are disproportionately older and less racially diverse than the general population. Hispanic households, for instance, are underrepresented by about 30%, and heads of household under the age of 25 are almost entirely absent from RPD datasets. On the other hand, ACR datasets skew younger than the general population, and have more household members, too. Using statistical weighting in big data may hide the issue, but it can’t make up for the missing, unique viewing behaviors of underrepresented audiences.
To make matters worse, a measurement solution relying exclusively on RPD and ACR data would miss over-the-air2 and streaming-only households, which are a growing piece of the pie.
Herausforderung Nr. 2: Große Daten erfassen möglicherweise nicht das gesamte Sehverhalten
Selbst wenn sie repräsentative Haushalte enthielten, erfassen die RPD- und ACR-Datensätze nicht das Fernsehverhalten auf allen Set-Top-Boxen im Haushalt oder auf anderen Fernsehgeräten im Haushalt, die keine Smart-TVs sind. Diese zusätzlichen TV-Geräte können verschiedene Programme für verschiedene Familienmitglieder abspielen (z. B. Kochsendungen in der Küche oder Kindersendungen im Spielzimmer). Daher sind nicht nur die Big-Data-Haushalte nicht repräsentativ für die Bevölkerung, sondern auch die Big Data selbst sind nicht repräsentativ für das gesamte Fernsehverhalten in diesen Haushalten.

A frustrating issue for research companies relying on RPD is that the set-top box often remains on when the attached TV set is turned off. That ‘phantom’ tuning can exaggerate actual viewing by 145% to 260%, depending on the provider. There are models that can be implemented to compensate for it, but without a point of reference—like a panel informed by real viewing—it can be difficult to develop the right heuristics.
ACR isn’t immune from data quality issues either. Some smart TV streaming applications block ACR from capturing the content on screen while the app is in use. It may look like the TV set is off when in fact the content has been blocked by an app. And most providers monitor only a small portion of all available programming. In a recent analysis, we found that ACR providers currently monitor just 31% of all available stations, and 23% of recorded minutes are still coming from stations that aren’t monitored. With no reference fingerprints to compare to, that viewing goes unreported.
Herausforderung Nr. 3: Bei großen Daten fehlen demografische Daten der Zuschauer
RPD- und ACR-Anbieter erfassen Abstimmungsdaten von Millionen von Geräten, aber sie wissen nicht, wer zuschaut, und das ist es, was die Werbekunden letztlich wollen.
Eine Möglichkeit, dieses Manko auszugleichen, ist die Zusammenarbeit mit demografischen Drittanbietern. Diese Unternehmen führen Aufzeichnungen über die demografische Zusammensetzung jedes Haushalts im Land, und ein Forschungsunternehmen könnte versuchen, anhand der Gesamtsumme der Einschaltdaten in einem bestimmten Haushalt und der demografischen Zusammensetzung dieses Haushalts zu modellieren, wer was sieht.
Eine Kindersendung? Das muss von einem Kind im Haus sein. Ein Wrestling-Kampf? Das muss von einem männlichen Zuschauer stammen. Ohne einen realen Bezugspunkt zur Unterstützung des Algorithmus für maschinelles Lernen kann man leicht erkennen, wo diese Art der Modellierung versagen könnte. Es überrascht nicht, dass die Verlässlichkeit mit zunehmender Haushaltsgröße abnimmt, was sich auf die Genauigkeit der Daten für größere Familien mit Kindern, nicht-weiße und jüngere Zuschauer auswirkt.
Die Vorteile von panel
For brands and media companies looking for a stable, reliable audience measurement solution, the challenges outlined above are nonstarters. Panel data is critical to overcome those limitations.
At Nielsen, when we analyze RPD or ACR data, we’re able to identify what homes and devices are part of our panels, and compare the tuning data in those homes to the viewing behavior captured by our meters. By using our panels as a source of truth in those homes, we can pinpoint where big data deviates from the truth and develop robust models to adjust for those anomalies.
So haben wir beispielsweise eine Methode entwickelt, mit der wir herausfinden können, wo sich ein Gerät in einem Haus befindet, und seine Abstimmdaten bestimmten Zuschauern zuordnen können. Ein anderes Modell hilft uns festzustellen, ob ein Fernsehgerät ausgeschaltet ist, während die Set-Top-Box eingeschaltet ist. Ein weiteres Modell kann Geräteaktualisierungen aussortieren, die als zusätzliche Abstimmung registriert werden, sowie Situationen, in denen ein Gerät mehr als ein Abstimmungsereignis zur gleichen Zeit liefert.
Menschen, nicht Geräte

Letztlich geht es bei der Publikumsforschung um Menschen, nicht um Geräte.
Es besteht kein Zweifel daran, dass Big Data eine großartige Bereicherung für das Arsenal der Medienforscher darstellt. Sie ermöglichen eine detailliertere Berichterstattung, als dies in der Vergangenheit je möglich war. Aber sie sind von Natur aus fehlerhaft, voreingenommen und vor allem kurzsichtig: Sie erfasst Einstellungsdaten, nicht Betrachtungsdaten.
Um ihr Potenzial auszuschöpfen, müssen sie bereinigt, ausgefüllt, kalibriert und mit relevanten demografischen Daten angereichert werden. Genau hier kommen die panel ins Spiel. Maschinelles Lernen funktioniert am besten mit aussagekräftigen Trainings- und Validierungsdaten, und es gibt in der Branche keine besseren Trainingsdaten als die landesweit repräsentativen panel , die das Herzstück der heutigen Medienforschung bilden.
Nielsen’s Need to Know reviews the fundamentals of audience measurement and demystifies the media industry’s hottest topics. Read every article here.
Hinweis
1 A household rating is the percentage of all households in the country tuned to a given program.
2 Programming available via a “signal” from an antenna. Over the air (OTA) broadcasts were the first type of TV available.



