Need to Know: The pros and cons of big data in audience measurement

I big data continuano a fare notizia, ma che cos'è esattamente e perché è sia un dono che un potenziale ostacolo a un'accurata misurazione dell'audience? Analizziamo i pro e i contro dei big data e i modi per farli funzionare.

Cosa sono i big data?

Nel mondo dei media lineari, i big data si riferiscono in genere a due tipi di flussi di dati prodotti dagli stessi sistemi che forniscono la programmazione agli utenti finali: I dati di ritorno (RPD) provenienti dai decoder via cavo o via satellite (come Dish o DirecTV) e il riconoscimento automatico dei contenuti (ACR) provenienti dalle smart TV collegate a Internet (come Samsung o Vizio).

Dati ACR

Piuttosto che un registro dei cambi di canale, la tecnologia ACR monitora le immagini sullo schermo televisivo. Le immagini agiscono come impronte digitali, che vengono confrontate con un'ampia libreria di riferimento per identificare il programma o lo spot in questione. Le immagini vengono registrate temporalmente per capire quando avviene la riproduzione.

Dati RPD

Registra su quale canale è sintonizzato il set-top box e a che ora avviene il cambio di canale. Questi dati possono essere abbinati a un palinsesto televisivo per determinare quale programma è in onda in quel particolare momento e ai dati dei server pubblicitari del provider o dei suoi partner per capire a quale pubblicità è esposta la famiglia.

In entrambi i casi, gli utenti finali consentono la raccolta dei dati sui loro dispositivi. La collaborazione è relativamente alta perché la raccolta dei dati non serve solo per le misurazioni, ma anche per funzioni molto desiderate come le preferenze degli utenti e le raccomandazioni di contenuti. Un set di dati RPD o ACR può coprire ben oltre 30 milioni di dispositivi.

Perché i big data sono un problema?

There was a time when people had only a handful of channels to choose from. A household rating¹ over 60 (like the finale of M*A*S*H in 1983) or even 40 (like the Seinfeld finale in 1998) is unfathomable for a scripted show today. We live in a much more fragmented world, with a very long, long list of programming options.

That’s great for TV viewers, but it complicates things for panel-based research: In a nationwide panel with 101K people, a TV show with a 0.2 rating will be seen by 80 households, and perhaps only one in the Atlanta or Dallas metro area. With tens of millions of devices under measurement, big data makes it possible for research companies to report TV usage at a much more granular level, providing coverage for many more programs with small and often diverse audiences. But on its own, big data was never meant to be used for audience measurement. We will dive into some of the pros and cons of big data in audience measurement.

I limiti dei big data

Sfida n. 1: i grandi dati non sono rappresentativi

Per effettuare transazioni in tutta tranquillità, gli acquirenti e i venditori di media hanno bisogno di una soluzione di misurazione che rifletta la popolazione in tutta la sua diversità: Tutti i gruppi di età, le razze, le etnie e molte altre caratteristiche demografiche e comportamentali chiave devono essere presenti e proporzionali nei dati sottostanti.

But size doesn’t guarantee representativeness. When analyzing installed counts in the Nielsen National TV panel, we’ve found that homes with RPD are disproportionately older and less racially diverse than the general population. Hispanic households, for instance, are underrepresented by about 30%, and heads of household under the age of 25 are almost entirely absent from RPD datasets. On the other hand, ACR datasets skew younger than the general population, and have more household members, too. Using statistical weighting in big data may hide the issue, but it can’t make up for the missing, unique viewing behaviors of underrepresented audiences.

To make matters worse, a measurement solution relying exclusively on RPD and ACR data would miss over-the-air² and streaming-only households, which are a growing piece of the pie.

Sfida n. 2: i grandi dati potrebbero non catturare tutti i comportamenti di visualizzazione

Anche se includessero famiglie rappresentative, i dati RPD e ACR non rilevano la visione da tutti i set-top box della famiglia o da altri televisori presenti in casa che non siano smart TV. Questi apparecchi aggiuntivi possono trasmettere programmi diversi a membri diversi della famiglia (come programmi di cucina in cucina o programmi per bambini nella stanza dei giochi), quindi non solo le famiglie con i big data non sono rappresentative della popolazione, ma i big data stessi non sono rappresentativi di tutte le visualizzazioni che possono avvenire in quelle case.

A frustrating issue for research companies relying on RPD is that the set-top box often remains on when the attached TV set is turned off. That ‘phantom’ tuning can exaggerate actual viewing by 145% to 260%, depending on the provider. There are models that can be implemented to compensate for it, but without a point of reference—like a panel informed by real viewing—it can be difficult to develop the right heuristics.

ACR isn’t immune from data quality issues either. Some smart TV streaming applications block ACR from capturing the content on screen while the app is in use. It may look like the TV set is off when in fact the content has been blocked by an app. And most providers monitor only a small portion of all available programming. In a recent analysis, we found that ACR providers currently monitor just 31% of all available stations, and 23% of recorded minutes are still coming from stations that aren’t monitored. With no reference fingerprints to compare to, that viewing goes unreported.

Sfida n. 3: i big data mancano dei dati demografici degli spettatori

I fornitori di RPD e ACR acquisiscono i dati di sintonizzazione da milioni di dispositivi, ma non sanno chi li sta guardando, che è ciò che gli inserzionisti chiedono in ultima analisi.

Un modo per ovviare a questa mancanza è quello di collaborare con fornitori demografici terzi. Queste aziende mantengono un registro della composizione demografica di ogni famiglia del Paese, e una società di ricerca potrebbe tentare di modellare chi guarda cosa semplicemente dalla somma totale dei dati di sintonizzazione di una determinata famiglia e della composizione demografica di quella famiglia.

Un programma per bambini? Deve essere di un bambino in casa. Un incontro di wrestling? Deve provenire da uno spettatore maschio. Senza un punto di riferimento reale che aiuti l'algoritmo di apprendimento automatico, è facile capire dove questo tipo di modellazione potrebbe fallire. Non sorprende che l'affidabilità diminuisca progressivamente con l'aumentare delle dimensioni del nucleo familiare, il che finisce per compromettere l'accuratezza dei dati per le famiglie più numerose, come quelle con bambini, gli spettatori non bianchi e quelli più giovani.

I vantaggi dei dati panel

For brands and media companies looking for a stable, reliable audience measurement solution, the challenges outlined above are nonstarters. Panel data is critical to overcome those limitations.

At Nielsen, when we analyze RPD or ACR data, we’re able to identify what homes and devices are part of our panels, and compare the tuning data in those homes to the viewing behavior captured by our meters. By using our panels as a source of truth in those homes, we can pinpoint where big data deviates from the truth and develop robust models to adjust for those anomalies.

Ad esempio, abbiamo sviluppato una metodologia per capire dove si trova un dispositivo all'interno di una casa e abbinare i suoi dati di sintonizzazione a spettatori specifici. Un altro modello ci aiuta a determinare se un televisore è spento mentre il set-top box è acceso. Un altro modello ancora è in grado di distinguere gli aggiornamenti dei dispositivi che vengono registrati come sintonizzazioni extra, così come le situazioni in cui un dispositivo restituisce più di un evento di sintonizzazione allo stesso tempo.

Persone, non dispositivi

In definitiva, la ricerca sul pubblico riguarda le persone, non i dispositivi.

Non c'è dubbio che i big data siano una grande aggiunta all'arsenale del ricercatore dei media. Aprono le porte a un reporting più granulare di quanto fosse possibile in passato. Ma è intrinsecamente difettoso, parziale e, soprattutto, miope: Cattura i dati di sintonizzazione, non quelli di visualizzazione.

Per sfruttare il suo potenziale, i dati devono essere ripuliti, completati, calibrati e arricchiti con dati demografici rilevanti. È qui che entrano in gioco i dati dei panel. L'apprendimento automatico funziona meglio con dati di formazione e convalida solidi, e nel settore non esistono dati di formazione migliori dei dati dei panel rappresentativi a livello nazionale che costituiscono il cuore dell'odierna attività di ricerca sui media.

Nielsen’s Need to Know reviews the fundamentals of audience measurement and demystifies the media industry’s hottest topics. Read every article here.

Nota

¹ A household rating is the percentage of all households in the country tuned to a given program.
² Programming available via a “signal” from an antenna. Over the air (OTA) broadcasts were the first type of TV available.

Da sapere: I pro e i contro dei big data nella misurazione dell'audience

Cosa sono i big data?

Dati ACR

Dati RPD

Perché i big data sono un problema?

I limiti dei big data

Sfida n. 1: i grandi dati non sono rappresentativi

Sfida n. 2: i grandi dati potrebbero non catturare tutti i comportamenti di visualizzazione

Sfida n. 3: i big data mancano dei dati demografici degli spettatori

I vantaggi dei dati panel

Persone, non dispositivi

Nota

Continua a sfogliare approfondimenti simili

Perché gli inserzionisti non possono trascurare il potere d'acquisto dei veterani

Dal k-pop al Singles' Day: I nuovi dati di rilevanza culturale

Il record: Tendenze di ascolto audio nel terzo trimestre degli Stati Uniti

I nostri prodotti possono aiutare voi e la vostra azienda

Analisi dei media

Marchio Lift

TV lineare internazionale

Trovate la soluzione giusta per la vostra azienda

Come possiamo aiutarvi?