I big data continuano a fare notizia, ma cosa sono esattamente e perché rappresentano sia un vantaggio che un potenziale ostacolo alla misurazione accurata dell'audience? Analizziamo i pro e i contro dei big data e i modi per sfruttarli al meglio.
Che cosa sono i big data?
Nel mondo dei media lineari, il termine "big data" si riferisce in genere a due tipi di flussi di dati prodotti dagli stessi sistemi che forniscono la programmazione agli utenti finali: i dati di ritorno (RPD) provenienti dai set-top box via cavo o via satellite (come Dish o DirecTV) e il riconoscimento automatico dei contenuti (ACR) proveniente dai televisori smart connessi a Internet (come Samsung o Vizio).


Dati ACR
Anziché registrare i cambiamenti di canale, la tecnologia ACR monitora le immagini sullo schermo televisivo. Le immagini fungono da impronte digitali, che vengono confrontate con un ampio archivio di riferimento per identificare il programma o lo spot pubblicitario effettivo. Le immagini vengono contrassegnate con un timbro temporale per capire quando avviene la riproduzione.
Dati RPD
Registra il canale sintonizzato dal set-top box e l'ora in cui avviene il cambio di canale. Questi dati possono essere abbinati al palinsesto televisivo per determinare quale programma è in onda in quel particolare momento e, insieme ai dati provenienti dai server pubblicitari del fornitore o dei suoi partner, per capire a quali pubblicità è esposta la famiglia.
In entrambi i casi, gli utenti finali consentono la raccolta dei dati sui propri dispositivi. La collaborazione è relativamente elevata perché la raccolta dei dati non solo consente la misurazione, ma anche funzionalità molto apprezzate come le preferenze degli utenti e i consigli sui contenuti. Un set di dati RPD o ACR può coprire ben oltre 30 milioni di dispositivi.
Perché i big data sono così importanti?

C'è stato un tempo in cui le persone potevano scegliere solo tra una manciata di canali. Unindice di ascolto1 superiore a 60 (come quello registrato dal finale di M*A*S*H nel 1983) o anche solo a 40 (come quello del finale di Seinfeld nel 1998) è oggi impensabile per una serie televisiva. Viviamo in un mondo molto più frammentato, con una lista infinita di opzioni di programmazione.
Questo è ottimo per i telespettatori, ma complica le cose per la ricerca basata su panel: in un panel nazionale con 101.000 persone, un programma televisivo con un indice di ascolto dello 0,2 sarà visto da 80 famiglie e forse solo da una nell'area metropolitana di Atlanta o Dallas. Con decine di milioni di dispositivi sottoposti a misurazione, i big data consentono alle società di ricerca di riportare l'utilizzo della TV a un livello molto più granulare, fornendo copertura per molti più programmi con un pubblico ridotto e spesso eterogeneo. Tuttavia, di per sé, i big data non sono mai stati pensati per essere utilizzati per la misurazione dell'audience. Approfondiremo alcuni dei pro e dei contro dei big data nella misurazione dell'audience.
I limiti dei big data
Sfida n. 1: i big data non sono rappresentativi
Per operare con sicurezza, gli acquirenti e i venditori di spazi pubblicitari hanno bisogno di una soluzione di misurazione che rifletta la popolazione in tutta la sua diversità: tutte le fasce d'età, le razze, le etnie e molte altre caratteristiche demografiche e comportamentali chiave devono essere presenti e proporzionali nei dati sottostanti.
Ma le dimensioni non garantiscono la rappresentatività. Analizzando i dati raccolti dal panel televisivo nazionale Nielsen, abbiamo scoperto che le famiglie con RPD sono in modo sproporzionato più anziane e meno eterogenee dal punto di vista razziale rispetto alla popolazione generale. Le famiglie ispaniche, ad esempio, sono sottorappresentate di circa il 30% e i capifamiglia di età inferiore ai 25 anni sono quasi del tutto assenti dai dati RPD. D'altra parte, i set di dati ACR sono più giovani rispetto alla popolazione generale e hanno anche un numero maggiore di membri per famiglia. L'uso della ponderazione statistica nei big data può nascondere il problema, ma non può compensare i comportamenti di visione unici e mancanti del pubblico sottorappresentato.
A peggiorare le cose, una soluzione di misurazione basata esclusivamente sui dati RPD e ACR tralascierebbe le famiglieche utilizzano solo la trasmissione via etere2 e lo streaming, che rappresentano una fetta sempre più consistente del mercato.
Sfida n. 2: i big data potrebbero non riuscire a catturare tutti i comportamenti di visualizzazione
Anche se includessero famiglie rappresentative, i set di dati RPD e ACR non rilevano la visione da ogni set-top box presente nella famiglia o da altri televisori presenti in casa che non sono smart TV. Questi televisori aggiuntivi possono trasmettere programmi diversi a diversi membri della famiglia (come programmi di cucina in cucina o programmi per bambini nella stanza dei giochi), quindi non solo le famiglie dei big data non sono rappresentative della popolazione, ma i big data stessi non sono rappresentativi di tutte le visualizzazioni che possono avvenire in quelle case.

Un problema frustrante per le società di ricerca che si affidano all'RPD è che il set-top box spesso rimane acceso anche quando il televisore collegato viene spento. Questa sintonizzazione "fantasma" può esagerare l'audience effettiva dal 145% al 260%, a seconda del fornitore. Esistono modelli che possono essere implementati per compensare questo fenomeno, ma senza un punto di riferimento, come un panel informato sull'audience reale, può essere difficile sviluppare le giuste euristiche.
Anche l'ACR non è immune da problemi di qualità dei dati. Alcune applicazioni di streaming per smart TV impediscono all'ACR di acquisire i contenuti sullo schermo mentre l'app è in uso. Può sembrare che il televisore sia spento, mentre in realtà il contenuto è stato bloccato da un'app. Inoltre, la maggior parte dei fornitori monitora solo una piccola parte di tutti i programmi disponibili. In una recente analisi, abbiamo scoperto che i fornitori di ACR monitorano attualmente solo il 31% di tutte le stazioni disponibili e che il 23% dei minuti registrati proviene ancora da stazioni non monitorate. Senza impronte digitali di riferimento con cui confrontare, tali visualizzazioni non vengono segnalate.
Sfida n. 3: i big data non includono i dati demografici degli spettatori
I fornitori di RPD e ACR acquisiscono dati di sintonizzazione da milioni di dispositivi, ma non sanno chi sta guardando, che è ciò che gli inserzionisti chiedono in ultima analisi.
Un modo per ovviare a questa lacuna è quello di collaborare con fornitori terzi di dati demografici. Queste aziende conservano un registro della composizione demografica di ogni famiglia del Paese, e una società di ricerca potrebbe tentare di modellare chi guarda cosa semplicemente dalla somma totale dei dati di ascolto in una determinata famiglia e dalla composizione demografica di quella famiglia.
Un programma per bambini? Deve essere stato visto da un bambino in casa. Un incontro di wrestling? Deve essere stato visto da un telespettatore maschio. Senza un punto di riferimento nella vita reale che aiuti l'algoritmo di apprendimento automatico, è facile capire dove questo tipo di modellizzazione potrebbe fallire. Non sorprende che diventi progressivamente meno affidabile con l'aumentare delle dimensioni del nucleo familiare, finendo per compromettere l'accuratezza dei dati relativi alle famiglie più numerose, come quelle con bambini, telespettatori non bianchi e più giovani.
I vantaggi dei dati panel
Per i marchi e le aziende mediatiche alla ricerca di una soluzione stabile e affidabile per la misurazione dell'audience, le sfide sopra descritte sono insormontabili. I dati del panel sono fondamentali per superare tali limitazioni.
In Nielsen, quando analizziamo i dati RPD o ACR, siamo in grado di identificare quali abitazioni e dispositivi fanno parte dei nostri panel e confrontare i dati di sintonizzazione in quelle abitazioni con il comportamento di visione rilevato dai nostri misuratori. Utilizzando i nostri panel come fonte di verità in quelle abitazioni, possiamo individuare dove i big data si discostano dalla realtà e sviluppare modelli robusti per correggere tali anomalie.
Ad esempio, abbiamo sviluppato una metodologia per individuare la posizione di un dispositivo all'interno di un'abitazione e abbinare i suoi dati di sintonizzazione a spettatori specifici. Un altro modello ci aiuta a determinare se un televisore è spento mentre il set-top box è acceso. Un altro modello ancora è in grado di distinguere gli aggiornamenti dei dispositivi che vengono registrati come sintonizzazioni extra, nonché le situazioni in cui un dispositivo restituisce più di un evento di sintonizzazione contemporaneamente.
Le persone, non i dispositivi

In definitiva, la ricerca sul pubblico riguarda le persone, non i dispositivi.
Non c'è dubbio che i big data siano una grande aggiunta all'arsenale dei ricercatori nel campo dei media. Aprono le porte a report più dettagliati di quanto fosse mai stato possibile in passato. Ma sono intrinsecamente imperfetti, distorti e, soprattutto, miopi: catturano i dati di sintonizzazione, non quelli di visualizzazione.
Per sfruttarne appieno il potenziale, è necessario pulirlo, completarlo, calibrarlo e arricchirlo con dati demografici rilevanti. È qui che entrano in gioco i dati panel. L'apprendimento automatico funziona al meglio con dati di addestramento e convalida solidi, e non esistono dati di addestramento migliori nel settore dei dati panel rappresentativi a livello nazionale che sono al centro dell'attuale attività di ricerca sui media.
Nielsen's Need to Know esamina i fondamenti della misurazione dell'audience e chiarisce i temi più scottanti del settore dei media. Leggi tutti gli articoli qui.
Nota
1 L'indice di ascolto è la percentuale di tutte le famiglie del Paese che guardano un determinato programma.
2 Programmazione disponibile tramite un "segnale" proveniente da un'antenna. Le trasmissioni via etere (OTA) sono state il primo tipo di televisione disponibile.



