The not so hidden problem with big data sets

There’s been a lot of energy and excitement in media circles of late about the future of measurement and the promise of big data. At Nielsen, we’ve long understood the value of big data, in fact just last month we announced additional details around how we are adding it to our national TV measurement service.

Sappiamo anche che nessun pannello è perfetto, come hanno dimostrato gli ultimi mesi.

Ma quando i nostri team di data scientist sentono alcune delle grandi affermazioni sul fatto che i big data salveranno la situazione e risolveranno tutti i problemi percepiti nel settore, è difficile non essere scettici.

That’s because, for all it’s value and amazing potential, the big data sets that the industry currently has access to have very real limitations.

Un esempio recente e rilevante

Dopo aver perso l'accesso ai Portable People Meters di Nielsen, Comscore ha comunicato che ora utilizzerà i set di dati di ConsumerView di Experian per identificare i singoli spettatori ai fini della misurazione. L'annuncio è stato presentato dalla stampa specializzata come un progresso: dopo tutto, se i big data sono il futuro, ogni cambiamento in questa direzione deve essere positivo.

Purtroppo per i loro clienti e per i consumatori non è così.

Esiste una manciata di fornitori di identità di terze parti che offrono la possibilità di abbinare set di dati basati su informazioni di identificazione personale e di fornire caratteristiche demografiche, sia raccolte direttamente che modellate.

Noi di Nielsen controlliamo regolarmente questi dati. Lo facciamo misurando direttamente le informazioni provenienti dai nostri solidi panel per convalidare l'accuratezza di questi set di dati nel 1) abbinare correttamente una famiglia e 2) riportare accuratamente i dati demografici e le caratteristiche.

Quello che troviamo di solito dovrebbe far riflettere gli inserzionisti.

La maggior parte dei set di dati oggi disponibili si basa su informazioni di fatturazione o sulla raccolta di comportamenti online, non su profili demografici. Non dispongono di tutti i dettagli relativi all'esatta identità delle persone presenti nelle loro liste, dall'età al reddito, alla razza e all'etnia, come avviene con un panel solido. Questi set di dati, essendo creati da trasferimenti da macchina a macchina, aumentano anche la possibilità di sprechi e frodi.

Per questo motivo, il livello di certezza che possono fornire su chi vive effettivamente in una determinata famiglia è limitato. E non sono in grado di dire chi, all'interno di una determinata abitazione, sta guardando un determinato programma in un momento specifico.

Anche quando si triangolano questi dati con altre fonti, è quasi garantito che le stime presentino enormi lacune ed errori. Ciò può essere accettabile se il caso d'uso è il targeting, ma questi dati da soli non forniscono l'accuratezza, l'obiettività e la trasparenza necessarie per effettuare misurazioni.

Perché è importante

Che cosa significa in pratica? Beh, ha alcune implicazioni.

Nel caso di Comscore, il passaggio dai nostri Personal People Meters, che in realtà applicano microfoni a ~100.000 persone reali e verificate e tracciano esattamente ciò che guardano,

a un modello che utilizza i dati di fatturazione per fornire stime su chi, all'interno di un'abitazione, potrebbe guardare un determinato programma in un determinato momento, il risultato sarà una lettura meno accurata di chi sta guardando cosa.

Ma l'implicazione forse più grande è che questo spostamento porterà l'industria ad allontanarsi ancora di più dal catturare una vera rappresentazione del Paese.

Sappiamo che molti di questi tipi di dati sono in grado di fornire dati migliori sui nuclei familiari quando le persone che vi abitano sono proprietarie della loro casa e vi risiedono da molto tempo. E questo è logico. Il problema è che i proprietari di case da lungo tempo tendono a essere più bianchi, più benestanti e significativamente più anziani rispetto alla nazione nel suo complesso. Questi dati, per loro stessa natura, sottovalutano i neri, le persone a basso reddito e i più giovani, in un momento in cui tutti questi segmenti sono in crescita, non in diminuzione.

Lo stesso vale per le serie di dati costruite a partire dai dati del decoder, che tendono a sovrastimare i consumatori più abbienti, disposti a pagare di più per i pacchetti via cavo, escludendo così in modo sproporzionato i consumatori a basso reddito, che sono un target importante per molti operatori di marketing.

L'industria dei media ha giustamente fatto della rappresentazione accurata delle comunità nere e brune una priorità centrale. In Nielsen i nostri risultati in questo senso non sono stati perfetti per decenni, ma oggi abbiamo la visione più accurata e avanzata della nazione così com'è veramente.

Gli strumenti di misurazione derivati dai big data che non sono supportati da un panel rappresentativo, convalidato e verificato non possono vantare questa affermazione. I panel Nielsen sono in grado di individuare molti dati demografici all'interno del censimento con una variabilità dell'1%, ma le opzioni basate sui big data non sono nemmeno lontanamente paragonabili a questo. Il settore deve essere aperto e onesto con se stesso riguardo alle sfide che i big data presentano quando si tratta di rappresentazione.

Un problema più ampio

Per essere chiari, questo non è solo un problema di Comscore. È un problema che riguarda tutti i set di big data attualmente in circolazione.

In August of 2020 the ANA, in partnership with the MRC and Sequent Partners, used Nielsen data as a benchmark in a study designed to understand the degree to which the multicultural audiences were being accurately represented in media targeting. The study looked at an aggregated collection of high-quality marketing and media data and sought to understand how accurately it was targeting Black, Brown and Asian audiences. The findings were troubling, but not at all surprising to us.

Lo studio ha rilevato che i grandi set di dati su cui si basa il settore non sono all'altezza del compito di indirizzare con precisione queste comunità critiche. In parte perché i set di dati non sono stati progettati per catturare dati ricchi su chi sono veramente questi consumatori, come lo sono i panel robusti, c'è stata una dilagante rappresentazione errata e sottorappresentata nei dati.

Now contrast that with Nielsen’s robust panels, which provide a wealth of directly collected information from real-life people, representative of the entire U.S. population. Who lives in the home? How old are they? What race and ethnicity do they identify as? Who is watching the television at a given point in time? Nielsen’s panel answers these questions.

Anche in questo caso, i gruppi di esperti non sono perfetti, ma c'è un motivo per cui altri settori, in particolare quello farmaceutico, utilizzano approcci simili ai gruppi di esperti per l'approvazione dei farmaci. Questo perché, quando la posta in gioco è alta, non c'è alternativa a persone reali e verificate.

Sappiamo che molti operatori del settore sono entusiasti della promessa dei big data, e lo siamo anche noi. Ma come settore dobbiamo essere onesti su ciò che i big data possono o non possono risolvere. E anche noi siamo consapevoli che il futuro della misurazione dei media è un approccio che combina la portata dei big data con i dati personali verificati di panel solidi.

This article originally appeared on Next TV.

Il problema non così nascosto delle grandi serie di dati

Un esempio recente e rilevante

Perché è importante

Un problema più ampio

Continua a sfogliare approfondimenti simili

Buon Halloween! Tendenze televisive del cinema horror in questa stagione spettrale

La TV connessa sta trasformando la pubblicità

Cinque tendenze da tenere d'occhio in vista degli Upfronts 2025

I nostri prodotti possono aiutare voi e la vostra azienda

Marchio Lift

TV lineare internazionale

Misurazione TV nazionale e locale degli Stati Uniti

Trovate la soluzione giusta per la vostra azienda

Come possiamo aiutarvi?