Need to Know: The pros and cons of big data in audience measurement

O big data está sempre nas manchetes, mas o que ele é exatamente e por que é uma dádiva e um possível impedimento para a medição precisa do público? Analisamos os prós e os contras do big data e as maneiras de fazê-lo funcionar.

O que é big data?

No mundo da mídia linear, o big data geralmente se refere a dois tipos de fluxos de dados produzidos pelos próprios sistemas que fornecem a programação aos usuários finais: Dados de caminho de retorno (RPD) de decodificadores de cabo ou satélite (como Dish ou DirecTV) e reconhecimento automático de conteúdo (ACR) de aparelhos de TV inteligentes conectados à Internet (como Samsung ou Vizio).

Dados do ACR

Em vez de um registro de mudanças de canal, a tecnologia ACR monitora as imagens na tela da TV. As imagens funcionam como impressões digitais, que são comparadas a uma grande biblioteca de referência para identificar o que é de fato o programa ou o anúncio. As imagens são marcadas com o tempo para entender quando a reprodução está ocorrendo.

Dados de RPD

Registra em qual canal o decodificador está sintonizado e a que horas as mudanças de canal estão ocorrendo. Esses dados podem ser combinados com uma programação de TV para determinar qual programa está sendo reproduzido naquele momento específico e com dados dos servidores de anúncios do provedor ou de seus parceiros para descobrir a que publicidade a residência está exposta.

Em ambos os casos, os usuários finais permitem a coleta de dados em seus dispositivos. A cooperação é relativamente alta porque a coleta de dados impulsiona não apenas a medição, mas também recursos muito desejados, como preferências do usuário e recomendações de conteúdo. Um conjunto de dados RPD ou ACR pode abranger bem mais de 30 milhões de dispositivos.

Por que o big data é importante?

There was a time when people had only a handful of channels to choose from. A household rating¹ over 60 (like the finale of M*A*S*H in 1983) or even 40 (like the Seinfeld finale in 1998) is unfathomable for a scripted show today. We live in a much more fragmented world, with a very long, long list of programming options.

Isso é ótimo para os espectadores de TV, mas complica as coisas para pesquisas baseadas em painéis: Em um painel nacional com 101 mil pessoas, um programa de TV com uma classificação de 0,2 será visto por 80 residências, e talvez apenas uma na área metropolitana de Atlanta ou Dallas. Com dezenas de milhões de dispositivos sob medição, o big data possibilita que as empresas de pesquisa relatem o uso da TV em um nível muito mais granular, fornecendo cobertura para muito mais programas com públicos pequenos e, muitas vezes, diversificados. Mas, por si só, o big data nunca foi planejado para ser usado na medição de audiência. Vamos nos aprofundar em alguns dos prós e contras do big data na medição de audiência.

As limitações do big data

Desafio nº 1: Big data não é representativo

Para fazer transações com confiança, os compradores e vendedores de mídia precisam de uma solução de medição que reflita a população em toda a sua diversidade: Todas as faixas etárias, raças, etnias e muitas outras características demográficas e comportamentais importantes precisam estar presentes e proporcionais nos dados subjacentes.

But size doesn’t guarantee representativeness. When analyzing installed counts in the Nielsen National TV panel, we’ve found that homes with RPD are disproportionately older and less racially diverse than the general population. Hispanic households, for instance, are underrepresented by about 30%, and heads of household under the age of 25 are almost entirely absent from RPD datasets. On the other hand, ACR datasets skew younger than the general population, and have more household members, too. Using statistical weighting in big data may hide the issue, but it can’t make up for the missing, unique viewing behaviors of underrepresented audiences.

To make matters worse, a measurement solution relying exclusively on RPD and ACR data would miss over-the-air² and streaming-only households, which are a growing piece of the pie.

Desafio nº 2: O big data pode não capturar todo o comportamento de visualização

Mesmo que incluíssem residências representativas, os conjuntos de dados RPD e ACR não capturam a visualização de todos os decodificadores da residência ou de outros aparelhos de TV da residência que não sejam smart TVs. Esses aparelhos de TV adicionais podem reproduzir programas diferentes para membros diferentes da família (como programas de culinária na cozinha ou programas infantis na sala de jogos), portanto, não apenas os domicílios com big data não são representativos da população, mas o big data em si não é representativo de toda a visualização que pode estar ocorrendo nesses domicílios.

A frustrating issue for research companies relying on RPD is that the set-top box often remains on when the attached TV set is turned off. That ‘phantom’ tuning can exaggerate actual viewing by 145% to 260%, depending on the provider. There are models that can be implemented to compensate for it, but without a point of reference—like a panel informed by real viewing—it can be difficult to develop the right heuristics.

ACR isn’t immune from data quality issues either. Some smart TV streaming applications block ACR from capturing the content on screen while the app is in use. It may look like the TV set is off when in fact the content has been blocked by an app. And most providers monitor only a small portion of all available programming. In a recent analysis, we found that ACR providers currently monitor just 31% of all available stations, and 23% of recorded minutes are still coming from stations that aren’t monitored. With no reference fingerprints to compare to, that viewing goes unreported.

Desafio nº 3: O Big Data não contém dados demográficos dos espectadores

Os provedores de RPD e ACR capturam dados de sintonia de milhões de dispositivos, mas não sabem quem está assistindo, que é o que os anunciantes estão pedindo.

Uma maneira de compensar essa deficiência é formar uma equipe com fornecedores demográficos terceirizados. Essas empresas mantêm um registro da composição demográfica de cada residência no país, e uma empresa de pesquisa pode tentar modelar quem está assistindo o quê simplesmente a partir da soma total dos dados de sintonia em uma determinada residência e da composição demográfica dessa residência.

Um programa para crianças? Deve ser de uma criança da casa. Um jogo de luta livre? Deve ser de um espectador do sexo masculino. Sem um ponto de referência da vida real para auxiliar o algoritmo de aprendizado de máquina, você pode ver facilmente onde esse tipo de modelagem pode falhar. Sem surpresa, ele se torna progressivamente menos confiável com o tamanho da família, o que acaba prejudicando a precisão dos dados para famílias maiores, como aquelas com crianças, espectadores não brancos e mais jovens.

As vantagens dos dados de painel

For brands and media companies looking for a stable, reliable audience measurement solution, the challenges outlined above are nonstarters. Panel data is critical to overcome those limitations.

At Nielsen, when we analyze RPD or ACR data, we’re able to identify what homes and devices are part of our panels, and compare the tuning data in those homes to the viewing behavior captured by our meters. By using our panels as a source of truth in those homes, we can pinpoint where big data deviates from the truth and develop robust models to adjust for those anomalies.

Por exemplo, desenvolvemos uma metodologia para descobrir onde um dispositivo está localizado dentro de uma casa e combinar seus dados de sintonia com espectadores específicos. Outro modelo nos ajuda a determinar se um aparelho de TV está desligado enquanto o decodificador está ligado. Outro modelo ainda pode classificar as atualizações do dispositivo registradas como sintonia extra, bem como as situações em que um dispositivo retorna mais de um evento de sintonia ao mesmo tempo.

Pessoas, não dispositivos

Em última análise, a pesquisa de público-alvo é sobre pessoas, não sobre dispositivos.

Não há dúvida de que o big data é um ótimo complemento para o arsenal do pesquisador de mídia. Ele abre a porta para relatórios mais granulares do que jamais foi possível no passado. Mas ele é inerentemente falho, tendencioso e, fundamentalmente, míope: Ele captura dados de ajuste, não de visualização.

Para atingir seu potencial, ele precisa ser limpo, preenchido, calibrado e enriquecido com dados demográficos relevantes. É aí que entram os dados de painel. O aprendizado de máquina funciona melhor com dados sólidos de treinamento e validação, e não há melhores dados de treinamento no setor do que os dados de painel nacionalmente representativos que estão no centro do negócio atual de pesquisa de mídia.

Nielsen’s Need to Know reviews the fundamentals of audience measurement and demystifies the media industry’s hottest topics. Read every article here.

Note

¹ A household rating is the percentage of all households in the country tuned to a given program.
² Programming available via a “signal” from an antenna. Over the air (OTA) broadcasts were the first type of TV available.

O que você precisa saber: Os prós e contras do big data na medição de audiência

O que é big data?

Dados do ACR

Dados de RPD

Por que o big data é importante?

As limitações do big data

Desafio nº 1: Big data não é representativo

Desafio nº 2: O big data pode não capturar todo o comportamento de visualização

Desafio nº 3: O Big Data não contém dados demográficos dos espectadores

As vantagens dos dados de painel

Pessoas, não dispositivos

Note

Continue navegando por ideias semelhantes

Por que os anunciantes não podem ignorar o poder de compra dos veteranos

Do k-pop ao Dia dos Solteiros: Os novos dados de relevância cultural

O registro: Tendências de audição de áudio do terceiro trimestre nos EUA

Nossos produtos podem ajudar você e sua empresa

Análise de mídia

Elevador da marca

TV Linear Internacional

Encontre a solução certa para sua empresa

Como podemos ajudar?