Need to Know: The pros and cons of big data in audience measurement

Big data terus menjadi berita utama, tetapi apa sebenarnya big data itu, dan mengapa hal ini menjadi anugerah sekaligus potensi penghalang bagi pengukuran audiens yang akurat? Kami menggali pro dan kontra dari big data dan cara-cara untuk membuatnya berhasil.

Apa yang dimaksud dengan big data?

Dalam dunia media linear, big data biasanya mengacu pada dua jenis aliran data yang dihasilkan oleh sistem yang memberikan program kepada pengguna akhir: Return-path data (RPD) dari dekoder kabel atau satelit (seperti Dish atau DirecTV), dan pengenalan konten otomatis (ACR) dari perangkat TV pintar yang terhubung ke internet (seperti Samsung atau Vizio).

Data ACR

Alih-alih mencatat perubahan saluran, teknologi ACR memonitor gambar pada layar TV. Gambar bertindak seperti sidik jari, yang dibandingkan dengan perpustakaan referensi yang besar untuk mengidentifikasi program atau iklan yang sebenarnya. Gambar diberi cap waktu untuk memahami kapan pemutaran sedang berlangsung.

Data RPD

Mencatat saluran apa yang disetel pada dekoder dan perubahan saluran pada waktu tertentu. Data tersebut dapat dicocokkan dengan jadwal TV untuk menentukan program apa yang diputar pada waktu tertentu, dan dengan data dari server iklan penyedia layanan atau mitranya untuk mencari tahu iklan apa yang sedang ditonton oleh rumah tangga tersebut.

Dalam kedua kasus tersebut, pengguna akhir mengizinkan pengumpulan data pada perangkat mereka. Kerja sama ini relatif tinggi karena pengumpulan data tidak hanya mendorong pengukuran, tetapi juga fitur-fitur yang sangat diinginkan seperti preferensi pengguna dan rekomendasi konten. Kumpulan data RPD atau ACR dapat mencakup lebih dari 30 juta perangkat.

Mengapa big data merupakan masalah besar?

There was a time when people had only a handful of channels to choose from. A household rating¹ over 60 (like the finale of M*A*S*H in 1983) or even 40 (like the Seinfeld finale in 1998) is unfathomable for a scripted show today. We live in a much more fragmented world, with a very long, long list of programming options.

That’s great for TV viewers, but it complicates things for panel-based research: In a nationwide panel with 101K people, a TV show with a 0.2 rating will be seen by 80 households, and perhaps only one in the Atlanta or Dallas metro area. With tens of millions of devices under measurement, big data makes it possible for research companies to report TV usage at a much more granular level, providing coverage for many more programs with small and often diverse audiences. But on its own, big data was never meant to be used for audience measurement. We will dive into some of the pros and cons of big data in audience measurement.

Keterbatasan data besar

Tantangan #1: Data besar tidak representatif

Untuk bertransaksi dengan percaya diri, pembeli dan penjual media membutuhkan solusi pengukuran yang mencerminkan populasi dalam segala keragamannya: Semua kelompok usia, ras, etnis, dan banyak karakteristik demografis dan perilaku utama lainnya harus ada dan proporsional dalam data yang mendasarinya.

But size doesn’t guarantee representativeness. When analyzing installed counts in the Nielsen National TV panel, we’ve found that homes with RPD are disproportionately older and less racially diverse than the general population. Hispanic households, for instance, are underrepresented by about 30%, and heads of household under the age of 25 are almost entirely absent from RPD datasets. On the other hand, ACR datasets skew younger than the general population, and have more household members, too. Using statistical weighting in big data may hide the issue, but it can’t make up for the missing, unique viewing behaviors of underrepresented audiences.

To make matters worse, a measurement solution relying exclusively on RPD and ACR data would miss over-the-air² and streaming-only households, which are a growing piece of the pie.

Tantangan #2: Data besar mungkin tidak menangkap semua perilaku menonton

Bahkan jika mereka menyertakan rumah tangga yang representatif, dataset RPD dan ACR tidak menangkap tontonan dari setiap set-top-box yang ada di rumah tangga atau dari perangkat TV lain di rumah yang bukan merupakan smart TV. Perangkat TV tambahan tersebut dapat memutar program yang berbeda untuk anggota keluarga yang berbeda (seperti acara memasak di dapur, atau program anak-anak di ruang bermain), sehingga tidak hanya rumah tangga dengan data besar yang tidak mewakili populasi, tetapi data besar itu sendiri juga tidak mewakili semua tontonan yang mungkin terjadi di rumah-rumah tersebut.

A frustrating issue for research companies relying on RPD is that the set-top box often remains on when the attached TV set is turned off. That ‘phantom’ tuning can exaggerate actual viewing by 145% to 260%, depending on the provider. There are models that can be implemented to compensate for it, but without a point of reference—like a panel informed by real viewing—it can be difficult to develop the right heuristics.

ACR isn’t immune from data quality issues either. Some smart TV streaming applications block ACR from capturing the content on screen while the app is in use. It may look like the TV set is off when in fact the content has been blocked by an app. And most providers monitor only a small portion of all available programming. In a recent analysis, we found that ACR providers currently monitor just 31% of all available stations, and 23% of recorded minutes are still coming from stations that aren’t monitored. With no reference fingerprints to compare to, that viewing goes unreported.

Tantangan #3: Data besar tidak memiliki demografi pemirsa

Penyedia RPD dan ACR menangkap data penyetelan dari jutaan perangkat, tetapi mereka tidak tahu siapa yang menonton, dan itulah yang pada akhirnya diminta oleh para pengiklan.

Salah satu cara untuk menutupi kekurangan itu adalah bekerja sama dengan pemasok demografis pihak ketiga. Perusahaan-perusahaan tersebut menyimpan catatan komposisi demografis setiap rumah tangga di negara tersebut, dan perusahaan riset dapat mencoba membuat model siapa yang menonton apa hanya dari jumlah total data penyetelan di rumah tangga tertentu dan komposisi demografis rumah tangga tersebut.

Program anak-anak? Itu pasti dari seorang anak di rumah. Pertandingan gulat? Itu pasti dari penonton pria. Tanpa titik referensi kehidupan nyata untuk membantu algoritme pembelajaran mesin, Anda dapat dengan mudah melihat di mana jenis pemodelan ini dapat rusak. Tidak mengherankan, model ini semakin tidak dapat diandalkan seiring dengan ukuran rumah tangga, dan pada akhirnya merusak keakuratan data untuk keluarga yang lebih besar, seperti keluarga yang memiliki anak-anak, pemirsa non-kulit putih, dan pemirsa yang lebih muda.

Keuntungan dari data panel

For brands and media companies looking for a stable, reliable audience measurement solution, the challenges outlined above are nonstarters. Panel data is critical to overcome those limitations.

At Nielsen, when we analyze RPD or ACR data, we’re able to identify what homes and devices are part of our panels, and compare the tuning data in those homes to the viewing behavior captured by our meters. By using our panels as a source of truth in those homes, we can pinpoint where big data deviates from the truth and develop robust models to adjust for those anomalies.

Sebagai contoh, kami mengembangkan metodologi untuk mengetahui lokasi perangkat di dalam rumah dan mencocokkan data penyetelannya dengan pemirsa tertentu. Model lain membantu kami menentukan apakah pesawat TV mati saat dekoder menyala. Model lainnya dapat memilah pembaruan perangkat yang terdaftar sebagai penyetelan tambahan, serta situasi di mana perangkat mengembalikan lebih dari satu acara penyetelan pada saat yang sama.

Orang, bukan perangkat

Pada akhirnya, riset audiens adalah tentang orang, bukan perangkat.

Tidak diragukan lagi bahwa data besar merupakan tambahan yang bagus untuk gudang peneliti media. Hal ini membuka pintu bagi pelaporan yang lebih terperinci daripada yang pernah ada sebelumnya. Namun, pada dasarnya hal ini memiliki kelemahan, bias, dan yang paling mendasar adalah kepicikan: Alat ini menangkap data penyetelan, bukan melihat data.

Untuk memenuhi potensinya, data ini perlu dibersihkan, diisi, dikalibrasi, dan diperkaya dengan data demografi yang relevan. Di sinilah data panel berperan. Pembelajaran mesin bekerja paling baik dengan data pelatihan dan validasi yang kuat, dan tidak ada data pelatihan yang lebih baik di industri ini selain data panel yang representatif secara nasional yang berada di jantung bisnis riset media saat ini.

Nielsen’s Need to Know reviews the fundamentals of audience measurement and demystifies the media industry’s hottest topics. Read every article here.

Note

¹ A household rating is the percentage of all households in the country tuned to a given program.
² Programming available via a “signal” from an antenna. Over the air (OTA) broadcasts were the first type of TV available.

Yang perlu diketahui: Pro dan kontra big data dalam pengukuran audiens

Apa yang dimaksud dengan big data?

Data ACR

Data RPD

Mengapa big data merupakan masalah besar?

Keterbatasan data besar

Tantangan #1: Data besar tidak representatif

Tantangan #2: Data besar mungkin tidak menangkap semua perilaku menonton

Tantangan #3: Data besar tidak memiliki demografi pemirsa

Keuntungan dari data panel

Orang, bukan perangkat

Note

Lanjutkan menjelajahi wawasan serupa

Mengapa pengiklan tidak bisa mengabaikan daya beli para veteran

Dari k-pop hingga Hari Jomblo: Data baru tentang relevansi budaya

The Record: Tren mendengarkan audio di AS kuartal ketiga

Produk kami dapat membantu Anda dan bisnis Anda

Analisis Media

Pengangkatan Merek

TV Linear Internasional

Temukan solusi yang tepat untuk bisnis Anda

Bagaimana kami bisa membantu?