Big data terus menjadi sorotan, tetapi apa sebenarnya big data itu, dan mengapa big data bisa menjadi berkah sekaligus hambatan potensial dalam pengukuran audiens yang akurat? Kami mengulas kelebihan dan kekurangan big data serta cara-cara untuk memanfaatkannya secara optimal. Â
Apa itu big data?
Dalam dunia media linear, big data umumnya merujuk pada dua jenis aliran data yang dihasilkan oleh sistem yang sama yang menyalurkan program ke pengguna akhir: Data jalur balik (RPD) dari set-top box kabel atau satelit (seperti Dish atau DirecTV), dan pengenalan konten otomatis (ACR) dari televisi pintar yang terhubung ke internet (seperti Samsung atau Vizio).


Data ACR
Alih-alih mencatat perubahan saluran, teknologi ACR memantau gambar yang ditampilkan di layar TV. Gambar-gambar tersebut berfungsi seperti sidik jari, yang dibandingkan dengan perpustakaan referensi besar untuk mengidentifikasi program atau iklan yang sebenarnya. Gambar-gambar tersebut diberi cap waktu untuk memahami kapan pemutaran terjadi.
Data RPD
Mencatat saluran mana yang sedang disetel oleh set-top box dan waktu pergantian saluran. Data tersebut dapat dipadukan dengan jadwal TV untuk menentukan program apa yang sedang tayang pada waktu tertentu, serta dengan data dari server iklan penyedia layanan atau mitranya untuk mengetahui iklan apa yang terpapar kepada rumah tangga tersebut.
Dalam kedua kasus tersebut, pengguna akhir mengizinkan pengumpulan data di perangkat mereka. Tingkat kerja sama relatif tinggi karena pengumpulan data tidak hanya mendukung pengukuran tetapi juga fitur-fitur yang sangat diinginkan seperti preferensi pengguna dan rekomendasi konten. Sebuah dataset RPD atau ACR mungkin mencakup lebih dari 30 juta perangkat.
Mengapa big data begitu penting?

Dulu, orang hanya memiliki beberapa saluran televisi untuk dipilih.Rating rumahtangga1 di atas 60 (seperti episode terakhir M*A*S*H pada 1983) atau bahkan 40 (seperti episode terakhir Seinfeld pada 1998) adalah hal yang tak terbayangkan untuk acara televisi berskrip saat ini. Kita hidup di dunia yang jauh lebih terfragmentasi, dengan daftar program yang sangat panjang dan beragam.
Itu bagus untuk penonton TV, tetapi hal ini mempersulit penelitian berbasis panel: Dalam panel nasional dengan 101.000 orang, acara TV dengan rating 0,2 akan ditonton oleh 80 rumah tangga, dan mungkin hanya satu di wilayah metropolitan Atlanta atau Dallas. Dengan puluhan juta perangkat yang diukur, big data memungkinkan perusahaan riset untuk melaporkan penggunaan TV pada tingkat yang jauh lebih rinci, memberikan cakupan untuk banyak program dengan audiens kecil dan seringkali beragam. Namun, big data sendiri tidak pernah dimaksudkan untuk digunakan dalam pengukuran audiens. Kami akan membahas beberapa kelebihan dan kekurangan big data dalam pengukuran audiens.
Batasan-batasan big data
Tantangan #1: Data besar tidak representatif
Untuk bertransaksi dengan percaya diri, pembeli dan penjual media memerlukan solusi pengukuran yang mencerminkan populasi dalam segala keragamannya: Semua kelompok usia, ras, etnis, dan banyak karakteristik demografis dan perilaku lainnya harus hadir dan proporsional dalam data dasar.
Namun, ukuran tidak menjamin representativitas. Saat menganalisis jumlah pemasangan di panel TV nasional Nielsen, kami menemukan bahwa rumah tangga dengan RPD secara tidak proporsional lebih tua dan kurang beragam secara rasial dibandingkan populasi umum. Rumah tangga Hispanik, misalnya, kurang terwakili sekitar 30%, dan kepala rumah tangga di bawah usia 25 tahun hampir sama sekali tidak ada dalam dataset RPD. Di sisi lain, dataset ACR cenderung lebih muda dibandingkan populasi umum dan memiliki lebih banyak anggota rumah tangga. Penggunaan penimbangan statistik pada big data mungkin dapat menyembunyikan masalah ini, tetapi tidak dapat menggantikan perilaku menonton yang unik dan tidak terwakili dari audiens yang kurang terwakili.
Yang lebih parah lagi, solusi pengukuran yang hanya mengandalkan data RPD dan ACR akan melewatkan rumah tanggayang hanyamenerima siaran melalui udara2 dan streaming, yang merupakan bagian yang semakin besar dari pasar.
Tantangan #2: Big data mungkin tidak dapat menangkap semua perilaku penonton.
Meskipun dataset RPD dan ACR mencakup rumah tangga yang representatif, dataset tersebut tidak mencatat pemirsa dari setiap set-top box yang ada di rumah tangga atau dari televisi lain di rumah yang bukan smart TV. Perangkat TV tambahan tersebut mungkin menayangkan program yang berbeda untuk anggota keluarga yang berbeda (seperti acara masak di dapur, atau program anak-anak di ruang bermain), sehingga tidak hanya rumah tangga big data tidak mewakili populasi, tetapi big data itu sendiri tidak mewakili semua aktivitas menonton yang mungkin terjadi di rumah-rumah tersebut.

Masalah yang menjengkelkan bagi perusahaan riset yang bergantung pada RPD adalah bahwa set-top box sering kali tetap menyala meskipun televisi yang terhubung telah dimatikan. Penyesuaian 'hantu' ini dapat memperbesar angka penonton sebenarnya hingga 145% hingga 260%, tergantung pada penyedia layanan. Ada model yang dapat diterapkan untuk mengatasinya, tetapi tanpa titik acuan—seperti panel yang didasarkan pada data penonton sebenarnya—sulit untuk mengembangkan heuristik yang tepat.
ACR juga tidak kebal terhadap masalah kualitas data. Beberapa aplikasi streaming TV pintar memblokir ACR untuk menangkap konten yang ditampilkan di layar saat aplikasi tersebut digunakan. Hal ini dapat terlihat seolah-olah TV mati, padahal sebenarnya konten tersebut diblokir oleh aplikasi. Dan sebagian besar penyedia layanan hanya memantau sebagian kecil dari semua program yang tersedia. Dalam analisis terbaru, kami menemukan bahwa penyedia ACR saat ini hanya memantau 31% dari semua stasiun yang tersedia, dan 23% dari menit tayangan yang direkam masih berasal dari stasiun yang tidak dipantau. Tanpa sidik jari referensi untuk dibandingkan, tayangan tersebut tidak dilaporkan.
Tantangan #3: Data besar tidak mencakup demografi penonton.
Penyedia RPD dan ACR mengumpulkan data penyesuaian dari jutaan perangkat, tetapi mereka tidak tahu siapa yang menonton, yang merupakan hal yang pada akhirnya diinginkan oleh pengiklan.
Salah satu cara untuk mengatasi kelemahan tersebut adalah dengan bekerja sama dengan penyedia data demografis pihak ketiga. Perusahaan-perusahaan tersebut menyimpan catatan komposisi demografis setiap rumah tangga di negara tersebut, dan sebuah perusahaan riset mungkin mencoba memodelkan siapa yang menonton apa hanya berdasarkan total data penonton di suatu rumah tangga dan komposisi demografis rumah tangga tersebut.
Program anak-anak? Itu pasti dari anak di rumah. Pertandingan gulat? Itu pasti dari penonton laki-laki. Tanpa titik acuan nyata untuk membantu algoritma pembelajaran mesin, Anda bisa dengan mudah melihat di mana model semacam ini mungkin gagal. Tidak mengherankan, keandalan model ini semakin menurun seiring dengan ukuran rumah tangga, dan hal ini akhirnya merusak akurasi data untuk keluarga besar, seperti keluarga dengan anak-anak, penonton non-kulit putih, dan penonton yang lebih muda.Â
Keuntungan dari data panelÂ
Bagi merek dan perusahaan media yang mencari solusi pengukuran audiens yang stabil dan andal, tantangan yang dijelaskan di atas tidak dapat diabaikan. Data panel sangat penting untuk mengatasi batasan-batasan tersebut.
Di Nielsen, saat kami menganalisis data RPD atau ACR, kami dapat mengidentifikasi rumah dan perangkat mana yang menjadi bagian dari panel kami, serta membandingkan data penontonan di rumah-rumah tersebut dengan perilaku penontonan yang terekam oleh meter kami. Dengan menggunakan panel kami sebagai sumber kebenaran di rumah-rumah tersebut, kami dapat mengidentifikasi di mana data besar menyimpang dari kebenaran dan mengembangkan model yang kokoh untuk menyesuaikan anomali tersebut.
Misalnya, kami mengembangkan metodologi untuk menentukan lokasi perangkat di dalam rumah dan mencocokkan data penyetelan perangkat tersebut dengan pemirsa tertentu. Model lain membantu kami menentukan apakah televisi dalam keadaan mati sementara set-top box dalam keadaan menyala. Model lain lagi dapat mengidentifikasi pembaruan perangkat yang tercatat sebagai penyetelan tambahan, serta situasi di mana perangkat mengirimkan lebih dari satu peristiwa penyetelan pada waktu yang sama.
Manusia, bukan perangkat

Pada akhirnya, riset audiens berfokus pada orang, bukan perangkat.
Tidak diragukan lagi bahwa big data merupakan tambahan yang sangat berguna bagi para peneliti media. Hal ini membuka peluang untuk pelaporan yang lebih rinci daripada yang pernah mungkin dilakukan di masa lalu. Namun, big data secara inheren memiliki kelemahan, bias, dan, yang paling mendasar, bersifat pendek pandang: Big data menangkap data penyesuaian, bukan data penayangan.
Untuk mencapai potensinya, data tersebut perlu dibersihkan, dilengkapi, dikalibrasi, dan diperkaya dengan data demografis yang relevan. Di sinilah data panel berperan. Machine learning bekerja paling baik dengan data pelatihan dan validasi yang kuat, dan tidak ada data pelatihan yang lebih baik di industri ini daripada data panel yang mewakili secara nasional, yang menjadi inti dari bisnis riset media saat ini.
Nielsen’s Hal yang Perlu Diketahui membahas dasar-dasar pengukuran audiens dan mengurai topik-topik terpanas di industri media. Baca setiap artikel di sini.
Catatan
 1 Peringkat rumah tangga adalah persentase dari semua rumah tangga di negara tersebut yang menonton program tertentu.
2 Program yang tersedia melalui "sinyal" dari antena. Siaran melalui udara (OTA) adalah jenis TV pertama yang tersedia.



