Big data wciąż pojawia się na pierwszych stronach gazet, ale czym właściwie jest i dlaczego stanowi zarówno dar, jak i potencjalną przeszkodę w dokładnym pomiarze oglądalności? Analizujemy zalety i wady big data oraz sposoby jej wykorzystania.
Czym są duże zbiory danych?
W świecie mediów linearnych termin „big data” odnosi się zazwyczaj do dwóch rodzajów strumieni danych generowanych przez systemy dostarczające programy użytkownikom końcowym: dane zwrotne (RPD) z dekoderów telewizji kablowej lub satelitarnej (takich jak Dish lub DirecTV) oraz automatyczne rozpoznawanie treści (ACR) z telewizorów smart podłączonych do Internetu (takich jak Samsung lub Vizio).


Dane ACR
Technologia ACR nie rejestruje zmian kanałów, ale monitoruje obrazy wyświetlane na ekranie telewizora. Obrazy działają jak odciski palców, które są porównywane z obszerną biblioteką referencyjną w celu identyfikacji programu lub reklamy. Obrazy są opatrzone sygnaturą czasową, aby można było określić, kiedy odbywa się odtwarzanie.
Dane RPD
Rejestruje kanał, na który jest ustawiony dekoder, oraz czas zmiany kanałów. Dane te można porównać z ramówką telewizyjną, aby określić, jaki program jest emitowany w danym momencie, a także z danymi z serwerów reklamowych dostawcy lub jego partnerów, aby ustalić, jakie reklamy są wyświetlane w danym gospodarstwie domowym.
W obu przypadkach użytkownicy końcowi wyrażają zgodę na gromadzenie danych na swoich urządzeniach. Poziom współpracy jest stosunkowo wysoki, ponieważ gromadzenie danych służy nie tylko do pomiarów, ale także do tworzenia bardzo pożądanych funkcji, takich jak preferencje użytkowników i rekomendacje treści. Zbiór danych RPD lub ACR może obejmować ponad 30 milionów urządzeń.
Dlaczego duże zbiory danych są tak ważne?

Był czas, kiedy ludzie mieli do wyboru tylko kilka kanałów telewizyjnych.Oglądalność1 powyżej 60 (jak w przypadku finału serialu M*A*S*H w 1983 r.) lub nawet 40 (jak w przypadku finału serialu Seinfeld w 1998 r.) jest dziś nie do pomyślenia w przypadku seriali fabularnych. Żyjemy w znacznie bardziej rozdrobnionym świecie, w którym dostępnych jest bardzo wiele różnych programów telewizyjnych.
To świetna wiadomość dla widzów telewizyjnych, ale komplikuje sprawę w przypadku badań panelowych: w ogólnokrajowym panelu obejmującym 101 tys. osób program telewizyjny o oglądalności 0,2 będzie oglądany przez 80 gospodarstw domowych, a być może tylko jedno w obszarze metropolitalnym Atlanty lub Dallas. Dzięki pomiarom przeprowadzanym na dziesiątkach milionów urządzeń, duże zbiory danych umożliwiają firmom badawczym sporządzanie raportów dotyczących oglądalności telewizji na znacznie bardziej szczegółowym poziomie, obejmującym znacznie więcej programów o niewielkiej i często zróżnicowanej widowni. Jednak same duże zbiory danych nigdy nie były przeznaczone do pomiaru oglądalności. Przyjrzymy się niektórym zaletom i wadom wykorzystania dużych zbiorów danych w pomiarze oglądalności.
Ograniczenia związane z dużymi zbiorami danych
Wyzwanie nr 1: Duże zbiory danych nie są reprezentatywne
Aby przeprowadzać transakcje z pewnością, nabywcy i sprzedawcy mediów potrzebują rozwiązania pomiarowego, które odzwierciedla populację w całej jej różnorodności: wszystkie grupy wiekowe, rasy, grupy etniczne i wiele innych kluczowych cech demograficznych i behawioralnych musi być obecnych i proporcjonalnych w danych bazowych.
Jednak wielkość nie gwarantuje reprezentatywności. Analizując dane dotyczące liczby zainstalowanych urządzeń w panelu Nielsen National TV, odkryliśmy, że gospodarstwa domowe korzystające z RPD są nieproporcjonalnie starsze i mniej zróżnicowane rasowo niż ogół społeczeństwa. Na przykład gospodarstwa domowe pochodzenia latynoskiego są niedostatecznie reprezentowane o około 30%, a głowy gospodarstw domowych w wieku poniżej 25 lat są prawie całkowicie nieobecne w zestawach danych RPD. Z drugiej strony, zbiory danych ACR są młodsze niż ogólna populacja i obejmują więcej członków gospodarstw domowych. Zastosowanie ważenia statystycznego w dużych zbiorach danych może ukryć ten problem, ale nie jest w stanie zrekompensować brakujących, unikalnych zachowań widzów niedostatecznie reprezentowanych grup odbiorców.
Co gorsza, rozwiązanie pomiarowe oparte wyłącznie na danych RPD i ACR pomijałoby gospodarstwa domowekorzystające wyłącznie z transmisji bezprzewodowej2 i streamingu, które stanowią coraz większą część rynku.
Wyzwanie nr 2: Duże zbiory danych mogą nie odzwierciedlać wszystkich zachowań widzów.
Nawet jeśli uwzględniono reprezentatywne gospodarstwa domowe, zbiory danych RPD i ACR nie obejmują oglądania z każdego dekodera w gospodarstwie domowym ani z innych telewizorów w domu, które nie są telewizorami smart. Te dodatkowe telewizory mogą odtwarzać różne programy dla różnych członków rodziny (np. programy kulinarne w kuchni lub programy dla dzieci w pokoju zabaw), więc nie tylko gospodarstwa domowe objęte big data nie są reprezentatywne dla populacji, ale same big data nie są reprezentatywne dla wszystkich programów, które mogą być oglądane w tych domach.

Frustrującą kwestią dla firm badawczych korzystających z RPD jest to, że dekoder często pozostaje włączony po wyłączeniu podłączonego telewizora. To „fantomowe” strojenie może zawyżać rzeczywistą oglądalność o 145% do 260%, w zależności od dostawcy. Istnieją modele, które można wdrożyć, aby to skompensować, ale bez punktu odniesienia — takiego jak panel oparty na rzeczywistej oglądalności — opracowanie odpowiednich heurystyk może być trudne.
ACR również nie jest wolny od problemów związanych z jakością danych. Niektóre aplikacje do strumieniowego przesyłania treści na telewizory smart blokują ACR przed przechwytywaniem treści wyświetlanych na ekranie podczas korzystania z aplikacji. Może to wyglądać tak, jakby telewizor był wyłączony, podczas gdy w rzeczywistości treść została zablokowana przez aplikację. Ponadto większość dostawców monitoruje tylko niewielką część wszystkich dostępnych programów. W ostatniej analizie odkryliśmy, że dostawcy ACR monitorują obecnie tylko 31% wszystkich dostępnych stacji, a 23% nagranych minut nadal pochodzi ze stacji, które nie są monitorowane. Bez odniesienia do odcisków palców, które można by porównać, oglądanie to nie jest zgłaszane.
Wyzwanie nr 3: W dużych zbiorach danych brakuje danych demograficznych dotyczących widzów.
Dostawcy RPD i ACR gromadzą dane dotyczące oglądalności z milionów urządzeń, ale nie wiedzą, kto je ogląda, a właśnie tego ostatecznie oczekują reklamodawcy.
Jednym ze sposobów na wyeliminowanie tej niedoskonałości jest nawiązanie współpracy z zewnętrznymi dostawcami danych demograficznych. Firmy te prowadzą rejestr składu demograficznego wszystkich gospodarstw domowych w kraju, a firma badawcza może próbować stworzyć model tego, kto ogląda co, po prostu na podstawie sumy danych dotyczących oglądalności w danym gospodarstwie domowym i składu demograficznego tego gospodarstwa.
Program dla dzieci? To pewnie od dziecka w domu. Walka zapaśnicza? To pewnie od męskiego widza. Bez prawdziwego punktu odniesienia, który pomógłby algorytmowi uczenia maszynowego, łatwo można zauważyć, gdzie ten rodzaj modelowania może zawieść. Nic dziwnego, że wraz z rozmiarem gospodarstwa domowego staje się ono coraz mniej wiarygodne, co ostatecznie wpływa na dokładność danych dotyczących większych rodzin, takich jak te z dziećmi, widzami niebiałymi i młodszymi.
Zalety danych panelowych
Dla marek i firm medialnych poszukujących stabilnego, niezawodnego rozwiązania do pomiaru oglądalności wyżej wymienione wyzwania są nie do pokonania. Dane panelowe mają kluczowe znaczenie dla przezwyciężenia tych ograniczeń.
W Nielsen, kiedy analizujemy dane RPD lub ACR, możemy zidentyfikować, które gospodarstwa domowe i urządzenia są częścią naszych paneli, a następnie porównać dane dotyczące oglądalności w tych gospodarstwach domowych z zachowaniami widzów zarejestrowanymi przez nasze mierniki. Wykorzystując nasze panele jako źródło prawdziwych danych w tych gospodarstwach domowych, możemy wskazać, gdzie duże zbiory danych odbiegają od rzeczywistości, i opracować solidne modele pozwalające skorygować te anomalie.
Na przykład opracowaliśmy metodologię pozwalającą ustalić, gdzie w domu znajduje się dane urządzenie, i dopasować jego dane strojenia do konkretnych widzów. Inny model pomaga nam określić, czy telewizor jest wyłączony, podczas gdy dekoder jest włączony. Jeszcze inny model pozwala rozróżnić aktualizacje urządzeń, które rejestrują się jako dodatkowe strojenie, oraz sytuacje, w których urządzenie zwraca więcej niż jedno zdarzenie strojenia w tym samym czasie.
Ludzie, a nie urządzenia

Ostatecznie badania odbiorców dotyczą ludzi, a nie urządzeń.
Nie ma wątpliwości, że duże zbiory danych stanowią doskonałe uzupełnienie arsenału badaczy mediów. Otwierają one drzwi do bardziej szczegółowych raportów, niż było to kiedykolwiek możliwe w przeszłości. Są one jednak z natury rzeczy wadliwe, stronnicze i, co najważniejsze, krótkowzroczne: rejestrują dane dotyczące nastawiania kanałów, a nie oglądania programów.
Aby w pełni wykorzystać swój potencjał, dane te muszą zostać oczyszczone, uzupełnione, skalibrowane i wzbogacone o odpowiednie dane demograficzne. Tutaj właśnie pojawiają się dane panelowe. Uczenie maszynowe działa najlepiej w połączeniu z solidnymi danymi szkoleniowymi i walidacyjnymi, a nie ma lepszych danych szkoleniowych w branży niż reprezentatywne dla całego kraju dane panelowe, które stanowią podstawę współczesnych badań mediów.
Nielsen’s Need to Know przegląda podstawy pomiaru oglądalności i wyjaśnia najgorętsze tematy branży medialnej. Przeczytaj wszystkie artykuły tutaj.
Uwaga
1 Oglądalność gospodarstw domowych to odsetek wszystkich gospodarstw domowych w kraju, które oglądają dany program.
2 Programy dostępne za pośrednictwem „sygnału” z anteny. Transmisje naziemne (OTA) były pierwszym rodzajem dostępnej telewizji.



