The not so hidden problem with big data sets

There’s been a lot of energy and excitement in media circles of late about the future of measurement and the promise of big data. At Nielsen, we’ve long understood the value of big data, in fact just last month we announced additional details around how we are adding it to our national TV measurement service.

Wiemy również, że żaden panel nie jest idealny, co pokazały ostatnie miesiące.

Ale kiedy nasze zespoły analityków danych słyszą niektóre z wielkich, szerokich twierdzeń o tym, że duże zbiory danych uratują dzień i naprawią wszystkie postrzegane wyzwania w branży, trudno nie być sceptycznym.

That’s because, for all it’s value and amazing potential, the big data sets that the industry currently has access to have very real limitations.

Niedawny przykład

Po utracie dostępu do przenośnych liczników osób Nielsena, Comscore poinformował, że będzie teraz korzystać z zestawów danych z Experian ConsumerView, aby pomóc im zidentyfikować indywidualnych widzów do celów pomiarowych. Ich ogłoszenie zostało przedstawione w prasie branżowej jako postęp - w końcu, jeśli duże zbiory danych są przyszłością, każda zmiana w tym kierunku musi być dobra.

Niestety dla ich klientów i konsumentów tak nie jest.

Istnieje garstka zewnętrznych dostawców tożsamości, którzy zapewniają możliwość dopasowywania zestawów danych w oparciu o informacje umożliwiające identyfikację osoby i zapewniają cechy demograficzne, zarówno bezpośrednio zebrane, jak i modelowane.

W Nielsen regularnie sprawdzamy te dane. Robimy to poprzez bezpośredni pomiar informacji z naszych solidnych paneli, aby zweryfikować dokładność tych zestawów danych w zakresie 1) prawidłowego dopasowania do gospodarstwa domowego i 2) dokładnego raportowania danych demograficznych i charakterystyk.

To, co zwykle znajdujemy, powinno dać reklamodawcom do myślenia.

Większość dostępnych obecnie zestawów danych opiera się na informacjach rozliczeniowych lub gromadzeniu zachowań online, a nie na profilach demograficznych. Nie zawierają one szczegółowych informacji na temat tego, kim dokładnie są osoby znajdujące się na ich listach - od wieku, przez dochody, po rasę i pochodzenie etniczne - tak jak ma to miejsce w przypadku solidnego panelu. Te zestawy danych, ponieważ są tworzone przez transfery maszyna-maszyna, również zwiększają możliwość marnotrawstwa i oszustw.

Z tego powodu poziom pewności co do tego, kto faktycznie mieszka w danym gospodarstwie domowym, jest ograniczony. Nie są też w stanie powiedzieć, kto w danym domu ogląda dany program w określonym czasie.

Nawet jeśli triangulujesz te dane z innymi źródłami, prawie na pewno masz ogromne luki i błędy w swoich szacunkach. Może to być akceptowalne, jeśli przypadek użycia jest ukierunkowany, ale te dane same w sobie nie zapewniają dokładności, obiektywności i przejrzystości wymaganej do dostarczania pomiarów.

Dlaczego ma to znaczenie

Co to oznacza w praktyce? Cóż, ma to kilka implikacji.

W przypadku odejścia Comscore od naszych Personal People Meters, które w rzeczywistości przymocowują mikrofony do ~100 000 prawdziwych, zweryfikowanych osób i dokładnie śledzą, co oglądają,

w modelu, który wykorzystuje dane billingowe do szacowania, kto w danym mieszkaniu może oglądać dany program w danym czasie, wynikiem będzie mniej dokładny odczyt tego, kto co ogląda.

Ale prawdopodobnie większym skutkiem jest to, że ta zmiana jeszcze bardziej oddali branżę od uchwycenia prawdziwej reprezentacji kraju.

Wiemy, że wiele z tego typu zestawów danych lepiej sprawdza się w dostarczaniu danych na temat gospodarstw domowych, gdy mieszkające w nich osoby są właścicielami swoich domów i mieszkają w nich od dłuższego czasu. Ma to swoje uzasadnienie. Problem polega na tym, że długoletni właściciele domów są zazwyczaj bardziej biali, bardziej zamożni i znacznie starsi niż cały naród. Z założenia te zestawy danych nie uwzględniają osób czarnoskórych i brązowych, osób o niższych dochodach i osób młodszych, w czasie, gdy wszystkie te segmenty rosną, a nie maleją.

To samo dotyczy zestawów danych opartych na danych z dekoderów, które mają tendencję do zawyżania liczby bardziej zamożnych konsumentów, którzy są skłonni płacić więcej za pakiety kablowe, a tym samym nieproporcjonalnie wykluczają konsumentów o niższych dochodach, którzy są ważnymi celami dla wielu marketerów.

Branża medialna słusznie uczyniła dokładną reprezentację społeczności czarnoskórych i brunatnych głównym priorytetem. W Nielsen nasze osiągnięcia w tym zakresie od dziesięcioleci nie są doskonałe, ale dziś mamy najdokładniejszy i najbardziej zaawansowany obraz kraju takim, jakim jest naprawdę.

Narzędzia pomiarowe oparte na dużych zbiorach danych, które nie są wspierane przez reprezentatywny, zweryfikowany i skontrolowany panel, nie mogą tego twierdzić. Panele Nielsena mogą być ukierunkowane na wiele grup demograficznych w ramach spisu powszechnego z 1% zmiennością, ale opcje skoncentrowane na dużych zbiorach danych nie są nawet zbliżone do tego. Branża musi być otwarta i uczciwa wobec wyzwań, jakie stawiają duże zbiory danych, jeśli chodzi o reprezentację.

Szerszy problem

Żeby było jasne, nie jest to tylko problem Comscore. Jest to problem wszystkich dużych zbiorów danych, które są obecnie dostępne.

In August of 2020 the ANA, in partnership with the MRC and Sequent Partners, used Nielsen data as a benchmark in a study designed to understand the degree to which the multicultural audiences were being accurately represented in media targeting. The study looked at an aggregated collection of high-quality marketing and media data and sought to understand how accurately it was targeting Black, Brown and Asian audiences. The findings were troubling, but not at all surprising to us.

Badanie wykazało, że duże zbiory danych, na których opiera się branża, nie były w stanie sprostać zadaniu dokładnego ukierunkowania na te krytyczne społeczności. Po części dlatego, że zestawy danych nie zostały zaprojektowane do przechwytywania bogatych danych o tym, kim naprawdę są ci konsumenci, tak jak w przypadku solidnych paneli, w danych występowały powszechne przekłamania i niedoreprezentowanie.

Now contrast that with Nielsen’s robust panels, which provide a wealth of directly collected information from real-life people, representative of the entire U.S. population. Who lives in the home? How old are they? What race and ethnicity do they identify as? Who is watching the television at a given point in time? Nielsen’s panel answers these questions.

Ponownie, panele same w sobie nie są idealne, ale nie bez powodu inne branże, a mianowicie farmaceutyczna, stosują podejścia podobne do paneli przy zatwierdzaniu leków. Dzieje się tak dlatego, że gdy stawka jest wysoka, nic nie zastąpi prawdziwych, zweryfikowanych ludzi.

Wiemy, że wielu graczy z branży jest podekscytowanych obietnicą big data, my również. Ale jako branża musimy być szczerzy co do tego, co big data może, a czego nie może rozwiązać. Rozumiemy również, że przyszłością pomiaru mediów jest podejście, które łączy zasięg dużych zbiorów danych ze zweryfikowanymi danymi osobowymi z solidnych paneli.

This article originally appeared on Next TV.

Nie tak ukryty problem z dużymi zbiorami danych

Niedawny przykład

Dlaczego ma to znaczenie

Szerszy problem

Kontynuuj przeglądanie podobnych spostrzeżeń

Wesołego Halloween! Trendy telewizyjne w horrorach w tym upiornym sezonie

Telewizja hybrydowa zmienia reklamę

Pięć trendów, na które warto zwrócić uwagę przed 2025 Upfronts

Nasze produkty mogą pomóc Tobie i Twojej firmie

Brand Lift

Międzynarodowa telewizja linearna

Krajowe i lokalne pomiary telewizyjne w USA

Znajdź odpowiednie rozwiązanie dla swojej firmy

Jak możemy pomóc?