02_요소/아이콘/왼쪽 화살표 인사이트로 돌아가기

인사이트 > 오디언스

필수 정보: 시청률 측정에서 빅데이터의 장단점

5분 읽기 | 2023년 8월

빅데이터는 계속해서 화제를 모으고 있지만, 정확히 무엇이며, 왜 정확한 시청자 측정에 있어 선물이자 잠재적 장애물이 될까? 우리는 빅데이터의 장단점과 이를 효과적으로 활용하는 방법을 살펴본다.  

빅데이터란 무엇인가?

선형 미디어 환경에서 빅데이터는 일반적으로 최종 사용자에게 프로그램을 전달하는 시스템 자체에서 생성되는 두 가지 유형의 데이터 스트림을 의미합니다: 케이블 또는 위성 셋톱박스(Dish 또는 DirecTV 등)에서 발생하는 리턴 경로 데이터(RPD)와 인터넷 연결 스마트 TV(삼성 또는 Vizio 등)에서 발생하는 자동 콘텐츠 인식(ACR)입니다.

ACR 데이터

채널 변경 기록 대신 ACR 기술은 TV 화면의 영상을 모니터링합니다. 영상은 지문처럼 작용하여 방대한 참조 라이브러리와 비교되어 프로그램이나 광고의 실제 내용을 식별합니다. 재생 시점을 파악하기 위해 영상에는 타임스탬프가 기록됩니다.

RPD 데이터

셋톱박스가 어떤 채널에 맞춰져 있는지, 그리고 채널 변경이 언제 발생하는지 기록합니다. 해당 데이터는 TV 편성표와 대조하여 특정 시간대에 어떤 프로그램이 방영되는지 파악할 수 있으며, 서비스 제공업체의 광고 서버 또는 협력사로부터의 데이터를 활용해 해당 가구가 어떤 광고에 노출되는지 분석할 수 있습니다.

두 경우 모두 최종 사용자가 자신의 기기에서 데이터 수집을 허용합니다. 데이터 수집은 단순한 측정뿐만 아니라 사용자 선호도나 콘텐츠 추천과 같은 매우 바람직한 기능도 제공하기 때문에 협력도가 상대적으로 높습니다. RPD 또는 ACR 데이터셋은 3천만 대가 넘는 기기를 포괄할 수 있습니다.

빅데이터가 왜 중요한가?

한때 사람들은 선택할 수 있는 채널이 손에 꼽을 정도였습니다. 60%가 넘는 가구시청률 (1983년 M*A*S*H 최종회처럼)이나 심지어 40%(1998년 Seinfeld 최종회처럼)조차도 오늘날 시나리오 기반 프로그램에겐 상상하기 어려운 수치입니다. 우리는 훨씬 더 분열된 세상에 살고 있으며, 프로그램 선택지가 아주, 아주 길게 늘어선 세상입니다.

TV 시청자에게는 좋은 소식이지만, 패널 기반 연구에는 복잡성을 더합니다: 10만 1천 명으로 구성된 전국 패널에서 시청률 0.2%의 TV 프로그램은 80가구가 시청하게 되며, 애틀랜타나 댈러스 광역권에서는 단 한 가구만 시청할 수도 있습니다. 수천만 대의 기기를 측정 대상으로 삼는 빅데이터는 연구 기관들이 훨씬 세분화된 수준에서 TV 사용 현황을 보고할 수 있게 하여, 소규모이며 종종 다양한 시청자층을 가진 수많은 프로그램에 대한 커버리지를 제공합니다. 그러나 빅데이터 자체는 시청률 측정을 위해 고안된 것이 아닙니다. 시청률 측정에서 빅데이터의 장단점을 살펴보겠습니다.

빅데이터의 한계

도전 과제 #1: 빅데이터는 대표성이 부족하다

미디어 구매자와 판매자가 신뢰를 바탕으로 거래하려면, 모든 인구 집단의 다양성을 반영하는 측정 솔루션이 필요합니다. 모든 연령대, 인종, 민족 및 기타 주요 인구통계학적·행동적 특성이 기초 데이터에 비례적으로 포함되어야 합니다.

그러나 규모가 대표성을 보장하지는 않습니다. 닐슨 전국 TV 패널의 설치 수를 분석한 결과, RPD를 보유한 가구는 일반 인구 대비 비례적으로 고령화되어 있으며 인종적 다양성도 낮은 것으로 나타났습니다. 예를 들어 히스패닉 가구는 약 30% 정도 과소 대표되고 있으며, 25세 미만 세대주는 RPD 데이터셋에서 거의 전무합니다. 반면 ACR 데이터셋은 일반 인구보다 연령대가 낮게 편향되어 있으며, 가구 구성원 수도 더 많다. 빅데이터에서 통계적 가중치를 적용하면 이 문제를 숨길 수는 있으나, 대표성이 부족한 시청자층의 누락된 고유 시청 행동을 보완할 수는 없다.

설상가상으로, RPD(실시간 시청률)와 ACR(자동 시청률 측정) 데이터에만 의존하는 측정 솔루션은 점차 비중이 커지고 있는무선 방송2 및 스트리밍 전용 가구를 포착하지 못할 것이다.

도전 과제 #2: 빅데이터가 모든 시청 행동을 포착하지 못할 수 있음

대표적인 가구를 포함하더라도 RPD 및 ACR 데이터 세트는 가정에 설치된 모든 셋톱박스나 스마트 TV가 아닌 다른 TV의 시청 행태를 포착하지 못합니다. 이러한 추가 TV는 가족 구성원마다 다른 프로그램을 재생할 수 있습니다(예: 부엌에서는 요리 프로그램, 놀이방에서는 어린이 프로그램). 따라서 빅데이터 가구는 인구 전체를 대표하지 않을 뿐만 아니라, 해당 가구 내에서 발생할 수 있는 모든 시청 행태를 대표하지도 못합니다.

RPD에 의존하는 조사 회사들에게 좌절스러운 문제는 연결된 TV가 꺼져도 셋톱박스가 종종 켜진 상태로 남아 있다는 점이다. 이러한 '유령' 시청은 제공자에 따라 실제 시청률을 145%에서 260%까지 과대평가할 수 있다. 이를 보정하기 위해 적용 가능한 모델들이 존재하지만, 실제 시청 데이터를 반영한 패널과 같은 기준점이 없다면 적절한 휴리스틱을 개발하기 어려울 수 있다.

ACR 역시 데이터 품질 문제에서 자유롭지 않습니다. 일부 스마트 TV 스트리밍 애플리케이션은 앱 사용 중 화면 콘텐츠를 ACR이 캡처하는 것을 차단합니다. 실제로는 앱에 의해 콘텐츠가 차단되었음에도 TV가 꺼진 것처럼 보일 수 있습니다. 또한 대부분의 제공업체는 전체 프로그램 중 극히 일부만 모니터링합니다. 최근 분석 결과, 현재 ACR 제공업체들은 전체 방송국의 31%만 모니터링하고 있으며, 기록된 시청 시간의 23%는 여전히 모니터링되지 않는 방송국에서 발생하고 있습니다. 비교할 기준 지문이 없기 때문에 해당 시청 기록은 보고되지 않습니다.

도전 과제 #3: 빅데이터에 시청자 인구 통계가 누락됨

RPD 및 ACR 공급업체들은 수백만 대의 기기에서 시청 데이터를 수집하지만, 누가 시청하는지는 알지 못합니다. 이는 결국 광고주들이 원하는 정보입니다.

그 단점을 보완하는 한 가지 방법은 제3자 인구통계 공급업체와 협력하는 것이다. 해당 업체들은 전국 모든 가구의 인구통계적 구성을 기록으로 유지하며, 연구 기관은 특정 가구의 총 시청 데이터와 그 가구의 인구통계적 구성만을 바탕으로 누가 무엇을 시청하는지 모델링을 시도할 수 있다.

어린이 프로그램? 집안에 아이가 있나 보군. 레슬링 경기? 남성 시청자일 거야. 기계 학습 알고리즘을 돕는 실제 생활의 기준점이 없다면, 이런 유형의 모델링이 어디서 무너질 수 있는지 쉽게 알 수 있습니다. 당연히도, 가구 규모가 커질수록 신뢰도는 점점 떨어지며, 이는 결국 자녀가 있는 가정, 비백인 시청자, 젊은 시청자 등 대규모 가족에 대한 데이터 정확도를 해치게 됩니다. 

패널 데이터의 장점 

안정적이고 신뢰할 수 있는 시청률 측정 솔루션을 찾는 브랜드와 미디어 기업에게 위에서 언급한 과제들은 시작조차 할 수 없는 문제들입니다. 패널 데이터는 이러한 한계를 극복하는 데 핵심적입니다.

닐슨에서는 RPD 또는 ACR 데이터를 분석할 때, 패널에 포함된 가구와 기기를 식별하고 해당 가구의 시청 데이터를 계측기로 포착된 시청 행동과 비교할 수 있습니다. 해당 가구에서 패널을 진실의 원천으로 활용함으로써, 빅데이터가 실제와 어긋나는 지점을 정확히 파악하고 이러한 이상 현상을 보정하기 위한 견고한 모델을 개발할 수 있습니다.

예를 들어, 우리는 기기가 집 안에서 어디에 위치하는지 파악하고 그 튜닝 데이터를 특정 시청자와 매칭하는 방법론을 개발했습니다. 또 다른 모델은 셋톱박스가 켜져 있는 동안 TV가 꺼져 있는지 여부를 판단하는 데 도움을 줍니다. 또 다른 모델은 추가 튜닝으로 기록되는 기기 업데이트와, 기기가 동시에 하나 이상의 튜닝 이벤트를 반환하는 상황을 구분할 수 있습니다.

사람, 기기가 아닌

궁극적으로 시청자 연구는 기기가 아닌 사람에 관한 것입니다.

빅데이터가 미디어 연구자의 무기고에 훌륭한 추가 요소임은 의심의 여지가 없다. 이는 과거에는 불가능했던 수준보다 훨씬 세분화된 보고를 가능케 한다. 그러나 본질적으로 결함이 있고 편향되어 있으며, 가장 근본적으로는 근시안적이다: 시청 데이터가 아닌 채널 전환 데이터를 포착하기 때문이다.

잠재력을 발휘하려면 데이터를 정리하고, 보완하며, 보정하고, 관련 인구통계학적 정보로 풍부하게 해야 합니다. 바로 여기서 패널 데이터가 중요한 역할을 합니다. 머신러닝은 강력한 훈련 및 검증 데이터와 함께 작동할 때 최상의 성능을 발휘하며, 오늘날 미디어 연구 산업의 핵심에 자리한 전국 대표성 패널 데이터보다 더 나은 훈련 데이터는 업계에 존재하지 않습니다.

닐슨의 필수 정보 시청자 측정의 기본을 검토하고 미디어 업계의 가장 뜨거운 주제를 쉽게 설명합니다. 모든 기사를 여기에서 확인하세요.

참고

 1 가구 시청률은 전국 가구 중 특정 프로그램을 시청하는 가구의 비율을 의미합니다.
2 안테나를 통한 "신호"로 수신 가능한 프로그램입니다. 지상파(OTA) 방송은 최초로 등장한 텔레비전 방송 방식입니다.

비슷한 인사이트 계속 찾아보기

저희 제품은 귀하와 귀사의 비즈니스에 도움이 될 수 있습니다

  • 미디어 분석

    복잡한 데이터를 명확한 전략으로 전환합니다. 맞춤형 리서치를 통해 미디어 예산을 합리화하고…

  • 브랜드 리프트

    닐슨 브랜드 리프트로 캠페인의 진정한 효과를 측정하세요 – 신뢰할 수 있는 브랜드 리프트 인사이트를 통해…

  • 국제 선형 TV

    글로벌 선형 TV 시청자에 대한 포괄적인 통찰력을 확보하여 콘텐츠, 프로그램 편성 및 광고를 최적화하세요…