ข้อมูลขนาดใหญ่ยังคงเป็นที่กล่าวถึงอย่างต่อเนื่อง แต่แท้จริงแล้วมันคืออะไร และทำไมมันจึงเป็นทั้งของขวัญและอุปสรรคต่อการวัดผลผู้ชมอย่างแม่นยำ เราจะเจาะลึกถึงข้อดีข้อเสียของข้อมูลขนาดใหญ่ และวิธีการนำไปใช้ให้เกิดประโยชน์
บิ๊กดาต้าคืออะไร?
ในโลกของสื่อแบบดั้งเดิม ข้อมูลขนาดใหญ่โดยทั่วไปหมายถึงกระแสข้อมูลสองประเภทที่สร้างขึ้นโดยระบบที่ส่งรายการไปยังผู้ใช้ปลายทาง ได้แก่ ข้อมูลย้อนกลับ (Return-path data หรือ RPD) จากกล่องรับสัญญาณเคเบิลหรือดาวเทียม (เช่น Dish หรือ DirecTV) และการจดจำเนื้อหาอัตโนมัติ (Automatic Content Recognition หรือ ACR) จากสมาร์ททีวีที่เชื่อมต่ออินเทอร์เน็ต (เช่น Samsung หรือ Vizio)


ข้อมูล ACR
แทนที่จะบันทึกการเปลี่ยนช่อง เทคโนโลยี ACR จะตรวจสอบภาพบนหน้าจอทีวี ภาพเหล่านั้นเปรียบเสมือนลายนิ้วมือ ซึ่งจะถูกนำไปเปรียบเทียบกับฐานข้อมูลขนาดใหญ่เพื่อระบุว่ารายการหรือโฆษณานั้นคืออะไร ภาพจะมีเวลาประทับเพื่อระบุว่าการเล่นเกิดขึ้นเมื่อใด
ข้อมูล RPD
ระบบจะบันทึกว่ากล่องรับสัญญาณทีวีกำลังเลือกช่องใดอยู่ และมีการเปลี่ยนช่องในเวลาใด ข้อมูลเหล่านั้นสามารถนำไปเปรียบเทียบกับตารางรายการทีวีเพื่อตรวจสอบว่ารายการใดกำลังออกอากาศในเวลานั้นๆ และสามารถนำไปรวมกับข้อมูลจากเซิร์ฟเวอร์โฆษณาของผู้ให้บริการหรือพันธมิตร เพื่อตรวจสอบว่าครัวเรือนนั้นได้รับชมโฆษณาประเภทใดบ้าง
ในทั้งสองกรณี ผู้ใช้ปลายทางอนุญาตให้เก็บรวบรวมข้อมูลบนอุปกรณ์ของตน ความร่วมมือค่อนข้างสูงเนื่องจากการเก็บรวบรวมข้อมูลไม่เพียงแต่ขับเคลื่อนการวัดผลเท่านั้น แต่ยังรวมถึงคุณสมบัติที่ผู้ใช้ต้องการอย่างมาก เช่น การตั้งค่าของผู้ใช้และคำแนะนำเนื้อหา ชุดข้อมูล RPD หรือ ACR อาจครอบคลุมอุปกรณ์มากกว่า 30 ล้านเครื่อง
ทำไมข้อมูลขนาดใหญ่ถึงมีความสำคัญมาก?

มีอยู่ช่วงหนึ่งที่ผู้คนมีช่องให้เลือกชมเพียงไม่กี่ช่องเท่านั้น เรตติ้งครัวเรือน 1 ใน 60 (อย่างเช่นตอนจบของ M*A*S*H ในปี 1983) หรือแม้แต่ 40 (อย่างเช่นตอนจบของ Seinfeld ในปี 1998) ถือเป็นเรื่องที่เหลือเชื่อสำหรับรายการโทรทัศน์ในปัจจุบัน เราอยู่ในโลกที่มีความหลากหลายมากขึ้น มีรายการให้เลือกชมมากมายนับไม่ถ้วน
นั่นเป็นเรื่องดีสำหรับผู้ชมโทรทัศน์ แต่ทำให้การวิจัยแบบใช้กลุ่มตัวอย่างซับซ้อนขึ้น: ในกลุ่มตัวอย่างทั่วประเทศที่มีประชากร 101,000 คน รายการโทรทัศน์ที่มีเรตติ้ง 0.2 จะมีผู้ชมเพียง 80 ครัวเรือน และอาจมีเพียงครัวเรือนเดียวในเขตเมืองแอตแลนตาหรือดัลลัสเท่านั้น ด้วยอุปกรณ์หลายสิบล้านเครื่องที่ถูกวัดผล ข้อมูลขนาดใหญ่ทำให้บริษัทวิจัยสามารถรายงานการใช้งานโทรทัศน์ในระดับที่ละเอียดกว่ามาก ทำให้ครอบคลุมรายการต่างๆ ได้มากขึ้น แม้จะมีผู้ชมกลุ่มเล็กๆ และหลากหลาย แต่โดยตัวมันเองแล้ว ข้อมูลขนาดใหญ่ไม่ได้ถูกออกแบบมาเพื่อใช้ในการวัดผลผู้ชม เราจะเจาะลึกถึงข้อดีและข้อเสียของข้อมูลขนาดใหญ่ในการวัดผลผู้ชมกัน
ข้อจำกัดของข้อมูลขนาดใหญ่
ความท้าทายที่ 1: ข้อมูลขนาดใหญ่ไม่ได้เป็นตัวแทนที่แท้จริง
เพื่อให้การซื้อขายสื่อเป็นไปอย่างมั่นใจ ผู้ซื้อและผู้ขายสื่อจำเป็นต้องมีโซลูชันการวัดผลที่สะท้อนถึงประชากรในทุกแง่มุมที่หลากหลาย: กลุ่มอายุ เชื้อชาติ ชาติพันธุ์ และลักษณะทางประชากรศาสตร์และพฤติกรรมที่สำคัญอื่นๆ อีกมากมายจะต้องปรากฏอยู่และมีสัดส่วนที่เหมาะสมในข้อมูลพื้นฐาน
แต่ขนาดไม่ได้เป็นตัวรับประกันความครอบคลุมเสมอไป เมื่อวิเคราะห์จำนวนผู้ติดตั้งในกลุ่มตัวอย่างโทรทัศน์ระดับชาติของนีลเซน เราพบว่าครัวเรือนที่มี RPD มีอายุมากกว่าและมีความหลากหลายทางเชื้อชาติน้อยกว่าประชากรทั่วไปอย่างไม่สมส่วน ตัวอย่างเช่น ครัวเรือนชาวฮิสแปนิกมี จำนวนน้อยกว่าที่ควรจะเป็น ประมาณ 30% และหัวหน้าครัวเรือนที่มีอายุต่ำกว่า 25 ปีแทบจะไม่มีอยู่ในข้อมูล RPD เลย ในทางกลับกัน ข้อมูล ACR มีอายุเฉลี่ยที่น้อยกว่าประชากรทั่วไป และมีจำนวนสมาชิกในครัวเรือนมากกว่าด้วย การใช้การถ่วงน้ำหนักทางสถิติในข้อมูลขนาดใหญ่อาจซ่อนปัญหาได้ แต่ไม่สามารถชดเชยพฤติกรรมการรับชมเฉพาะกลุ่มที่ขาดหายไปของผู้ชมกลุ่มที่ถูกมองข้ามได้
ที่แย่ไปกว่านั้น โซลูชันการวัดที่อาศัยข้อมูล RPD และ ACR เพียงอย่างเดียวจะพลาดครัวเรือนที่รับชมผ่านระบบออกอากาศทางอากาศ 2 และครัวเรือนที่รับชมผ่านการสตรีมมิ่งเท่านั้น ซึ่งเป็นส่วนแบ่งตลาดที่กำลังเติบโตขึ้นเรื่อย ๆ
ความท้าทายที่ 2: ข้อมูลขนาดใหญ่อาจไม่สามารถบันทึกพฤติกรรมการรับชมทั้งหมดได้
ถึงแม้ว่าชุดข้อมูล RPD และ ACR จะรวมครัวเรือนที่เป็นตัวแทนไว้แล้ว แต่ก็ไม่ได้บันทึกการรับชมจากกล่องรับสัญญาณทุกเครื่องในครัวเรือน หรือจากโทรทัศน์เครื่องอื่นๆ ในบ้านที่ไม่ใช่สมาร์ททีวี โทรทัศน์เหล่านั้นอาจฉายรายการที่แตกต่างกันสำหรับสมาชิกในครอบครัวแต่ละคน (เช่น รายการทำอาหารในห้องครัว หรือรายการสำหรับเด็กในห้องเล่น) ดังนั้น ไม่เพียงแต่ครัวเรือนในข้อมูลขนาดใหญ่จะไม่เป็นตัวแทนของประชากรเท่านั้น แต่ข้อมูลขนาดใหญ่เองก็ไม่ได้เป็นตัวแทนของการรับชมทั้งหมดที่อาจเกิดขึ้นในบ้านเหล่านั้นด้วย

ปัญหาที่น่าหงุดหงิดสำหรับบริษัทวิจัยที่พึ่งพา RPD คือกล่องรับสัญญาณมักจะยังคงเปิดอยู่แม้ว่าโทรทัศน์ที่เชื่อมต่อจะปิดไปแล้ว การจูนแบบ 'ผี' นี้อาจทำให้จำนวนผู้ชมจริงสูงเกินจริงถึง 145% ถึง 260% ขึ้นอยู่กับผู้ให้บริการ มีแบบจำลองที่สามารถนำมาใช้เพื่อชดเชยปัญหานี้ได้ แต่หากไม่มีจุดอ้างอิง เช่น คณะกรรมการที่ได้รับข้อมูลจากจำนวนผู้ชมจริง ก็อาจเป็นเรื่องยากที่จะพัฒนากฎเกณฑ์ที่ถูกต้อง
ACR ก็ไม่ได้ปลอดจากปัญหาคุณภาพข้อมูลเช่นกัน แอปพลิเคชันสตรีมมิ่งบนสมาร์ททีวีบางแอปจะบล็อกไม่ให้ ACR บันทึกเนื้อหาบนหน้าจอขณะที่กำลังใช้งานแอปอยู่ อาจทำให้ดูเหมือนว่าทีวีปิดอยู่ ทั้งที่จริงแล้วเนื้อหาถูกบล็อกโดยแอป และผู้ให้บริการส่วนใหญ่ตรวจสอบเพียงส่วนน้อยของรายการทั้งหมดที่มีอยู่ ใน การวิเคราะห์ล่าสุด เราพบว่าผู้ให้บริการ ACR ในปัจจุบันตรวจสอบเพียง 31% ของสถานีทั้งหมดที่มีอยู่ และ 23% ของนาทีที่บันทึกไว้ยังคงมาจากสถานีที่ไม่ได้รับการตรวจสอบ เนื่องจากไม่มีข้อมูลอ้างอิงให้เปรียบเทียบ การรับชมเหล่านั้นจึงไม่ได้รับการรายงาน
ความท้าทายที่ 3: ข้อมูลขนาดใหญ่ขาดข้อมูลประชากรของผู้รับชม
ผู้ให้บริการ RPD และ ACR รวบรวมข้อมูลการปรับแต่งจากอุปกรณ์นับล้านเครื่อง แต่พวกเขาไม่รู้ว่าใครกำลังรับชม ซึ่งเป็นสิ่งที่ผู้ลงโฆษณาต้องการในท้ายที่สุด
วิธีหนึ่งที่จะชดเชยข้อบกพร่องนั้นได้คือการร่วมมือกับผู้ให้บริการข้อมูลประชากรจากภายนอก บริษัทเหล่านั้นจะเก็บรักษาบันทึกข้อมูลองค์ประกอบทางประชากรของทุกครัวเรือนในประเทศ และบริษัทวิจัยอาจพยายามสร้างแบบจำลองว่าใครกำลังดูอะไร โดยพิจารณาจากผลรวมของข้อมูลการรับชมในครัวเรือนนั้นๆ และองค์ประกอบทางประชากรของครัวเรือนนั้น
รายการสำหรับเด็ก? นั่นต้องมาจากเด็กในบ้านแน่ๆ การแข่งขันมวยปล้ำ? นั่นต้องมาจากผู้ชมที่เป็นผู้ชายแน่ๆ หากไม่มีจุดอ้างอิงจากชีวิตจริงมาช่วยสนับสนุนอัลกอริทึมการเรียนรู้ของเครื่อง คุณจะเห็นได้ง่ายๆ ว่าการสร้างแบบจำลองประเภทนี้อาจล้มเหลวได้ และไม่น่าแปลกใจที่ความน่าเชื่อถือจะลดลงเรื่อยๆ ตามขนาดของครัวเรือน และนั่นจะส่งผลเสียต่อความแม่นยำของข้อมูลสำหรับครอบครัวขนาดใหญ่ เช่น ครอบครัวที่มีเด็ก ผู้ชมที่ไม่ใช่คนผิวขาว และผู้ชมที่อายุน้อยกว่า
ข้อดีของข้อมูลแบบพาเนล
สำหรับแบรนด์และบริษัทสื่อที่กำลังมองหาโซลูชันการวัดผลผู้ชมที่เสถียรและเชื่อถือได้ ความท้าทายที่กล่าวมาข้างต้นนั้นไม่ใช่สิ่งที่ยอมรับได้ ข้อมูลจากกลุ่มตัวอย่างแบบพาเนล มีความสำคัญอย่างยิ่งในการเอาชนะข้อจำกัดเหล่านั้น
ที่ Nielsen เมื่อเราวิเคราะห์ข้อมูล RPD หรือ ACR เราสามารถระบุได้ว่าบ้านและอุปกรณ์ใดบ้างที่เป็นส่วนหนึ่งของกลุ่มตัวอย่างของเรา และเปรียบเทียบข้อมูลการปรับจูนในบ้านเหล่านั้นกับพฤติกรรมการรับชมที่บันทึกโดยมิเตอร์ของเรา การใช้ กลุ่มตัวอย่างของเรา เป็นแหล่งข้อมูลที่เชื่อถือได้ในบ้านเหล่านั้น ทำให้เราสามารถระบุจุดที่ข้อมูลขนาดใหญ่เบี่ยงเบนจากความจริง และพัฒนารูปแบบที่แข็งแกร่งเพื่อปรับแก้ความผิดปกติเหล่านั้นได้
ตัวอย่างเช่น เราได้พัฒนาวิธีการเพื่อระบุตำแหน่งของอุปกรณ์ภายในบ้านและจับคู่ข้อมูลการจูนกับผู้ชมแต่ละราย โมเดลอีกแบบช่วยให้เราตรวจสอบได้ว่าโทรทัศน์ปิดอยู่หรือไม่ในขณะที่กล่องรับสัญญาณเปิดอยู่ และโมเดลอีกแบบสามารถแยกแยะการอัปเดตอุปกรณ์ที่ลงทะเบียนเป็นการจูนเพิ่มเติม รวมถึงสถานการณ์ที่อุปกรณ์ส่งเหตุการณ์การจูนมากกว่าหนึ่งครั้งในเวลาเดียวกัน
ผู้คน ไม่ใช่อุปกรณ์

ท้ายที่สุดแล้ว การวิจัยกลุ่มเป้าหมายนั้นเกี่ยวข้องกับผู้คน ไม่ใช่อุปกรณ์
ไม่ต้องสงสัยเลยว่าข้อมูลขนาดใหญ่เป็นเครื่องมือที่ยอดเยี่ยมสำหรับนักวิจัยด้านสื่อ มันเปิดโอกาสให้การรายงานมีความละเอียดลึกซึ้งกว่าที่เคยเป็นไปได้ในอดีต แต่โดยเนื้อแท้แล้วมันก็มีข้อบกพร่อง มีอคติ และที่สำคัญที่สุดคือ มองการณ์สั้น: มันเก็บรวบรวมข้อมูลการปรับแต่ง ไม่ใช่ข้อมูลการรับชม
เพื่อให้ข้อมูลสามารถแสดงศักยภาพได้อย่างเต็มที่ จำเป็นต้องมีการทำความสะอาด เติมเต็ม ปรับเทียบ และเสริมด้วยข้อมูลประชากรที่เกี่ยวข้อง นั่นคือจุดที่ข้อมูลแบบพาเนลเข้ามามีบทบาท การเรียนรู้ของเครื่องจักรทำงานได้ดีที่สุดกับข้อมูลการฝึกฝนและการตรวจสอบที่แข็งแกร่ง และไม่มีข้อมูลการฝึกฝนใดที่ดีไปกว่าข้อมูลแบบพาเนลที่เป็นตัวแทนระดับประเทศซึ่งเป็นหัวใจสำคัญของธุรกิจวิจัยสื่อในปัจจุบัน
บทความ " สิ่งที่คุณควรรู้" จาก Nielsen ทบทวนพื้นฐานของการวัดผลผู้ชมและไขข้อสงสัยเกี่ยวกับหัวข้อที่ร้อนแรงที่สุดในอุตสาหกรรมสื่อ อ่านบทความทั้งหมด ได้ที่ นี่
บันทึก
1. เรตติ้งครัวเรือน คือ เปอร์เซ็นต์ของครัวเรือนทั้งหมดในประเทศที่รับชมรายการใดรายการหนึ่ง
2. การรับชมรายการโทรทัศน์ทำได้ผ่าน "สัญญาณ" จากเสาอากาศ การออกอากาศทางอากาศ (OTA) เป็นโทรทัศน์ประเภทแรกที่มีให้รับชม



