จากประสบการณ์ของผม รวมทั้งประสบการณ์ของผู้ที่ตรวจสอบเรื่องนี้อีกหลายคน พบว่าข้อมูลโดยทั่วไปมักมีความแม่นยำน้อยกว่าที่โฆษณาไว้ นี่ไม่ใช่เรื่องเล็กน้อย—เราอาศัยข้อมูลเริ่มต้นสำหรับการตัดสินใจหลายเรื่อง รวมทั้งเป็นข้อมูลนำเข้าให้กับการจำลองซึ่งนำไปสู่การตัดสินใจ เนื่องจากข้อผิดพลาดมีหลายชนิดและผมไม่มีทฤษฎีที่สอดคล้องสำหรับอธิบายทั้งหมด ผมจึงต้องอาศัยตัวอย่างแยกชิ้นและสรุปทั่วไปจากตัวอย่างเหล่านั้น
ขอเริ่มจาก ทดสอบอายุการใช้งาน (life testing) ตัวอย่างที่ดีคือประสบการณ์ของผมกับการทดสอบอายุการใช้งานของหลอดสุญญากาศที่จะใส่ในสายเคเบิลใต้น้ำสำหรับส่งเสียงครั้งแรก ซึ่งหวังว่าจะมีอายุการใช้งาน 20 ปี (หลังจาก 22 ปี เราก็ถอดสายเคเบิลออกจากการให้บริการ เพราะตอนนั้นการใช้งานมันแพงเกินไป—ซึ่งแสดงให้เห็นพัฒนาการทางเทคนิคในปัจจุบัน) หลอดสำหรับสายเคเบิลเริ่มมีให้ประมาณ 18 เดือนก่อนที่จะวางสาย ผมมีสิ่งอำนวยความสะดวกทางคอมพิวเตอร์ระดับปานกลาง รวมทั้งมี ibm 101 ตัวจัดเรียงเชิงสถิติ พิเศษ และผมก็เปิดให้คนที่ประมวลผลข้อมูลใช้ รวมทั้งช่วยด้านเทคนิคการคำนวณด้วย อย่างไรก็ตามผมไม่ได้มีส่วนร่วมโดยตรงในงานโครงการ วันหนึ่ง ผู้บริหารระดับสูงของโครงการพาผมไปดูอุปกรณ์ทดสอบในห้องใต้หลังคา ตามนิสัยผม หลังจากดูสักพักผมก็ถามว่า “ทำไมคุณจึงเชื่อว่าอุปกรณ์ทดสอบจะเชื่อถือได้เท่ากับสิ่งที่กำลังถูกทดสอบ?” คำตอบที่ได้ทำให้ผมเห็นว่าเขาไม่ได้คิดเรื่องนี้จริงจัง แต่เมื่อเห็นว่าการตามต่อคงไร้ประโยชน์ ผมก็ปล่อยไป แต่ผมไม่ลืมคำถามนั้น
การทดสอบอายุการใช้งานยิ่งมีความสำคัญและยิ่งยากขึ้น เมื่อเราต้องการชิ้นส่วนที่เชื่อถือได้มากขึ้นสำหรับระบบทั้งหมดที่ใหญ่ขึ้น หลักการพื้นฐานอย่างหนึ่งคือ การทดสอบอายุแบบเร่ง ซึ่งหมายถึงโดยทั่วไปว่าหากผมเพิ่มอุณหภูมิขึ้น 17°C ปฏิกิริยาเคมีส่วนใหญ่ (แต่ไม่ทั้งหมด) จะเพิ่มความเร็วเป็นสองเท่า นอกจากนี้ยังมีแนวคิดว่าถ้าผมเพิ่มแรงดันไฟฟ้าขณะใช้งาน จะพบจุดอ่อนบางอย่างได้เร็วขึ้น สุดท้าย สำหรับการทดสอบวงจรรวมบางชนิด การเพิ่มความถี่ของพัลส์นาฬิกาจะค้นพบจุดอ่อนบางอย่างได้เร็วขึ้น ความจริงคือ ทั้งสามอย่างรวมกันยังไม่ใช่ฐานที่มั่นคงพอให้ยึดถือ แต่เมื่อถูกวิจารณ์ ผู้เชี่ยวชาญมักตอบว่า “แล้วเราจะทำอย่างอื่นได้อย่างไร เมื่อเวลาหรือเงินมีจำกัด?” ช่องว่างระหว่างการค้นพบเชิงวิทยาศาสตร์กับการพัฒนาเชิงวิศวกรรมแคบลงมากจนไม่มีเวลาเก็บประสบการณ์การทดสอบในโลกจริงกับอุปกรณ์ใหม่ก่อนนำออกใช้ในวงกว้าง ถ้าคุณต้องการความแน่นอน คุณก็มีแนวโน้มจะล้าสมัย
แน่นอน ยังมีการทดสอบอื่นๆ สำหรับสิ่งอื่นนอกเหนือจากที่กล่าวมา เท่าที่ผมเห็น พื้นฐานของการทดสอบอายุการใช้งานยังไม่มั่นคง แต่ก็ไม่มีวิธีอื่นให้เลือก ผมเคยเสนอที่ Bell Telephone Laboratories ให้ตั้งแผนกทดสอบอายุการใช้งานซึ่งมีหน้าที่ เตรียมความพร้อมสำหรับการทดสอบของอุปกรณ์ถัดไปที่จะถูกประดิษฐ์ขึ้น และไม่ใช่แค่ทดสอบเมื่อความจำเป็นเกิดขึ้น ผมไม่ประสบความสำเร็จ แม้ว่าจะให้ข้อเสนอแนะเล็กๆ น้อยๆ ว่าจะเริ่มต้นอย่างไร ในด้านการทดสอบอายุการใช้งานไม่มีเวลาเพียงพอสำหรับงานวิจัยพื้นฐาน—พวกเขาถูกกดดันมากให้ได้ผลที่ต้องการในวันรุ่งขึ้น ตามคำพูดที่ว่า,
ไม่มีเวลาใดที่จะทำงานให้ถูกต้องตั้งแต่แรก แต่กลับมีเวลาเสมอที่จะไปแก้ไขมันทีหลัง,
โดยเฉพาะในซอฟต์แวร์!
คำถามที่ผมทิ้งไว้ให้คุณยังคงเป็นดังเดิมว่า “คุณจะทดสอบอุปกรณ์ หรือเครื่องจักรทั้งชิ้นที่ต้องมีความน่าเชื่อถือสูงได้อย่างไร ในเมื่อสิ่งที่คุณมีคืออุปกรณ์ทดสอบที่เชื่อถือได้น้อยกว่า และมีเวลาจำกัดในการทดสอบ ขณะเดียวกันอุปกรณ์นั้นจะต้องมีอายุการใช้งานยาวนานในภาคสนาม?” นั่นเป็นปัญหาที่อาจตกค้างตามหลอกหลอนคุณในอนาคต ดังนั้นคุณควรเริ่มคิดถึงมันตั้งแต่ตอนนี้ และสังเกตเบาะแสของการประพฤติที่มีเหตุผลเมื่อถึงเวลาที่คุณต้องเป็นผู้รับผลจากการทดสอบอายุการใช้งาน
ขอพูดถึงแง่ง่ายๆ ของการวัดบ้าง ตัวอย่างเช่น เพื่อนของผมที่ Bell Telephone Laboratories ซึ่งเป็นนักสถิติชั้นดี รู้สึกว่าข้อมูลที่เขากำลังวิเคราะห์ไม่แม่นยำ การโต้แย้งกับหัวหน้าแผนกให้วัดซ้ำไม่ได้ผล เพราะหัวหน้าแน่ใจว่าคนของเขาเชื่อถือได้ ยิ่งไปกว่านั้น เครื่องมือยังมีป้ายทองเหลืองระบุว่าสามารถวัดได้เท่าที่ระบุไว้ วันหนึ่งเพื่อนผมเข้ามาในเช้าวันจันทร์แล้วพูดว่าเขาทิ้งกระเป๋าเอกสารไว้บนรถไฟขากลับวันศุกร์และทำของหายหมด หัวหน้าแผนกจึงไม่มีทางเลือกอื่นนอกจากสั่งให้วัดซ้ำ จากนั้นเพื่อนผมก็นำบันทึกเดิมมาให้ดูและแสดงให้เห็นว่าข้อมูลเพี้ยนมากเพียงใด นั่นทำให้เขาไม่เป็นที่นิยม แต่ก็เปิดโปงความไม่ถูกต้องของการวัดซึ่งจะมีบทบาทสำคัญในขั้นต่อไป
เพื่อนสถิติเคยทำการศึกษาหนึ่งให้กับบริษัทภายนอกเกี่ยวกับรูปแบบการโทรของสำนักงานใหญ่ ข้อมูลถูกบันทึกโดยอุปกรณ์ของศูนย์กลางเดียวกันที่วางสายและออกค่าโทร วันหนึ่งเขาไปเจอสายหนึ่งที่โทรไปยังศูนย์กลางที่ไม่มีอยู่จริง! เมื่อเขาตรวจละเอียดขึ้นพบว่ามีสัดส่วนมากของการโทรที่ถูกต่อไปยังศูนย์กลางที่ไม่มีอยู่จริงเป็นเวลาหลายนาที ข้อมูลนั้นถูกบันทึกโดยเครื่องเดียวกันที่วางสาย แต่ก็ยังมีข้อมูลไม่ถูกต้องอยู่ดี คุณยังไม่สามารถไว้ใจเครื่องให้เก็บข้อมูลเกี่ยวกับตัวมันเองได้อย่างถูกต้องด้วยซ้ำ!
พี่ชายของผมซึ่งทำงานที่กรมมลพิษทางอากาศลอสแอนเจลิสมาหลายปี เคยบอกว่าพวกเขาพบว่าจำเป็นต้องถอดประกอบ ประกอบใหม่ และปรับเทียบ ทุก เครื่องมือใหม่ที่ซื้อเข้ามา มิฉะนั้นพวกเขาจะมีปัญหาเรื่องความแม่นยำไม่จบสิ้น และไม่ต้องสนใจคำโฆษณาของผู้ขาย!
ครั้งหนึ่งผมทำการศึกษาสินค้าคงคลังขนาดใหญ่ให้กับ Western Electric ข้อมูลดิบที่พวกเขาให้มาคือบันทึกสินค้าคงคลัง 18 เดือนสำหรับสินค้าราวๆ 100 รายการ ผมตั้งคำถามตามสมควรว่าทำไมผมควรเชื่อว่าข้อมูลมีความสอดคล้อง — ตัวอย่างเช่น บันทึกอาจแสดงการเบิกจ่ายได้แม้จะไม่มีของในคลังหรือไม่? พวกเขาอ้างว่าพวกเขาคิดถึงเรื่องนั้นและได้เพิ่มธุรกรรมเทียมบางรายการไว้เพื่อให้เหตุการณ์เช่นนั้นไม่เกิดขึ้น ผมเชื่อพวกเขาอย่างโง่ๆ และเพิ่งรู้ช้าในโครงการว่ายังมีความไม่สอดคล้องหลงเหลืออยู่ ดังนั้นผมต้องหาและแก้ไข แล้วจึงประมวลผลข้อมูลซ้ำ จากประสบการณ์นั้นผมเรียนรู้ว่าห้ามประมวลผลข้อมูลใดๆ จนกว่าจะได้ตรวจสอบความผิดพลาดอย่างละเอียดก่อน มีคนบ่นว่าผมใช้เวลานานไป แต่แทบทุกครั้งผมก็พบข้อผิดพลาด และเมื่อผมชี้ให้พวกเขาดู พวกเขาต้องยอมรับว่าการรอบคอบของผมเป็นสิ่งที่ควรทำ ไม่ว่าจะข้อมูลศักดิ์สิทธิ์เพียงใดและคำตอบเร่งด่วนแค่ไหน ผมได้เรียนรู้ที่จะทดสอบความสอดคล้องและหาค่าผิดปกติเป็นขั้นต่ำเสมอ
ผมเคยเข้าไปเป็นผู้สอบสวนและต่อมาทำหน้าที่เป็นที่ปรึกษาสำหรับการศึกษาบุคลากรขนาดใหญ่ของ at&t ซึ่งใช้เครื่อง univac ที่เช่าในนครนิวยอร์ก ข้อมูลจะมาจากหลายแหล่ง ผมคิดว่าควรทำการศึกษาต้นแบบก่อนเพื่อให้แน่ใจว่าแหล่งข้อมูลต่างๆ เข้าใจว่าจะเกิดอะไรขึ้นและจะเตรียมบัตร IBM (ibm cards) อย่างไร เราทำการศึกษาต้นแบบนี้ แต่เมื่อข้อมูลของการศึกษาหลักเข้ามา บางแหล่งไม่ได้เจาะบัตรตามที่ถูกสั่งไว้ ผมคิดไม่มากก็เข้าใจว่าสาเหตุคือการศึกษาต้นแบบที่มีขนาดเล็กส่งไปยังกลุ่มผู้เชี่ยวชาญด้านการเจาะบัตรในท้องถิ่น แต่การศึกษาหลักต้องทำโดยกลุ่มศูนย์กลาง โชคร้ายสำหรับผมคือพวกเขาไม่เข้าใจวัตถุประสงค์ของการศึกษาต้นแบบ! อีกครั้งผมไม่เฉลียวฉลาดอย่างที่คิด — ผมไม่เข้าใจกลไกภายในขององค์กรขนาดใหญ่
Figure 27.1—ข้อมูลที่ไม่น่าเชื่อถือ
แล้วข้อมูลทางวิทยาศาสตร์พื้นฐานล่ะ? ในสิ่งพิมพ์ของ nbs เกี่ยวกับค่าพื้นฐานทางฟิสิกส์สิบค่า—ความเร็วของแสง, จำนวนอาโวกาโดร, ประจุของอิเล็กตรอน ฯลฯ—มีชุดข้อมูลสองชุดพร้อมค่าความคลาดเคลื่อน ผมสังเกตอย่างรวดเร็วว่าถ้าเอาชุดที่สองเป็นค่าที่ถูกต้อง (โดยจุดประสงค์ของตารางคือเพื่อแสดงว่าความแม่นยำดีขึ้นแค่ไหนในช่วง 24 ปีระหว่างการรวบรวม) ค่าเฉลี่ยของระยะที่ค่าที่ใหม่ตกออกนอกช่วงความผิดพลาดเดิมคือ 5.267; ผมเป็นผู้เพิ่มคอลัมน์ท้ายสุดเข้าไป (Figure 27.1) ตอนนี้คุณคงคิดว่าค่าคงที่ทางฟิสิกส์พวกนี้ถูกคำนวณอย่างรอบคอบ แต่กลับผิดพลาดได้ขนาดนี้! การรวบรวมค่าคงที่ครั้งถัดไปแสดงความผิดพลาดเฉลี่ยน้อยลงเกือบครึ่ง (Figure 27.2) จะเหลือเพียงให้สงสัยว่าอีกสักยี่สิบปีจะเผยอะไรเกี่ยวกับความแม่นยำที่กล่าวถึงล่าสุดนี้! กล้าพนันไหม?
Figure 27.2—ค่าคงที่ทางฟิสิกส์ที่แตกต่างกันเล็กน้อย
เรื่องนี้ไม่ใช่เรื่องแปลก ผมเพิ่งเห็นตารางการวัดค่าคงที่ของฮับเบิล (Hubble’s constant — ความชันของเส้นที่เชื่อมระหว่าง red shift กับระยะทาง) ซึ่งเป็นพื้นฐานของจักรวาลวิทยาสมัยใหม่ ส่วนใหญ่ของค่าที่รายงานนั้นตกอยู่นอกความผิดพลาดที่ประกาศไว้สำหรับค่าส่วนใหญ่
ด้วยการวัดเชิงสถิติอย่างตรงไปตรงมา ค่าคงที่ทางฟิสิกส์ที่ดีที่สุดในตารางจึงไม่ได้แม่นยำอย่างที่อ้างไว้ ทำไมจึงเป็นเช่นนี้? ความประมาทและความมองโลกในแง่ดีเป็นปัจจัยหลัก การครุ่นคิดนานยังบอกว่าทักษะการทดลองปัจจุบันที่คุณถูกสอนก็มักมีข้อบกพร่องและทำให้เกิดความผิดพลาดในการอ้างความแม่นยำ ลองพิจารณาวิธีที่คุณทำการทดลองจริงๆ ไม่ใช่ในทฤษฎี คุณประกอบอุปกรณ์และเปิดมัน แน่นอนว่าอุปกรณ์มักจะทำงานผิดพลาด ดังนั้นคุณจึงต้องใช้เวลาบ่อยครั้งเป็นสัปดาห์เพื่อให้มันทำงานได้ จากนั้นคุณก็พร้อมจะเก็บข้อมูล แต่ก่อนอื่นคุณจะต้อง ปรับตั้งละเอียด ทำอย่างไร? โดยปรับจนได้การทดลองที่สม่ำเสมอ! พูดง่ายๆ คือ คุณปรับเพื่อลดความแปรปรวน; แล้วคุณจะทำอย่างอื่นได้อย่างไร? แต่ข้อมูลที่มีความแปรปรวนน้อยนี้แหละที่คุณส่งให้นักสถิติและใช้เพื่อประมาณค่าความผันแปร คุณไม่ได้ส่งข้อมูลที่ถูกต้องจากการปรับที่ถูกต้อง—คุณไม่รู้วิธีทำ—คุณส่งข้อมูลที่มีความแปรปรวนน้อย แล้วรับความเชื่อถือสูงที่คุณอยากอ้างจากนักสถิติ! นั่นเป็นปฏิบัติทั่วไปในห้องปฏิบัติการ! ไม่แปลกใจเลยที่ข้อมูลจะไม่ค่อยแม่นยำตามที่อ้างไว้
ผมขอนำเสนอ 'กฎของ Hamming' (Hamming’s rule):
90% ของเวลา การวัดอิสระครั้งถัดไปจะตกอยู่นอกขอบเขตความเชื่อมั่น 90% ที่ระบุไว้ก่อนหน้า!
กฎานี้จริงๆ แล้วอาจพูดเกินความจริงเล็กน้อย แต่เมื่อนำเสนอแบบนี้มันเป็นกฎที่จดจำได้—ความแม่นยำของการวัดที่ตีพิมพ์ส่วนใหญ่ไม่ได้ดีอย่างที่อ้าง มันยึดตามประสบการณ์ชีวิตและสะท้อนความผิดหวังในภายหลังเกี่ยวกับความแม่นยำที่อ้างไว้ ผมไม่เคยยื่นขอทุนเพื่อทำการศึกษาขนาดใหญ่อย่างเป็นระบบ แต่อย่างน้อยผมก็มั่นใจในผลของการศึกษาลักษณะนั้น
ปรากฏการณ์ที่น่าสนใจอีกอย่างที่คุณอาจพบคือ เมื่อพยายามฟิตข้อมูลเข้ากับโมเดล จะมีข้อผิดพลาดทั้งจากข้อมูลและจากโมเดลเอง เช่น อาจสมมติการแจกแจงแบบปกติ (normal distribution) แต่หางของการแจกแจงจริงอาจใหญ่กว่าหรือเล็กกว่าที่แบบจำลองทำนายได้ และอาจไม่มีค่าติดลบได้เลย แม้แบบจำลองปกติจะอนุญาต ดังนั้นจึงมีแหล่งข้อผิดพลาดสองด้าน เมื่อความสามารถในการวัดแม่นยำขึ้น ความผิดพลาดจากแบบจำลองจะกลายเป็นส่วนหนึ่งที่เพิ่มขึ้นของความผิดพลาดทั้งหมด
ผมจำได้ถึงประสบการณ์ขณะที่ผมเป็นคณะกรรมการบริษัทคอมพิวเตอร์แห่งหนึ่ง เราจะเปิดตัวครอบครัวใหม่ของคอมพิวเตอร์และได้เตรียมการประมาณต้นทุนอย่างรอบคอบสำหรับทุกด้านของโมเดลใหม่ แล้วพนักงานขายคนหนึ่งประเมินว่า ถ้าราคาขายเป็นราคาหนึ่ง เขาจะได้คำสั่งซื้อสิบเครื่อง ถ้าเป็นอีกราคาหนึ่งได้ 15 เครื่อง และอีกราคาได้ 20 เครื่อง การเดาของเขา (ซึ่งผมไม่ได้บอกว่าผิด) ถูกนำไปรวมกับข้อมูลวิศวกรรมที่รอบคอบเพื่อใช้ตัดสินใจเรื่องราคาขาย! ความเชื่อถือได้ของการประมาณทางวิศวกรรมส่วนใหญ่ถูกถ่ายโอนสู่ผลรวม และความไม่แน่นอนของการเดาของพนักงานขายกลับถูกมองข้าม นั่นไม่ใช่เรื่องแปลกในองค์กรใหญ่ การประมาณที่รอบคอบถูกรวมกับการเดาที่สุ่ม และความเชื่อถือได้ของทั้งหมดถูกถือว่าเท่ากับความเชื่อถือได้ของส่วนที่เป็นวิศวกรรม คุณอาจสงสัยว่าทำไมยังต้องทำการประมาณทางวิศวกรรมอย่างละเอียดเมื่อสิ่งเหล่านั้นต้องไปรวมกับการเดาที่ไม่แม่นยำ แต่นั่นคือสิ่งที่เกิดขึ้นในหลายสาขา!
ผมพูดถึงวิทยาศาสตร์และวิศวกรรมก่อน เพื่อว่าพอผมพูดถึงข้อมูลเศรษฐกิจคุณจะไม่ยี้มากนัก หนังสือเล่มหนึ่งที่ผมอ่านหลายครั้งคือ Morgenstern's On the Accuracy of Economic Measurements, Princeton Press, 2nd ed. เขาเป็นนักเศรษฐศาสตร์ผู้ได้รับความเคารพอย่างสูง
ตัวอย่างที่ผมชอบจากหนังสือของเขาคือ ตัวเลขทางการเกี่ยวกับการไหลของทองคำจากประเทศหนึ่งไปยังอีกประเทศหนึ่ง ซึ่งถูกรายงานโดยทั้งสองฝ่าย ตัวเลขนั้นบางครั้งอาจต่างกันมากกว่าสองต่อหนึ่ง! ถ้าพวกเขายังบอกการไหลของทองคำไม่ถูกต้อง ข้อมูลชนิดไหนที่คุณคิดว่าเชื่อถือได้? ผมพอจะเห็นได้ว่าอุปกรณ์ไฟฟ้าที่ส่งไปยังประเทศโลกที่สามอาจถูกติดป้ายว่าเป็นอุปกรณ์การแพทย์เพราะอัตราภาษีนำเข้าต่างกัน แต่ทองก็คือทอง และไม่ง่ายที่จะเรียกมันว่าอย่างอื่น
Morgenstern ชี้ให้เห็นว่าเคยมีครั้งหนึ่งที่ DuPont Chemical ถือหุ้นของ General Motors ประมาณ 23% คุณคิดว่ามันจะปรากฏอย่างไรเมื่อคำนวณผลิตภัณฑ์มวลรวมแห่งชาติ (gnp)? แน่นอนมันถูกนับสองครั้ง!
ตัวอย่างที่ผมเจอเองคือ มีช่วงหนึ่งเมื่อไม่นานมานี้ กฎภาษีสำหรับการรายงานสินค้าคงคลังถูกเปลี่ยน ทำให้หลายบริษัทเปลี่ยนวิธีการรายงานสินค้าคงคลังเพื่อให้ได้ผลประโยชน์ทางภาษี หมายความว่าพวกเขาสามารถแสดงสินค้าคงคลังน้อยลงและจ่ายภาษีน้อยลง ผมเฝ้าดูใน Wall Street Journal เพื่อดูว่ามีการพูดถึงประเด็นนี้หรือไม่ แต่ผมไม่เห็นการกล่าวถึงเลย! ทั้งที่การถือครองสินค้าคงคลังเป็นหนึ่งในดัชนีหลักที่ใช้ประเมินความคาดหวังของผู้ผลิตว่าเศรษฐกิจกำลังจะขึ้นหรือลง ข้อโต้แย้งคือเมื่อผู้ผลิตคิดว่ายอดขายจะลดลง พวกเขาจะลดสินค้าคงคลัง และเมื่อคาดว่ายอดขายจะเพิ่มขึ้น พวกเขาจะเพิ่มสินค้าคงคลังเพื่อไม่ให้พลาดการขาย การที่กฎกติกาทางกฎหมายเปลี่ยนแปลงวิธีการรายงานสินค้าคงคลังและเป็นส่วนหนึ่งของสิ่งที่อยู่เบื้องหลังการวัดไม่ได้ถูกกล่าวถึง เท่าที่ผมเห็น
ปัญหานี้เกิดขึ้นในชุดข้อมูลอนุกรมเวลา (time series) ทั้งหมด คำนิยามของสิ่งที่วัดได้เปลี่ยนแปลงอยู่เสมอ ตัวอย่างที่อาจเป็นตัวอย่างที่ดีที่สุดคือความยากจน เราปรับเกณฑ์ความยากจนขึ้นเรื่อยๆ ดังนั้นเป็นเรื่องยากที่จะกำจัดความยากจน—พวกเขาจะเปลี่ยนคำนิยามจนมีคนจำนวนพอที่จะอยู่ต่ำกว่าระดับความยากจนเพื่อให้โครงการที่พวกเขาจัดการยังคงอยู่ต่อไป! สิ่งที่เรียกว่า “ความยากจน” ในหลายแง่มุมตอนนี้กลับดีกว่าสมัยที่กษัตริย์อังกฤษยังปกครองไม่นานมานี้!
ในกองทัพเรือ yeoman คนหนึ่งไม่ได้หมายถึง yeoman คนเดียวกันตลอดปี และเรือหนึ่งลำก็ไม่ได้หมายถึงเรือลำเดิมตลอดเวลา ฯลฯ ดังนั้นชุดข้อมูลอนุกรมเวลาที่คุณศึกษาหาแนวโน้มของกองทัพเรือจะมีปัจจัยนี้เป็นตัวรบกวนการตีความของคุณ ไม่ได้บอกว่าคุณไม่ควรพยายามใช้ข้อมูลอดีตเพื่อเข้าใจสถานการณ์ (และขณะทำให้ใช้การประมวลสัญญาณขั้นสูง บทที่ 14–17) แต่ปัญหายังคงรอคุณอยู่เนื่องจากการเปลี่ยนคำนิยามที่อาจไม่เคยถูกระบุไว้ในบันทึกอย่างเป็นทางการ! คำนิยามมักเปลี่ยนตามเวลาโดยไม่ประกาศอย่างเป็นทางการ
รูปแบบของดัชนีเศรษฐกิจต่างๆ ที่คุณเห็นถูกตีพิมพ์เป็นประจำ รวมถึงการว่างงาน (ซึ่งไม่ได้แยกระหว่างคนว่างงานกับคนที่ไม่สามารถทำงานได้ แต่ในความเห็นของผมควรแยก) มักถูกกำหนดขึ้นเมื่อยาวนานมาแล้ว สังคมของเราเปลี่ยนจากการผลิตเป็นการบริการอย่างรวดเร็วเมื่อปีหลังๆ แต่ทั้ง Washington, DC และดัชนีเศรษฐกิจยังไม่ได้ตระหนักถึงเรื่องนี้ในระดับที่เหมาะสม ความลังเลที่จะเปลี่ยนนิยามของตัวชี้วัดเศรษฐกิจมักอิงกับข้ออ้างว่า การเปลี่ยนแปลงทำให้อดีตเปรียบเทียบกับปัจจุบันไม่ได้ — ดีกว่าจะมีตัวชี้วัดที่ไม่เกี่ยวข้อง มากกว่าจะมีตัวชี้วัดที่ไม่สอดคล้องกัน พวกเขากล่าว สถาบันและผู้คนส่วนใหญ่ชอบไปต่ออย่างราบรื่นและจึงล่าช้าจากการเปลี่ยนแปลงมากกว่าที่จะพยายามเตรียมตัวให้ทัน สถาบัน เช่นเดียวกับคน มักจะขยับก็ต่อเมื่อถูกบีบให้ทำ
ถ้าคุณเพิ่มข้อเท็จจริงง่ายๆ ว่าส่วนใหญ่ของข้อมูลเศรษฐกิจถูกรวบรวมเพื่อวัตถุประสงค์อื่นและมีให้ใช้สำหรับการศึกษาทางเศรษฐกิจโดยบังเอิญ และมีสาเหตุอันแรงกล้าที่จะปลอมแปลงข้อมูลต้นฉบับที่รายงานได้บ่อยครั้ง คุณก็จะเห็นว่าทำไมข้อมูลเศรษฐกิจจึงไม่ดี
อีกแหล่งหนึ่งของความไม่แม่นยำที่ Morgenstern กล่าวถึงคือ การให้ส่วนลดแก่ลูกค้าพิเศษเป็นเรื่องปกติและเป็นความลับ ในช่วงเศรษฐกิจตกต่ำ บริษัทมักให้ส่วนลดมากขึ้น และลดส่วนลดเมื่อสถานการณ์ดีขึ้น แต่ตัวเลขของรัฐบาลเกี่ยวกับต้นทุนต้องอิงจากราคาที่ระบุในบัญชีขาย เนื่องจากส่วนลดไม่สามารถรู้ได้ ดังนั้นช่วงเศรษฐกิจตกต่ำและช่วงฟื้นตัวจึงมีอคติในทิศทางต่างกันในข้อมูลที่ถูกรวบรวม
รัฐบาลนักเศรษฐศาสตร์จะหาอะไรใช้เป็นข้อมูลพื้นฐานอื่นนอกจากข้อมูลที่ไม่แม่นยำและมีอคติแบบนี้? ใช่ พวกเขาอาจตระหนักถึงอคติในระดับหนึ่ง แต่ก็ไม่มีวิธีที่จะแน่ใจว่าข้อมูลผิดพลาดมากแค่ไหน ดังนั้นจึงไม่ควรแปลกใจที่การพยากรณ์เศรษฐกิจหลายอย่างผิดพลาดอย่างมาก พวกเขาไม่มีทางเลือกอื่นมากนัก ดังนั้นอย่าเชื่อถือการพยากรณ์ของพวกเขามากเกินไป
จากประสบการณ์ของผม นักเศรษฐศาสตร์ส่วนใหญ่ไม่เต็มใจที่จะพูดคุยเกี่ยวกับความไม่แม่นยำพื้นฐานในข้อมูลเศรษฐกิจที่พวกเขาใช้ ดังนั้นผมจึงไม่ค่อยเชื่อถือพวกเขาในฐานะนักวิทยาศาสตร์ แต่ใครจะบอกว่าศาสตร์เศรษฐศาสตร์เป็นวิทยาศาสตร์ล่ะ? มีเพียงนักเศรษฐศาสตร์เท่านั้นที่กล่าวเช่นนั้น!
ถ้าข้อมูลทางวิทยาศาสตร์และวิศวกรรมมักไม่แม่นยำตามที่อ้างไว้ บางครั้งผิดพลาดเป็นตัวคูณถึงห้าเท่าหรือมากกว่า และข้อมูลเศรษฐกิจอาจแย่กว่านั้น คุณคิดว่าข้อมูลสังคมศาสตร์จะเป็นอย่างไร? ผมไม่มีการศึกษาที่ครอบคลุมทั้งสาขา แต่ประสบการณ์จำกัดของผมบอกว่ามันไม่ค่อยดีอีกเช่นกัน อีกครั้ง อาจไม่มีอะไรที่ดีกว่าให้เลือก แต่สิ่งที่มีอยู่ไม่ได้ปลอดภัยต่อการใช้งาน
ควรชัดเจนว่าผมให้ความสำคัญกับเรื่องความแม่นยำของข้อมูลมาตลอดอาชีพ ด้วยทัศนคติของผู้เชี่ยวชาญ ผมไม่คาดหวังการปรับปรุงอย่างรวดเร็วในอนาคตอันใกล้
ถ้าข้อมูลมักไม่ดี และคุณพบว่าต้องเก็บข้อมูลด้วยตนเอง คุณจะทำอย่างไรให้ดีขึ้น? ประการแรก ให้ตระหนักถึงสิ่งที่ผมพูดซ้ำๆ ว่า มนุษย์ไม่ได้ถูกออกแบบให้เชื่อถือได้; เขานับไม่ถูกต้องและทำซ้ำได้ไม่ดีเป็นพิเศษ ตัวอย่างเช่น ลองนึกถึงเกมโบว์ลิ่ง สิ่งที่นักโบว์ลิ่งต้องทำมีเพียงโยนบอลลงเลนอย่างสม่ำเสมอเท่านั้น จะมีสักกี่ครั้งที่ผู้เชี่ยวชาญที่สุดจะโรลเกมสมบูรณ์แบบ! ทีมฝึกซ้อม การบินแม่นยำ และสิ่งประเภทนี้ได้รับการยกย่องเพราะต้องการการฝึกรัดกุมที่สุด แต่เมื่อพิจารณาอย่างละเอียดก็ยังมีที่ให้ปรับปรุงอีกมาก
ประการที่สอง คุณไม่สามารถเก็บปริมาณข้อมูลจำนวนมากได้อย่างแม่นยำ มันเป็นข้อเท็จจริงที่รู้กันแต่ก็ถูกมองข้ามอยู่เสมอ เป็นเรื่องของทรัพยากรจำกัดและเวลาจำกัด โดยปกติฝ่ายบริหารมักต้องการสำรวจ 100% ขณะที่ตัวอย่างเล็กๆ ที่คัดเลือกดี เช่น 1% หรือแม้แต่ 0.1% จะให้ผลที่แม่นยำกว่า! มันเป็นเรื่องที่รู้กันแต่ก็ยังถูกละเลย บริษัทโทรศัพท์เคยใช้ตัวอย่างขนาดเล็กที่คัดเลือกอย่างระมัดระวังเพื่อนำรายได้ไปแบ่งให้บริษัทที่เกี่ยวข้องในสายโทรศัพท์ระยะไกล การกระทำแบบเดียวกันนี้ทำโดยสายการบินเช่นกัน พวกเขาใช้เวลานานกว่าจะยอมฟัง แต่สุดท้ายก็ยอมรับความจริงว่า ตัวอย่างเล็กที่คัดเลือกอย่างดีดีกว่าตัวอย่างใหญ่ที่ทำได้แย่ — ทั้งในแง่ต้นทุนที่ต่ำกว่าและความแม่นยำที่มากกว่า
สรุป: I recently filled out a long, important questionnaire (important in the consequent management actions which might follow). I filled it out as honestly as I could, but realized I was not a typical respondent. Further thought suggested the class of people being surveyed was not homogeneous at all, but rather was a collection of quite different subclasses, and hence any computed averages will apply to no group. It is much like the famous remark that the average American family has two and a fraction children, but of course no family has a fractional child! Averages are meaningful for homogeneous groups (homogeneous with respect to the actions that may later be taken), but for diverse groups averages are often meaningless. As earlier remarked, the average adult has one breast and one testicle, but that does not represent the average person in our society.
สรุป: If the range of responses is highly skewed, we have recently admitted publicly that the median is often preferable to the average (mean) as an indicator. Thus they often now publish the median income and median price of houses, and not the average amounts.
สรุป: Fourth, there is another aspect I urge you to pay attention to. I have said repeatedly that the presence of a high-ranking officer of an organization will change what is happening in the organization at that place and at that time, so while you are still low enough to have a chance, please observe for yourself how questionnaires are filled in. I had a clear demonstration of this effect when I was on the board of directors of a computer company. I saw underlings did what they thought would please me, but in fact angered me a good deal, though I could say nothing to them about it. Those under you will often do what they think you want, and often it is not at all what you want! I suggest, among other things, you will find that when headquarters in your organization sends out a questionnaire, those who think they will rate highly will more often than not promptly fill them out, and those who do not feel so will tend to delay, until there is a deadline, and then some low-level person will fill them out from hunches, without taking the measurements which were to be taken—it is too late to do it right, so send in what you can! What these “made-up” reports do to the reliability of the whole is anyone’s guess. It may make the results too high, too low, or even not change the results much. But it is from such surveys the top management must make their decisions—and if the data is bad, it is likely the decisions will be bad.
สรุป: A favorite pastime of mine, when I read or hear about some data, is to ask myself how people could have gathered it—how their conclusions could be justified. For example, years ago when I was remarking on this point at a dinner party, a lovely widow said she could not see why data could not be gathered on any topic. After some moments of thought I replied, “How would you measure the amount of adultery per year on the Monterey Peninsula?” Well, how would you? Would you trust a questionnaire? Would you try to follow people? It seems difficult, and perhaps impossible, to make any reasonably accurate estimate of the amount of adultery per year. There are many other things like this which seem to be very hard to measure, and this is especially true in social relationships.
สรุป: There is a clever proposed method whose effectiveness I do not know in practice. Suppose you want to measure the amount of murder which escapes detection. You interview people and tell them to toss a coin without anyone but themselves seeing the outcome, and then if it is heads they should claim they have committed a murder, while if it is tails they should tell the truth. In the arrangement there is no way anyone except themselves can know the outcome of the toss, hence no way they can be accused of murder if they say so. From a large sample the slight excess of murders above one-half gives the measure you want. But that supposes the people asked, and given protection, will in fact respond accurately. Variations on this method have been discussed widely, but a serious study to find the effectiveness is still missing, so far as I know.
สรุป: In closing, you may have heard of the famous election where the newspapers announced the victory for President to one man when in fact the other won by a landslide. There is also the famous Literary Digest poll which was conducted via the telephone and was amazingly wrong—so far wrong that the Literary Digest folded soon after, some people say because of this faulty poll. It has been claimed that at that time the ownership of a telephone was correlated with wealth, and wealth with a political party, hence the error.
สรุป: Surveys are not a job for an amateur to design, administer, and evaluate. You need expert advice on questionnaires (not just a run-of-the-mill statistician) when you get involved with questionnaires, but there seems to be little hope questionnaires can be avoided. More and more we want not mere facts about hard material things, but we want social and other attitudes surveyed—and this is indeed very treacherous ground.
สรุป: In summary, as you rise in your organization you will need more and more of this kind of information than was needed in the past, since we are becoming more socially oriented and subject to lawsuits for trivial things. You will be forced, again and again, to make surveys of personal attitudes of people, and it is for these reasons I have spent so much time on the topic of unreliable data. You need reliable data to make reliable decisions, but you will seldom have it with any reliability!