คุณอาจคิดว่าชื่อบทความหมายว่าถ้าวัดได้แม่นยำก็จะได้ผลลัพธ์ที่แม่นยำ ถ้าไม่ก็ไม่ แต่ความหมายที่แท้จริงลึกกว่า—วิธีที่คุณเลือกจะวัดสิ่งต่างๆ นั้นมีผลกำหนดต่อสิ่งที่จะเกิดขึ้นในระดับมาก ผมขอเล่าเรื่องที่ Eddington เล่าว่า ชาวประมงคนหนึ่งไปจับปลาด้วยแห พวกเขาตรวจดูขนาดปลาที่จับได้แล้วสรุปว่ามีขนาดขั้นต่ำของปลาทะเล เครื่องมือที่คุณใช้ย่อมส่งผลต่อสิ่งที่คุณเห็น
ตัวอย่างที่เป็นที่นิยมในปัจจุบันของผลกระทบนี้คือการใช้ bottom line ของงบกำไรขาดทุนประจำไตรมาสในการประเมินว่าบริษัททำผลงานได้ดีแค่ไหน ซึ่งส่งผลให้บริษัทมักมุ่งแต่กำไรระยะสั้นและไม่ค่อยใส่ใจกับกำไรระยะยาว
ถ้าระบบการให้คะแนนเริ่มต้นที่ 95% ทุกคนก็แทบจะทำอะไรให้คะแนนเพิ่มไม่ได้ แต่มีหลายสิ่งที่อาจทำให้คะแนนลดลง กลยุทธ์ชัดเจนของบุคลากรคือเล่นปลอดภัย และด้วยเหตุนี้คนที่ขึ้นมาจะเป็นคนระมัดระวังมากขึ้น เมื่อขึ้นไประดับสูงแม้คุณอาจอยากเลื่อนตำแหน่งคนที่กล้ารับความเสี่ยง แต่กลุ่มคนที่คุณจะเลือกได้ส่วนใหญ่ก็เป็นคนอนุรักษ์นิยมอยู่ดี
ระบบการให้คะแนนในช่วงแรก ๆ อาจมีแนวโน้มคัดคนที่คุณต้องการในภายหลังออกไป
ถ้าคุณเริ่มระบบให้คะแนนโดยที่คะแนนเฉลี่ยอยู่ราว 50% ระบบจะสมดุลกว่า และถ้าคุณต้องการเน้นการรับความเสี่ยง คุณอาจตั้งคะแนนเริ่มต้นไว้ที่ประมาณ 20% หรือต่ำกว่า เพื่อจูงใจให้คนพยายามเพิ่มคะแนนด้วยการเสี่ยง เพราะถ้าล้มเหลวเสียหายไม่มาก แต่ถาสำเร็จได้ประโยชน์มาก ในการส่งเสริมการรับความเสี่ยงในองค์กร คุณต้องสนับสนุนระดับการเสี่ยงที่เหมาะสมในช่วงแรกพร้อมโอกาสเลื่อนตำแหน่ง เพื่อในที่สุดจะมีผู้กล้ารับความเสี่ยงโผล่ขึ้นมาที่ตำแหน่งสูงสุด
บางสิ่งที่คุณเลือกจะวัดได้แบบชัดเจน เช่น ความสูงและน้ำหนัก ขณะที่บางอย่างเป็นเรื่องนุ่มนวล เช่น ทัศนคติทางสังคม มักมีแนวโน้มที่จะหยิบการวัดที่แข็งและชัดเจน แม้มันอาจไม่เกี่ยวกับเป้าหมายเท่ากับการวัดที่นุ่มนวลซึ่งในระยะยาวอาจสำคัญกว่า ความถูกต้อง ของการวัดมักถูกสับสนกับ ความเกี่ยวข้อง ของการวัด มากกว่าที่คนส่วนใหญ่เชื่อ การวัดที่แม่นยำ ทวนได้ และทำได้ง่าย ไม่ได้แปลว่าควรทำเสมอไป แต่การวัดที่ด้อยกว่าแต่เกี่ยวข้องกับเป้าหมายมากกว่าอาจดีกว่า ตัวอย่างเช่น ในโรงเรียนมักวัดการฝึกฝน (training) ได้ง่ายกว่าแง่มุมของการศึกษา (education) จึงมักเห็นการเน้นที่ส่วนของการฝึกมากกว่าการให้ความสำคัญกับการศึกษาโดยรวม
ขอเล่าอีกตัวอย่างผลจากระบบการวัดด้วยการนิยามและใช้ IQs วิธีทำคือจัดรายการคำถามที่ดูเหมาะสมจากประสบการณ์ที่ผ่านมาแล้วทดลองกับกลุ่มตัวอย่างเล็ก ๆ คำถามที่แสดงความสัมพันธ์ภายในชุดจะถูกเก็บไว้ ส่วนที่ไม่สัมพันธ์จะถูกตัด ต่อมาแบบทดสอบที่ปรับปรุงแล้วถูกปรับเทียบโดยใช้กับตัวอย่างที่ใหญ่ขึ้น อย่างไร? โดยนำคะแนนสะสม (จำนวนคนที่ได้คะแนนน้อยกว่าค่าหนึ่ง) มาพล็อตลงบน probability paper—แกนนอนคือความน่าจะเป็นสะสมของการแจกแจงปกติ จุดที่คะแนนจริงสะสมตกตามเปอร์เซ็นต์ต่าง ๆ จะถูกเชื่อมผ่านตารางการปรับเทียบกับจุดที่สอดคล้องบนโค้งความน่าจะเป็นสะสมแบบปกติ ผลก็คือสังเกตว่า intelligence มีการแจกแจงแบบปกติในประชากร! แน่นอนว่ามันเป็นเช่นนั้น เพราะได้ถูกทำให้เป็นเช่นนั้น ยิ่งกว่านั้นพวกเขานิยาม intelligence ให้เท่ากับสิ่งที่แบบทดสอบหลังการปรับเทียบวัดได้ และถ้านั่นคือนิยามของ intelligence ก็แน่นอนว่า intelligence ถูกแจกแจงแบบปกติ แต่ถ้าคุณคิดว่า intelligence อาจไม่ใช่สิ่งที่แบบทดสอบวัดได้อย่างเป๊ะ คุณก็มีเหตุผลที่จะสงสัยว่าการแจกแจงแบบปกติสะท้อนความเป็นจริงหรือไม่ อีกครั้ง คุณจะได้สิ่งที่ถูกวัด และการประกาศว่าการแจกแจงเป็นแบบปกตินั้นเป็นผลพวงจากวิธีการวัดและแทบไม่เกี่ยวกับความจริงโดยตรง
เมื่อออกข้อสอบปลายภาค เช่น วิชาคณิตวิเคราะห์ ผมสามารถได้การแจกแจงเกรดแทบทุกแบบที่ต้องการ ถ้าทำข้อสอบให้ยากเท่ากันทุกคำตอบ นักเรียนจะมีแนวโน้มได้คะแนนเต็มหรือไม่ได้เลย ดังนั้นการแจกแจงจะมีจุดสูงที่ปลายทั้งสอง Figure 29.1 หากในทางกลับกันมีคำถามบางข้อที่ง่าย หลายข้อปานกลาง และไม่กี่ข้อที่ยากมาก จะได้การแจกแจงแบบปกติทั่วไป มีคนบางส่วนที่ปลายทั้งสองด้านและคนส่วนใหญ่กลางตาราง Figure 29.2 ชัดเจนว่าถ้าผมรู้จักชั้นเรียน ผมสามารถจัดให้ได้การแจกแจงตามที่ต้องการ โดยทั่วไปตอนสอบปลายภาคผมกังวลเรื่องจุดตัดผ่าน-ตกมากที่สุด จึงออกข้อสอบให้ชัดเจนว่าจะตัดสินอย่างไรและมีหลักฐานแน่นในกรณีมีคำร้องเรียน
สรุป:
Figure 29.1—Results of uniformly hard test
Figure 29.2—ผลลัพธ์จากข้อสอบที่สมดุลมากขึ้น
สรุป: Still another aspect of a rating system is its dynamic range. Suppose you are given a scale of 1 to 10, with 5 being the average. Most people will give ratings of 4, 5, and 6, and seldom venture, if ever, to the extremes of 1 and 9. If you give a 6 to what you like, but I use the entire dynamic range and assign a 2 to what I do not like, then the effect of the two of us is that while we may differ equally in our opinion, the sum of the ratings will be 6 + 2 = 8, and the average will be 4—the effect of my opinion more than wipes out yours! In using a rating scheme you should try to use the entire dynamic range, and if you do you will have a much larger effect on the final average—provided it is done, as most such cases are, by blind averaging of the ratings assigned. Remember, coding theory says the entropy (the average surprise) is maximum when the distribution is uniform. You have the most information when all the grades are used equally, as you may recall from Chapter 13 on information theory.
ถ้าคุณมองการให้เกรดในวิชาเป็น communication channel ดังที่กล่าวไว้ การใช้ ทุก ระดับเกรดอย่างเท่าเทียมจะสื่อสารข้อมูลได้มากที่สุด ขณะที่การใช้เกรดสูงสุดหลักสองระดับอย่าง A และ B ในโรงเรียนบัณฑิตส่วนใหญ่ จะลดปริมาณข้อมูลที่ส่งได้มาก ผมเข้าใจว่า Naval Academy ใช้วิธีจัดอันดับในชั้นเรียน ซึ่งในแง่หนึ่งเป็นการป้องกัน "grade inflation" และการไม่ใช้ช่วง dynamic range ของสเกลอย่างสม่ำเสมอ จึงสื่อข้อมูลมากที่สุดเมื่อมีตัวอักษรจำกัดสำหรับเกรด ข้อเสียหลักของการใช้การจัดอันดับเป็นเกรดคือบางครั้งโดยบังเอิญกลุ่มนั้นอาจมีคนเก่งกันหมด แต่ก็ต้องมีคนอยู่ล่างสุดคนหนึ่งเสมอ!
ยังมีเรื่องการดึงคนเข้ามาในสาขานั้นตั้งแต่แรก ในจิตวิทยาเห็นได้ง่ายว่าคนที่เข้ามาในสาขานั้นมักมีความคิดสับสนมากกว่าค่าเฉลี่ยของอาจารย์และนักศึกษาทั่วไป—ไม่ใช่ว่าหลักสูตรเป็นสาเหตุเพียงอย่างเดียว แม้ว่าผมคิดว่าหลักสูตรอาจยิ่งทำให้สับสนขึ้น แต่การคัดเลือกเริ่มแรกต่างหากที่ทำหน้าที่นี้ ในทำนองเดียวกัน วิทยาศาสตร์แข็งและวิทยาศาสตร์อ่อนมีแรงดึงและแรงผลักตาม ลักษณะที่รับรู้เมื่อแรกเห็น ของสาขา ไม่จำเป็นต้องสอดคล้องกับลักษณะจริงของสาขานั้น ดังนั้นคนมักเข้าไปในสาขาที่เอื้อกับความพิเศษของตน ซึ่งเมื่อเข้าไปแล้วลักษณะเหล่านั้นมักจะถูกเสริมแรงขึ้น ผลคือคนที่ไม่สมดุลแต่เชี่ยวชาญสูง ซึ่งอาจจำเป็นเพื่อให้ประสบความสำเร็จในสภาพปัจจุบัน
ในคณิตศาสตร์และใน computer science ก็เกิดผลจากการคัดเลือกเริ่มแรกเช่นกัน ในช่วงต้นของคณิตศาสตร์จนถึงแคลคูลัส และในช่วงต้นของ computer science เกรดมักสัมพันธ์กับความสามารถทำรายละเอียดจำนวนมากอย่างน่าเชื่อถือ แต่ต่อมา โดยเฉพาะในคณิตศาสตร์ คุณสมบัติที่จำเป็นเปลี่ยนไปเป็นการพิสูจน์ทฤษฎี รูปแบบการให้เหตุผล และความสามารถตั้งสมมติฐานผลใหม่ๆ ทฤษฎีใหม่ และคำนิยามใหม่ๆ ที่มีความหมาย ต่อมาอีกเป็นความสามารถมองเห็นภาพรวมของสาขาเป็นหน่วย ไม่ใช่แค่ชิ้นส่วน แต่กระบวนการให้เกรดในช่วงแรกได้คัดคนที่คุณอาจต้องการในขั้นต่อมาออกไปมาก เหตุการณ์ใน computer science ก็คล้ายกัน ความสามารถรับมือกับรายละเอียดการเขียนโปรแกรมมวลชนสนับสนุนคนประเภทหนึ่ง ซึ่งมักมีความสัมพันธ์ทางลบกับการมองภาพใหญ่อย่างที่ต้องการ
แผนกบุคคลก็มีผลต่อการสรรหาคนเข้าสู่ระบบ หากมีการสรรหาสำหรับงานวิจัย สมาชิกแผนกบุคคลทั่วไปในองค์กรขนาดใหญ่มักไม่ได้มองหาคนที่ใช่ นักวิจัยที่ดีเพราะมีวิธีคิดที่สร้างสรรค์ในวิทยาศาสตร์และวิศวกรรม มักแสดงความแปลกใหม่ในพฤติกรรมและการแต่งกาย—ซึ่งไม่ดึงดูดผู้สรรหาทั่วไป ดังนั้นอย่างที่ Bell Telephone Laboratories ทำ มักให้คนในฝ่ายวิจัยไปรับสมัครเองและแผนกบุคคลจะรู้สึกกลัว นี่ไม่ใช่จุดเล็กๆ การสรรหาคนรุ่นหนึ่งจะกำหนดคนรุ่นต่อไปขององค์กร
นอกจากนี้ยังมีปัญหาเรื่องการเลื่อนตำแหน่งในระบบส่วนใหญ่ ในระดับสูงสมาชิกปัจจุบันเลือกคนรุ่นต่อไป—และมักเลือกคนที่เหมือนตัวเอง คนที่พวกเขาอยู่ด้วยแล้วจะรู้สึกสบายใจ คณะกรรมการบริษัทมีอิทธิพลอย่างมากต่อการเสนอชื่อผู้บริหารและกรรมการชุดต่อไป (ผลมักเป็นไปโดยอัตโนมัติ) ผลคือเกิดการคัดเลือกซ้ำวง (inbreeding) แต่ก็ทำให้องค์กรมีบุคลิกเฉพาะตัว วิธีการเลื่อนตำแหน่งแบบให้คนในระดับสูงเลือกกันเองมีทั้งดีและไม่ดี เรื่องนี้ยังเกี่ยวกับหัวข้อว่า "you get what you measure" เพราะมีเรื่องการประเมินและเกณฑ์ที่ใช้ ซึ่งแม้อาจไม่รู้ตัวแต่ก็ยังคงอยู่
ในอดีตนานมาแล้วเพื่อป้องกันการคัดเลือกซ้ำๆ ภาคคณิตศาสตร์หลายแห่ง (ซึ่งผมคุ้นเคยมากกว่าภาคอื่น) มีกฎทั่วไปว่าไม่รับบัณฑิตของตนเอง เข้าใจว่าในปัจจุบันกฎนี้ไม่ค่อยใช้แล้ว—ในทางกลับกันมีแนวโน้มรับบัณฑิตของตัวเองมากขึ้น มีหลายครั้งที่ภาคเศรษฐศาสตร์ถูกคัดเลือกจนแนวคิดเหมือนกันมากจนผู้บริหารของมหาวิทยาลัยต้องเข้ามาสับเปลี่ยนและรับสมัครเอง เพื่อให้ได้ความสมดุลของความคิดเห็นในมหาวิทยาลัย เรื่องแบบเดียวกันเคยเกิดในภาคจิตวิทยา กฎหมาย และคณะอื่น ๆ
อย่างที่กล่าวไป ระบบการให้คะแนนที่ให้คนที่อยู่ "in" เลือกคนรุ่นต่อไปมีทั้งข้อดีและข้อเสีย และต้องจับตาไม่ให้มีการคัดเลือกซ้ำมากเกินไป บางระดับของการคัดเลือกซ้ำช่วยให้มีมุมมองร่วมและการทำงานเข้ากันได้ดีขึ้น แต่ก็ลดโอกาสนวัตกรรมในอนาคต ผมคิดว่าในอนาคตที่การเปลี่ยนแปลงจะเป็นสภาพปกติ เรื่องนี้จะเป็นปัญหาใหญ่กว่าที่ผ่านมา—และที่ผ่านมาเป็นปัญหาจริง ๆ
ผมหวังว่าคุณเข้าใจว่าผมไม่ได้ตั้งใจจะตำหนิมากนัก แต่พยายามยกตัวอย่างเพื่ออธิบายหัวข้อของบทนี้—คุณจะได้สิ่งที่คุณวัด คนที่ตั้งระบบการให้คะแนนหรือวิธีการบันทึกต่าง ๆ มักไม่ค่อยคิดถึงเรื่องนี้ แต่ในระยะยาวมันมีผลอย่างมหาศาลต่อทั้งระบบ—มักในทิศทางที่พวกเขาไม่เคยนึกถึงเลย
แม้การวัดจะทำได้ไม่ดีแล้วเป็นเรื่องแย่ แต่ก็ไม่มีทางหนีการวัด การให้คะแนนคนและสิ่งต่าง ๆ ต้องมีขึ้น คนคนเดียวเท่านั้นจะเป็นหัวหน้าองค์กรได้ในเวลาหนึ่ง ๆ และการเลือกต้องย่อความซับซ้อนให้เป็นสเกลง่าย ๆ เพื่อเปรียบเทียบ อย่าไปเถียงว่ามนุษย์ซับซ้อนเหมือนเวกเตอร์หรือมากกว่านั้น คนที่ซับซ้อนบวกผลจากสภาพแวดล้อมจะต้องถูกย่อให้เป็นมาตราวัดหนึ่ง ซึ่งอาจเกิดขึ้นในใจโดยไม่รู้ตัว แต่มันต้องเกิดขึ้น ไม่ว่าคุณจะเชื่อในการให้คะแนนหรือไม่ก็เถอะ ในสังคมที่มีลำดับชั้น ความแตกต่างของอำนาจหรือคุณสมบัติอื่น ๆ จะต้องมีการจัดอันดับบ่อย ๆ คุณอาจเกลียดการให้เกรดเหมือนผม แต่ก็ต้องทำเป็นประจำในสังคม หากสังคมนั้นไม่เท่าเทียมอย่างสมบูรณ์ คุณก็ต้องเจอกับมันบ่อย ๆ คุณควรตระหนักและพยายามทำงานนี้ให้ดีกว่าคนส่วนใหญ่ เพราะคนส่วนมากมักตัดสินและเดินหน้าต่อโดยไม่ให้ความสนใจและไม่เรียนรู้จากผู้อื่น
คงเห็นแล้วว่าช่วงการวัดต่าง ๆ ส่งผลอย่างไร พวกมันเป็นเรื่องพื้นฐานแต่ปกติได้รับความสนใจน้อยมาก เพื่อเสริมสิ่งที่ผมพูด ผมจะยกตัวอย่างเพิ่มเติมว่ามาตรวัดส่งผลอย่างไรต่อระบบ
แผ่นดินไหวมักถูกวัดด้วยสเกลริกเตอร์ (Richter scale) ซึ่งใช้ลอการิทึมของพลังงานที่ประเมินได้ ผมไม่ได้บอกว่านี่ผิด แต่ผลคือมีแผ่นดินไหวใหญ่ ๆ อย่างขนาด 7 และ 8 ไม่กี่เหตุการณ์ และมีแผ่นดินไหวเล็ก ๆ จำนวนมาก ผมไม่รู้การแจกแจงตามมาตรวัดของธรรมชาติ แต่สงสัยว่า Mother Nature จะใช้สเกลริกเตอร์หรือไม่ การแปลงเชิงเส้น เช่นจากฟุตเป็นเมตร ไม่ซีเรียส แต่การแปลงสเกลที่ไม่เชิงเส้นเป็นเรื่องอื่น ส่วนใหญ่เราใช้สเกลลอการิทึมในการวัดสิ่งกระตุ้นที่ส่งไปยังมนุษย์ แต่สำหรับน้ำหนักและความสูงเราใช้สเกลเชิงเส้น สเกลเชิงเส้นทำให้การบวกรวมง่าย แต่สำหรับสเกลไม่เชิงเส้นจะไม่เป็นเช่นนั้น เช่น การวัดขนาดฝูงสัตว์มักนับจำนวนสัตว์ ดังนั้นการบวกรวม—เพิ่มฝูง 3 กับ 3 เป็น 6—ก็เหมาะ แต่ถ้ามีฝูง 1,000 แล้วเพิ่ม 3 มันต่างกันมาก ดังนั้นการบวกรวมตามจำนวนอาจไม่ใช่มาตรวัดที่เหมาะ สมในกรณีนี้ percentage change อาจให้ข้อมูลมากกว่า
แล้วจะตัดสินใจใช้สเกลใดในการวัดสิ่งต่าง ๆ ล่ะ? ไม่มีคำตอบง่าย ๆ จริง ๆ ผมมีข้อสังเกตที่ไม่สวยว่าในขณะที่สเกลหนึ่งเหมาะกับการสรุปบางชนิดในสาขาหนึ่ง อีกสเกลหนึ่งอาจเหมาะกับการตัดสินใจอีกชนิดในสาขาเดียวกัน แต่คนไม่ค่อยรับรู้หรือใช้สิ่งนี้แน่นอน บางครั้งเราจะเงียบ ๆ แปลงสเกลเมื่อใช้สูตรได้ แต่การเลือกสเกลในการใช้งานเฉพาะเป็นเรื่องยาก ขึ้นอยู่กับสาขา ทฤษฎีที่มีอยู่ และทฤษฎีใหม่ที่คุณหวังจะค้นพบ ทั้งหมดนี้อาจไม่ช่วยคุณมากนักในสถานการณ์เฉพาะหน้า
อีกเรื่องที่ผมเคยพูดถึงต้องกลับมาคือ ความเร็วที่คนตอบสนองต่อการเปลี่ยนแปลงในระบบให้คะแนน ผมเล่าว่ามีการต่อสู้ระหว่างผมกับผู้ใช้คอมพิวเตอร์ ผมพยายามปรับให้ระบบทำงานดีที่สุดสำหรับ 'ระบบโดยรวม' ในขณะที่พวกเขาพยายามปรับให้เหมาะกับการใช้ของตัวเอง การเปลี่ยนแปลงใด ๆ ที่คุณคิดว่าจะปรับปรุงประสิทธิภาพของระบบโดยรวม มักจะไม่เวิร์กถ้าคุณไม่ได้คิดถึงการตอบสนองของแต่ละบุคคล—พวกเขาจะเปลี่ยนนิสัยแน่นอน คุณเพียงคิดถึงการปรับเส้นทางอาชีพของตัวเองและว่าการเปลี่ยนแปลงระบบการให้คะแนนในอดีตได้เปลี่ยนแผนและกลยุทธ์ของคุณอย่างไร
บางระบบการวัดมีข้อบกพร่องชัดเจน แต่ประเพณีและความสะดวกต่าง ๆ ทำให้มันยังคงอยู่ ตัวอย่างคือความพร้อมของกองทัพเรือ เรือถูกตรวจเป็นประจำด้วยรายการทีละรายการ และผู้บังคับเรือจะเตรียมเรือและลูกเรือสำหรับการตรวจแต่ละรายการโดยละเลยส่วนอื่น ๆ จนคะแนนสูง แต่เมื่อเราจัดการสงครามจำลอง ความพร้อมจริงของกองเรืออาจไม่ตรงกับรายงานเลย แต่เราต้องใช้ตัวเลขที่รายงานเพราะถ้าเราใช้ข้อมูลอื่นคงไม่มีใครเชื่อ จึงต้องฝึกคนในเกมสงครามให้ใช้กองเรือในอุดมคติ ไม่ใช่ของจริง เรื่องเดียวกันในเกมธุรกิจ เราฝึกผู้บริหารให้ชนะในเกมจำลอง ไม่ใช่โลกจริง ผมปล่อยให้คุณคิดว่าถ้าคุณเป็นคนรับผิดชอบและอยากรู้ความพร้อมจริงขององค์กร คุณจะทำอย่างไร การตรวจแบบสุ่มไม่ได้แก้ปัญหาทุกอย่าง แต่จะช่วยให้ดีขึ้นบ้าง
ปัญหานี้มีอยู่ในทุกองค์กร ตอนที่คุณยังอยู่ระดับล่างขององค์กร คุณคงเห็นเองว่ารายงานต่าง ๆ แสดงออกมาอย่างไรและแตกต่างจากความจริงอย่างไร มันจะยังเป็นแบบนี้ต่อไปจนกว่าคุณจะขึ้นมาปรับอย่างจริงจัง กองทัพอากาศใช้การตรวจแบบสุ่ม แต่ตามที่เพื่อนอดีตกัปตันเรือบอก ผู้บังคับฐานแต่ละคนมีเรดาร์และรู้ว่ามีอะไรในอากาศ และถ้าเขาจะถูกตรวจและไม่รู้ตัว เขาก็ต้องเป็นคนโง่ แต่เขามีเวลาน้อยกว่าการตรวจที่กำหนดล่วงหน้า ดังนั้นรายงานจากการตรวจแบบสุ่มมักใกล้เคียงความจริงกว่าการตรวจที่รู้กันล่วงหน้า ใช่ การตรวจคือการวัด และคุณจะได้สิ่งที่คุณวัด ข่าวว่าจะมีการตรวจมักเผยแพร่ผ่านข่าวลือ และผู้รับที่ทำเป็นประหลาดใจก็มักเตรียมตัวมาตั้งแต่เช้านั้น
อีกเรื่องที่ชัดเจนแต่ควรกล่าวคือ ความนิยมของรูปแบบการวัดไม่สัมพันธ์กับความถูกต้องหรือความเกี่ยวข้องกับองค์กร
อีกเรื่องที่ต้องพูดถึงคือทั่วทั้งองค์กรแต่ละคนต่างบิดเบือนข้อมูลเล็กน้อยเพื่อให้ตัวเองดูดี—เพียงเพื่อความคิดของเขาเอง สิ่งที่ช่วยให้ผู้บริหารระดับสูงคือการที่ระดับล่างแต่ละระดับบิดได้เพียงเล็กน้อย และบ่อยครั้งเป้าหมายของแต่ละระดับต่างกัน ทำให้การบิดที่เกิดขึ้นหลายชั้นมักหักล้างกันไปตามกฎความน่าจะเป็น หากทั้งองค์กรร่วมกันหลอกผู้บริหาร ก็ยากที่ผู้บริหารจะแก้ไขได้ ตอนหนึ่งตอนที่ผมเป็นกรรมการ บางครั้งผมมาถึงก่อนหรืออยู่ต่อหลังประชุมแล้วเดินสำรวจถามและสังเกต เพื่อดูว่าของที่รายงานเป็นจริงหรือไม่ เช่น ตอนที่สินค้าคงคลังสูงเพราะเปลี่ยนสายการผลิตคอมพิวเตอร์ ทำให้ต้องมีชิ้นส่วนของทั้งสองสาย ช่วงนั้นผมเดินไปที่คลังและมองของว่าในใจผมมีความเห็นว่ามีความคลาดเคลื่อนมากน้อยแค่ไหนหรือจำนวนที่รายงานสมเหตุสมผลหรือไม่
อีกครั้ง เครื่องจักรคอมพิวเตอร์ที่เราควรจะส่งจริง ๆ อยู่บนชานชาลาหรือเป็นเรื่องแต่งขึ้น? จากการสอดส่องผมพบว่าปลายไตรมาสเครื่องที่จะส่งมาถูกส่งจริง แต่บ่อยครั้งได้มาจากกระบวนการรวบรวมเครื่องจากสายการผลิตในภายหลัง (scavenging) และสัปดาห์ต่อมาใช้เวลาในการปรับสภาพเครื่องที่นำมาจากที่อื่นให้พร้อมใช้งาน ผมไม่สามารถหยุดนิสัยไม่ดีของพนักงานได้ แม้ว่าผมจะเป็นกรรมการก็ตาม หากคุณมองไปรอบ ๆ องค์กรคุณจะพบเรื่องแปลก ๆ มากมายที่ไม่ควรเกิดแต่ถูกถือเป็นธรรมเนียมปฏิบัติโดยพนักงาน
เรื่องแปลกอีกอย่างคือสิ่งที่ระดับหนึ่งมองว่าเป็นอย่างเดียวกัน แต่ระดับสูงมองต่างออกไป เช่น ค่าประเมินความสามารถ (evaluations of capability) ขององค์กรที่ระดับล่างให้ มักถูกตีความเป็นความน่าจะเป็นเมื่ออยู่ในระดับสูง ทำไมเป็นเช่นนี้? เพราะระดับล่างไม่สามารถส่งมอบสิ่งที่ระดับสูงต้องการได้ จึงส่งสิ่งที่ทำได้มาให้ และระดับสูงเองเพราะอยากได้ตัวเลขก็จงใจเปลี่ยนความหมายของรายงาน
ผมพูดถึงการทดสอบอายุการใช้งานแล้ว—สิ่งที่ทำได้กับสิ่งที่ต้องการไม่เหมือนกันเลย ตอนนี้เรายังไม่รู้วิธีส่งมอบสิ่งที่ต้องการคือความน่าเชื่อถือหลายปีในระดับความเชื่อมั่นสูงสำหรับชิ้นส่วนที่เพิ่งส่งมาให้เรา ปัญหานี้ไม่หายไป แต่สามารถออกแบบให้มีความน่าเชื่อถือตั้งแต่ต้นได้ หนึ่งในปัญหาแรกของผมที่ Bell Telephone Laboratories คือการออกแบบชุดวงแหวนวงกลมซ้อนของทองแดงและเซรามิก โดยเลือกขนาดรัศมีให้เมื่ออุณหภูมิเปลี่ยน เซรามิกจะอยู่ในสภาวะถูกอัด (compression) เสมอและไม่ตกอยู่ในสภาวะถูกดึง (tension) ซึ่งเซรามิกทนแรงดึงได้น้อย การออกแบบดังกล่าวฝังความน่าเชื่อถือไว้ในตัว ผมคิดว่ายังทำสิ่งนี้ได้ไม่พอ แต่ตามที่ผมพูดว่าเมื่อเขาบอกว่าไม่มีเวลาให้ทำงานให้ถูกต้อง เสมอจะมีเวลาให้มาซ่อมทีหลัง
มีระบบการให้คะแนนที่ฝังองค์ประกอบการตัดสินของมนุษย์ไว้—ซึ่งฟังดูดี แต่ขอเล่าเรื่องที่ทำให้ผมประทับใจ ผมพัฒนาวิธีด้วยเครื่องคอมพิวเตอร์ในการประเมินการเลื่อนเฟส (phase shifts) จากเกนที่วัดได้ที่ความถี่ต่าง ๆ ซึ่งมาแทนวิธีด้วยมือมนุษย์ ผมไม่ได้อ้างว่าดีกว่า เพียงแต่เมื่อเราเปลี่ยนจากเสียงไปสู่แบนด์วิดท์ของทีวี วิธีด้วยมือทำงานไม่ได้ วันหนึ่งชายฉลาดคนหนึ่งบอกผมว่า "เมื่อก่อนที่มนุษย์ทำ เราไม่สามารถปรับปรุงต่อได้เพราะความแปรปรวนแบบสุ่มของคน แต่ตอนนี้ที่คุณเอาธรรมชาติสุ่มนั้นออก เราอาจเรียนรู้อะไรที่ไม่เห็นมาก่อน" วิธีการให้คะแนนที่ตัดส่วนการตัดสินของมนุษย์ออกมีข้อดีบางอย่าง—แต่ว่าอย่าเข้าใจว่าผมคัดค้านการใส่องค์ประกอบการตัดสินของมนุษย์ วิธีการเชิงรูปแบบส่วนใหญ่มีขอบเขตจำกัด และความซับซ้อนของความเป็นจริงแทบไม่มีที่สิ้นสุด ดังนั้นการตัดสินของมนุษย์ถ้าใช้ด้วยความรอบคอบมักเป็นสิ่งที่ดี—แม้ว่าจะยืนอยู่ในเส้นทางของความก้าวหน้าด้วยมุมมองที่มีอคติได้บ้าง
จากทั้งหมดนี้อย่าเพิ่งสรุปว่าการวัดทำไม่ได้—การวัดทำได้แน่นอน แต่คำถามเรื่องความเกี่ยวข้องและผลกระทบของรูปแบบการวัดควรถูกคิดให้รอบคอบที่สุดก่อนที่คุณจะนำการวัดรูปแบบใหม่เข้ามาใช้ในองค์กร การเปลี่ยนแปลงที่หลีกเลี่ยงไม่ได้ในอนาคตและพลังของคอมพิวเตอร์ที่เพิ่มขึ้นในการตรวจติดตามอัตโนมัติหมายความว่าจะมีระบบการวัดใหม่ ๆ เข้ามาใช้มากมาย—ซึ่งคุณอาจต้องออกแบบ จัดระบบ และติดตั้งเอง ดังนั้นผมจะเล่าอีกเรื่องหนึ่งเกี่ยวกับผลของการวัด
ในงานคอมพิวเตอร์ มักวัดความพยายามในการโปรแกรมจากจำนวนบรรทัดของโค้ด—มีมาตรวัดไหนง่ายกว่านี้อีกไหม? จากมุมมองของโปรแกรมเมอร์ไม่มีเหตุผลให้ล้างโค้ดออก ตรงกันข้ามถ้าต้องการคะแนนผลิตภาพสูงในสเกลนั้นมีเหตุผลให้เก็บคำสั่งส่วนเกินไว้—รวมถึงใส่ "bells and whistles" บ้างถ้าเป็นไปได้ มาตรวัดความผลิตซอฟต์แวร์แบบนี้ซึ่งใช้กันแพร่หลายเป็นหนึ่งในเหตุผลที่เรามีระบบซอฟต์แวร์ขยายตัวอย่างหนักในปัจจุบัน มันเป็นแรงจูงใจที่สวนทางกับการสร้างโค้ดที่สะอาด กะทัดรัด และเชื่อถือได้ ซึ่งเราต้องการอีกครั้ง มาตรวัดที่ใช้มีอิทธิพลต่อลักษณะผลลัพธ์ในลักษณะที่เป็นภัยต่อทั้งระบบ! และยังสร้างนิสัยที่ยากจะเปลี่ยนในภายหลัง
เมื่อถึงคิวคุณที่จะติดตั้งระบบการวัด หรือแม้แต่แสดงความคิดเห็นต่อระบบที่คนอื่นใช้ ให้คิดให้รอบด้านถึงผลข้างเคียงที่จะเกิดกับองค์กร โดยหลักการการวัดเป็นเรื่องดี แต่บ่อยครั้งก็ทำให้เกิดโทษมากกว่าผลดี ผมหวังว่าข้อความนี้จะไปถึงคุณอย่างชัดเจน:
คุณจะได้สิ่งที่คุณวัด