Thursday, November 5, 2009

Suy luận theo qui tắc tam suất

Đọc trên bauxitevn.net thấy có bài “Đại học về làng” của Hà Văn Thịnh, trong đó tác giả có đề cập đến câu nói của Bộ trưởng Bộ Giáo dục và Đào tạo: “Bộ trưởng Nguyễn Thiện Nhân cho rằng 377 trường ĐH, CĐ là quá nhiều nên nếu muốn kiểm tra, mỗi trường mất 2 tuần thì phải mất đến 20 năm mới kiểm tra hết.” Tôi ngạc nhiên khi thấy ông bộ trưởng làm cách tính này! Khó mà tưởng tượng nổi đây là cách nói của một ngài bộ trưởng với trình độ tiến sĩ và [hình như có] mang hàm giáo sư.

Cách tính toán của ông Bộ trưởng còn có tên là “qui tắc tam suất” mà tôi nghĩ ai học toán thời tiểu học cũng đều biết qua. Dù chỉ là phương pháp cấp tiểu học, nhưng nó được sử dụng rất phổ biến trên mặt báo để gây ấn tượng. Cách đây vài tháng, một nhà kinh tế (người Hàn Quốc) tính toán rằng với đà phát triển kinh tế hiện nay Việt Nam cần đến 197 năm để bắt kịp Singapore. Ước tính dễ gây sốc này quả thật thu hút sự chú ý của giới báo chí (*).

Nhưng ít ai biết rằng đó là cách tính trẻ con, một cách ngụy biện cho vui, chứ những ai làm khoa học nghiêm chỉnh (hay chỉ cần chịu khó suy nghĩ một chút) thì cách suy luận theo qui tắc tam suất đó rất sai lầm. Vậy thì câu hỏi đặt ra là: cách suy luận đó sai ở chỗ nào? Có ít nhất là 3 sai lầm hiển nhiên:

Sai lầm thứ nhất là cách tính đó giả định rằng có một mối liên hệ tuyến tính (đường thẳng) giữa hai biến, như biến thời gian kiểm tra chất lượng (gọi tắt là T) và số trường đại học (gọi tắt là N). Khi nói cần đến 2 tuần để kiểm tra một trường, thì cũng có nghĩa là cái thông số gradient của phương trình này là 14 ngày. Nói cách khác, phương trình của mối liên hệ giữa T N là:

T = 14N.

Nhưng trong thực tế thì làm gì có mối liên hệ tuyến tính đơn giản như thế! Có thể lần đầu kiểm tra một trường, thời gian cần thiết là 14 ngày, nhưng dần dần với kinh nghiệm tích lũy, cách làm chỉnh chu hơn, qui trình thuần thục hơn, thì thời gian để kiểm tra một trường sẽ giảm dần, đến một mức “plateau” nào đó (chẳng hạn như 1 tuần). Nói cách khác, mối liên hệ giữa T N chắc chắn không tuân theo qui luật đường thẳng, và do đó, cách ước tính đơn giản như qui tắc tam suất cũng sai.

Sai lầm thứ hai là giả định bắt đầu bằng 0. Phương trình trên có nghĩa là T = a + bN, (a là hằng số intercept) và trong phát biểu trên hàm ý cho rằng a = 0 và b = 14 . Nói cách khác, nếu không có trường nào thì thời gian kiểm tra T là 0. Nhưng điều này không đúng, vì trong thực tế thì Việt Nam có nhiều trường, hay nói cho chính xác hơn là, quá nhiều trường. Do đó, a không thể là 0 được. Và, vì a khác với 0, nên lấy T/N không thể là một cách tính đúng được (vì loại bỏ a).

Sai lầm thứ ba là không xem đến những sai số và dao động chung quanh hai thông số a b. Bởi vì b chắc chắn khác nhau giữa các trường (như trường lớn thì cần nhiều thời gian hơn trường nhỏ) và thay đổi theo thời gian (càng làm càng học hỏi thêm), cho nên giả định rằng b = 14 là không thể đứng vững được.

Nói chung, rất nhiều vấn đề trong thực tế không thể mô hình hóa bằng những cách tính cấp tiểu học, và càng không thể qui chiếu bằng chủ nghĩa trung bình. Do đó, những suy luận như cách nói của ngài bộ trưởng và ông kinh tế gia Hàn Quốc kia không thể xem là chuẩn mực khoa học được. Đã không chuẩn mực khoa học thì có lẽ cũng nên xem đó là những lời nói “mua vui cũng được một vài trống canh” (y như entry này vậy).

NVT

(*) Một cách dễ gây sốc khác là phát biểu kiểu “mỗi phút có 10 người chết vì tai nạn xe cộ”. Phát biểu này dựa vào con số tử vong tai nạn xe cộ mỗi năm là 5,256,000 (chỉ ví dụ thôi). Bởi vì mỗi năm có 365 x 24 x 60 = 52,600 phút, cho nên mỗi phút có 10 người chết. Cách tính thì chẳng có gì sai, nhưng giả định thì có vấn đề. Cái giả định đằng sau cách tính này là con số tử vong tai nạn xảy ra một cách đồng bộ (uniform) từng phút. Nhưng trong thực tế thì con số tai nạn giao thông và tử vong tuân theo luật phân phối Poisson, cho nên cách lấy tổng số chia cho thời gian, đứng trên mặt khoa học, là sai lầm.

No comments: