Friday, December 23, 2016

Lại bàn về PISA: khái niệm effect size

Tôi thấy một cách để hiểu đúng kết quả PISA là qua khái niệm effect size. Trong y khoa và tâm lí học thì effect size rất phổ biến, nhưng áp dụng effect size vào nghiên cứu giáo dục có thể cũng có ích vì nó nói lên đúng hơn bản chất của so sánh điểm thi giữa các nước. Và, khi đã có kết quả tính toán effect size, chúng ta sẽ thấy rằng bảng xếp hạng PISA không có ý nghĩa gì nhiều.



Trong khoa học, chúng ta thường hay nghe người ta nói [kiểu như] "Học sinh Việt Nam có điểm toán cao hơn học sinh Úc", và nhiều người ["ngây thơ"] hiểu rằng tất cả học sinh Việt Nam đều có điểm cao hơn học sinh Úc. Nhưng cách hiểu đó sai. Thật ra, câu nói "Học sinh Việt Nam có điểm toán cao hơn học sinh Úc" còn mù mờ, vì đáng lí ra phải là "Tính trung bình, học sinh Việt Nam có điểm toán cao hơn học sinh Úc". Khi nói "cao" hay "thấp" hơn ở đây, người ta ngầm nói về số trung bình, chứ không phải điểm của từng học sinh.

Trong thực tế, có một số học sinh Việt Nam có điểm cao hơn học sinh Úc; và ngược lại, một số học sinh Úc có điểm cao hơn học sinh Việt Nam. Một số em của hai nhóm, có lẽ là đa số, có điểm trùng hợp nhau. Con số trung bình không phản ảnh được thực tế đó. Do đó, câu hỏi quan trọng hơn là có bao nhiêu phần trăm học sinh giữa hai nhóm có điểm trùng lập nhau (tức là không khác nhau)? Câu hỏi thứ phát mà chúng ta muốn biết là nếu chúng ta chọn ngẫu nhiên hai học sinh, một em người Việt và một em người Úc, xác suất mà học sinh Việt có điểm cao hơn là bao nhiêu? Con số trung bình hay kiểm định t không trả lời được câu hỏi này. Chúng ta cần đến một chỉ số khác: effect size (ES).

Định nghĩa ES

Nhưng trước hết, để tôi giải thích khái niệm effect size, mà có thể vài bạn chưa nghe đến nó hay có nghe mà đã quên. ES là một chỉ số đo lường mức độ ảnh hưởng sau khi đã điều chỉnh cho độ lệch chuẩn. Một ví dụ nhỏ sẽ giúp các bạn hiểu rõ hơn: tôi đo hai marker về chu chuyển xương có tên là Xlap và PINP cho nhóm điều trị (A) và nhóm chứng (B), và kết quả như sau:

·       Xlap: trung bình (SD) cho nam là 265 (75), và nữ là 236 (70);
·       PINP: trung bình (SD) cho nam là 45 (22), và nữ là 40 (20).

Nhìn vào kết quả thì chúng ta dễ thấy rằng nhóm điều trị có Xlap và PINP cao hơn nhóm chúng. Mức độ khác biệt giữa A và B cho Xlap là 29 pg/mL, và cho PINP là 5 ng/mL. Chúng ta không thể so sánh hiệu số 29 và 5 vì hai marker này được đo lường bằng 2 đơn vị khác nhau. Một cách tốt hơn là "chuẩn hoá" cho độ lệch chuẩn (SD), bằng cách lấy hiệu số giữa nhóm A và B, và chia kết quả cho SD:

·       Xlap: ES = (265 - 236) / 75 = 0.39
·       PINP: ES = (22 - 20) / 22 = 0.09

Cách tính đó được gọi là "standardized difference", hay bên tâm lí học họ gọi là "effect size". Bởi vì độ lệch chuẩn và trung bình có cùng đơn vị, nên ES không có đơn vị. Vì không có đơn vị, nên chúng ta dễ so sánh mức độ ảnh hưởng giữa hai chỉ số.  Kết quả tính toán ES cho thấy điều trị có ảnh hưởng trên Xlap (0.39) cao hơn ảnh hưởng trên ES (0.09).

Xác suất trùng lập

Điều có ích của ES là chúng ta có thể đánh giá được mức độ trùng nhập của phân bố giữa hai nhóm. Khi ES càng cao thì mức độ trùng lập càng thấp. Dĩ nhiên, khi xác suất trùng lập thấp thì mức độ phân định giữa hai nhóm càng rõ ràng. (Tất cả tính toán này dựa trên giả định phân bố chuẩn, tức normal distribution).

Ngoài ra, chúng ta muốn biết nếu chọn 1 người trong nhóm A và 1 người trong nhóm B, thì xác suất mà người nhóm A có điểm cao hơn (hay thấp hơn) nhóm B là bao nhiêu. Với ES chúng ta có thể tính xác suất này dễ dàng.

Hình dưới đây cho thấy khi ES = 3 (tức là cao gấp 3 lần SD) thì xác suất trùng nhập giữa hai nhóm (vùng màu xanh lá cây đậm) là ~13%. Nhưng nếu ES=1 thì xác suất trùng nhập giữa hai nhóm lên đến 62%. Riêng ví dụ trên về Xlap, với ES =0.39, chúng ta có thể đoán rằng mức độ trùng lập giữa nhóm chứng và nhóm điều trị lên đến 84%. Do đó, nhìn mức độ khác biệt tưởng là cao, nhưng nhìn thực tế hơn về xác suất trùng lập thì nó không cao như chúng ta nghĩ.

 
Xác suất trùng lập giữa hai nhóm (diện tích vùng màu xanh lá cây đậm) với effect size = 3 (biểu đồ bên tay trái) và effect size =1 (biểu đồ bên tay phải) 


ES cho điểm PISA

Quay lại với điểm PISA năm 2015. Học sinh VN ta được xếp hạng 8, còn Singapore thì đứng hạng nhất, và Mĩ hạng 25. Nếu nhìn vào hạng thì rõ ràng là Singapore có lí do để ăn mừng, và VN cũng thế vì học sinh VN hơn Mĩ khá xa. Nhưng chúng ta thử nhìn vào điểm trung bình của 3 nhóm học sinh:

·       Singapore: 556
·       Việt Nam: 525
·       Mĩ: 496

Học sinh Singapore hơn học sinh ta (tính trung bình) 31 điểm. Wow, quá ấn tượng! Nhưng điều an ủi là học sinh ta hơn học sinh Mĩ đến 29 điểm. Nhưng so sánh như thế chưa "công bằng", nên chúng ta thử chuẩn hoá cho độ lệch chuẩn. Độ lệch chuẩn của điểm khoa học kì này là 100. Do đó, chúng ta có kết quả:

·       Singapore - Vietnam = (556 - 525) / 100 = 0.31
·       Vietnam - USA = (525 - 496) / 100 = 0.29

Như vậy, mức độ khác biệt giữa hai nước chỉ 0.3 độ lệch chuẩn mà thôi. Mức độ trùng lập giữa hai nước là bao nhiêu? Câu trả lời là 88%.

Xác suất trùng lập điểm môn khoa học giữa hai nhóm (diện tích vùng màu xanh lá cây đậm) với effect size = 0.3 giữa học sinh Singapore và Việt Nam, và giữa học sinh Việt Nam và Mĩ 

Thêm một cách hiểu khác: với ES=0.3, nếu chúng ta chọn ngẫu nhiên 1 học sinh Việt Nam và một học sinh Singapore, trị thì xác suất mà học sinh Singapore có điểm cao hơn học sinh Việt Nam là chỉ ~58% mà thôi. (Chỉ khi nào xác suất này cao hơn 90% thì chúng ta mới có lí do để ... buồn).

Kết quả diễn giải trên có nghĩa là chúng ta không nên quá xem trọng các thứ hạng trong bảng xếp hạng của PISA vì nó chẳng có ý nghĩa gì nhiều. Chẳng hạn như Latvia có hạng cao hơn Nga một bậc, nhưng điểm trung bình thì chỉ khác nhau đúng 3 điểm; Đan Mạch cao hơn Ba Lan 1 hạng, nhưng hai nước này chỉ khác nhau 1 điểm trung bình (xem bảng xếp hạng dưới đây). Thứ hạng không cung cấp cho chúng ta thông tin chính xác hơn số điểm. Nhưng số điểm cần phải đặt trong bối cảnh, và trong trường hợp này bối cảnh chính là độ dao động giữa các học sinh, phản ảnh qua độ lệch chuẩn. Kết quả là chúng ta có ES. Chỉ số ES cho chúng ta thông tin có ích hơn là so sánh số trung bình.

Với ES chỉ bằng 0.3 (giữa Việt Nam và Singapore hay giữa Việt Nam và Mĩ) được xem là thấp, vì xác suất trùng lập giữa hai phân bố điểm lên đến gần 90%. Với xác suất trùng lập 90%, chúng ta không thể nào tự tin để nói rằng học sinh Việt Nam giỏi hơn học sinh Mĩ, hay bi quan rằng học sinh Việt Nam thua Singapore về môn khoa học. 

===





No comments: