Sunday, November 23, 2008

Xếp hạng đại học: cần minh bạch hóa phương pháp

Xem ra ngành giáo dục Việt Nam quyết tâm xếp hạng đại học. Họ sẽ công bố bảng xếp hạng vào năm 2009. Nhưng cho đến nay, chúng ta vẫn chưa biết họ làm như thế nào. Hôm trước, tôi đã phân tích những hạn chế của cách xếp hạng đại học. Hôm nay xin đi vào cụ thể một phương pháp để minh họa cho vấn đề xếp hạng. Theo tôi, mấu chốt của vấn đề là phương pháp và chất lượng của dữ liệu. Hai khía cạnh này mà không giải quyết được thì xếp hạng đại học có thể gây ra nhiều tranh cãi và tác hại.

Đứng trên quan điểm của “khách hàng” hay sinh viên đang chọn trường, xếp hạng đại học là một điều có ích vì nó cung cấp thông tin về chất lượng đào tạo của trường đại học. Nhưng vấn đề ở đây là đo lường chất lượng như thế nào cho khách quan. Đó là câu hỏi mấu chốt khó có giải đáp khách quan và khoa học, nhất là trong điều kiện thiếu thốn dữ liệu như ở nước ta.

Hiện nay có nhiều nhóm truyền thông đứng ra lập những danh sách “top 200” và “top 500”. Trong các nhóm này phải kể đến nhóm Phụ trang giáo dục đại học của tờ Thời báo (THES – Times Higher Education Supplement) và nhóm thuộc Đại học Giao thông Thượng Hải (GTTH) được nhiều người biết đến từ 2003. Các nhóm này sử dụng nhiều tiêu chí khác nhau để đánh giá chất lượng đào tạo và nghiên cứu của một đại học.

Nhóm GTTH dựa vào 4 tiêu chí chính là số cựu sinh viên tốt nghiệp đoạt giải Nobel và Fields, số giáo sư đoạt giải Nobel và Fields, số nhà khoa học được trích dẫn nhiều lần, số bài báo khoa học trên hai tập san NatureScience, số bài báo khoa học trên tập san trong danh bạ SCIE, SSCI, và thành tựu của giáo sư và đội ngũ khoa bảng.

Ngược lại, thay vì tập trung vào các tiêu chí nghiên cứu khoa học của GTTH, nhóm THES dựa vào sự đánh giá của giới khoa bảng từ các trường khác, số sinh viên tốt nghiệp làm việc trong các công ti toàn cầu, phần trăm giáo sư là người nước ngoài, phần trăm sinh viên là người nước ngoài, tỉ số sinh viên / giáo sư, và số lần trích dẫn tính trên đầu người giáo sư.

Mỗi tiêu chí được cho một trọng số (weight). Tổng tích số của trọng số và kết quả của mỗi tiêu chí là điểm cuối cùng cho mỗi đại học. Chẳng hạn như nhóm GTTH định trọng số 10% cho số cựu sinh viên đoạt giải Nobel và Fields, và thành tựu của giáo sư; nhưng cho trọng số 20% cho các tiêu chí như số giáo sư đoạt giải Nobel và Fields, số giáo sư có trích dẫn cao, số bài báo trên Science và Nature hay trong danh bạ SSI và SSCI.

Để thấy hạn chế của cách xếp hạng, tôi sẽ lấy cách làm của GTTH ra làm ví dụ. Giả dụ có hai đại học A với 300 giáo sư và đại học B với 500 giáo sư. Thành quả của hai đại học này qua 4 tiêu chí chính mà nhóm GTTH dựa vào để xếp hạng đại học như sau:

Tiêu chí

Đại học A

Đại học B

Số cựu sinh viên đoạt giải Nobel và Fields (trọng số 10%)

1

0

Số giáo sư đoạt giải Nobel và Fields (trọng số 20%)

2

0

Số giáo sư có chỉ số trích dẫn cao (trọng số 20%)

100

2

Số bài báo trên tập san ScienceNature (trọng số 20%)

30

30

Số bài báo trên các tập san quốc tế (trọng số 20%)

350

500

Thành tựu trung bình của giáo sư (trọng số 10%)

9.65

10.64

Tổng số điểm

106.15

117.04

Nhìn qua kết quả của các tiêu chí trên, chúng ta thấy rõ ràng đại học A mặc dù số giáo sư ít hơn nhưng có thành tựu khoa học cao hơn đại học B. Đại học A có 1 cựu sinh đoạt giải Nobel (nhưng đại học B không có); số giáo sư có trích dẫn cao của đại học A cũng cao gấp 50 lần đại học B; năng suất khoa học của đại học A (số bài báo trên Science và Nature hay nói chung trên 300 giáo sư) cũng cao hơn đại học B. Thế nhưng theo cách tính của nhóm GTTH thì đại học A có số điểm là 106.15, thấp hơn đại học B với tổng số điểm là 117.04! Do đó, theo cách xếp hạng của GTTH thì đại học B có chất lượng cao hơn đại học A!

Tại sao có sự khác biệt về xếp hạng đến vô lí như thế? Vấn đề chính ở đây là phương pháp tính toán của GTTH đặt nặng vào số lượng bài báo và số lượng này tùy thuộc vào lực lượng khoa bảng (giáo sư) của trường đại học. Ngoài ra, GTTH còn xem giá trị của một bái báo trên Science và Nature tương đương với một bài báo trên một tập san dưới trung bình nhưng có trong danh bạ SSI và SSCI!

Phần lớn giới làm khoa học đều biết rằng những tiêu chí như số lần trích dẫn cao và số công trình 2 tập san danh tiếng ScienceNature là thước đo quan trọng của nghiên cứu khoa học. Theo đó, giả dụ rằng chúng ta cho trọng số 30% cho những giáo sư có trích dẫn cao và bài báo trên 2 tập san danh tiếng ScienceNature, và trọng số 10% cho các tiêu chí còn lại, thì tổng số điểm của đại học A sẽ là 81.73 và đại học B là 65.56. Theo cách đánh giá này thì đại học A có chất lượng cao hơn đại học B.

Tiêu chí

Đại học A

Đại học B

Số cựu sinh viên đoạt giải Nobel và Fields (trọng số 10%)

1

0

Số giáo sư đoạt giải Nobel và Fields (trọng số 10%)

2

0

Số giáo sư có chỉ số trích dẫn cao (trọng số 30%)

100

2

Số bài báo trên tập san ScienceNature (trọng số 30%)

30

30

Số bài báo trên các tập san quốc tế (trọng số 10%)

350

500

Thành tựu trung bình của giáo sư (trọng số 10%)

7.43

5.96

Tổng số điểm

81.73

65.56

Ví dụ đơn giản trên cho chúng ta thấy một vấn đề nổi cộm: đó là vấn đề phương pháp xác định trọng số. Câu hỏi then chốt cần đặt ra, do đó, là làm thế nào để xác định được trọng số cho mỗi tiêu chí?

Phương pháp khách quan nhất là phân tích thống kê. Có nhiều mô hình thống kê để xác định trọng số, và các phương pháp này đều dựa vào nhiều giả định khó kiểm tra. Trong ngành y, người ta đã sử dụng phương pháp thống kê để xếp hạng bệnh viện từ lâu, và qua đó mà học được rất nhiều điều từ cách làm của họ. Bài học đơn giản nhất là: nếu không rành thống kê thì không nên làm, vì nếu làm sẽ gây ra hệ quả nghiêm trọng như vụ Bristol bên Anh trước đây.

Các phương pháp này đòi hỏi một trình độ thống kê học cao mà không phải nhà thống kê học nào cũng có thể làm được. Trong cộng người Việt ở nước ngoài, tôi nghĩ đến hai nhà thống kê học trong lĩnh vực này: đó là giáo sư Huỳnh Huynh thuộc đại học South Carolina (Mĩ) và giáo sư Phạm Gia Thụ thuộc đại học Moncton (Canada). Hai giáo sư này là những chuyên gia hàng đầu trên thế giới về thống kê học, đặc biệt là giáo sư Huynh là một chuyên gia về đo lường giáo dục lâu năm rất có tiếng trên thế giới. Xin nói trước rằng tôi chẳng quen biết gì hai anh này và cũng chưa bao giờ gặp mặt, chỉ ngưỡng mộ qua những công trình của họ mà thôi.

Nhưng nếu mô hình phân tích thống kê là một vấn đề kĩ thuật thì vấn đề quan trọng khác là chất lượng của dữ liệu. Nguyên liệu của phân tích thống kê là dữ liệu. Nếu dữ liệu thu thập không tốt thì kết quả phân tích thống kê chỉ là những con số vô nghĩa. Do đó, các dữ liệu về đại học phải được thu thập một cách có hệ thống và có phương pháp khoa học. Các dữ liệu này phải được thu thập qua nhiều năm, chứ không chỉ một năm. Chỉ khi nào dữ liệu thu thập mang tính khoa học theo thời gian thì phân tích thống kê mới mang ý nghĩa, và trọng số xác định từ phân tích thống kê mới có thể nói là mang tính hợp lí.

Không ai ngoài nhóm GTTH biết phương pháp phân tích và dữ liệu họ thu thập như thế nào, nhưng có điều chắc chắn là kết quả xếp hạng của GTTH không nhất quán với các danh sách khác. Chẳng hạn như một số trường xuất hiện trên danh sách top 200 của GTTH không có trong danh sách của THES (và ngược lại). Theo xếp hạng năm 2006, 4 trong số 50 trường hàng đầu của GTTH không nằm trong top 500 của THES! Một số trường trong danh sách top 50 của GTTH thậm chí không nằm trong danh sách top 500 của THES. Tính tổng cộng, chỉ có 133 trường nằm trong cả hai danh sách! Phân tích này một lần nữa cho thấy cách xếp hạng của cả hai nhóm không đáng tin cậy và không có cơ sở khoa học vững vàng.

Hiện nay, ngành giáo dục nước ta đang có nỗ lực để xếp hạng đại học Việt Nam. Tuy nhiên, các tiêu chí cụ thể sẽ được sử dụng cho việc xếp hạng này vẫn chưa được công bố. Nhưng qua phát biểu của một chuyên gia (“Việc xếp hạng các trường ĐH cần phản ánh được hai hoạt động chính của nhà trường là giảng dạy và nghiên cứu khoa học. Trong nghiên cứu khoa học phải bao hàm cả chuyển giao công nghệ phục vụ nhu cầu phát triển kinh tế - xã hội. Các trường ĐH được xếp hạng theo cùng nhóm theo từng lĩnh vực giảng dạy và nghiên cứu khoa học.”) thì các tiêu chí mà các giới chức Việt Nam sắp sử dụng có vẻ rất khác với các tiêu chí trên thế giới.

Nhưng vấn đề then chốt vẫn là dữ liệu và phương pháp. Không ai biết phương pháp xác định trọng số mà các chuyên gia Việt Nam sắp sử dụng để xếp hạng đại học là gì, và dữ liệu đã được thu thập hay phân tích ra sao. Trang web của Cơ quan quản lý và cấp kinh phí Đại học Quốc gia Hà Nội không cung cấp những thông tin này. Thật ra, xem qua trang web này, chưa thấy một nghiên cứu nào của nhóm đã được đăng ở một tập san quốc tế có peer review.

Hai yêu cầu cơ bản của bất cứ một đo lường nào là độ tin cậy (reliability) và độ chính xác (accuracy). Độ tin cậy phản ảnh tính nhất quán của biến đo lường khi được ứng dụng nhiều lần trong một điều kiện. Độ chính xác của một đo lường cung cấp cho chúng ta biết đo lường thật sự phản ảnh được bao nhiêu bản chất của vấn đề chúng ta cần biết. Chỉ khi nào các tiêu chuẩn chất lượng đáp ứng hai yêu cầu này thì mới có thể áp dụng rộng rãi.

Theo tôi thấy và qua đọc nhiều nghiên cứu về vấn đề này, không một phương pháp nào có thể xem là đáng tin cậy và chính xác cả. Đại học Osaka theo cách xếp hạng của THES đứng hạng 69 năm 2004, nhưng tụt xuống hạng 105 năm 2005, rồi quay về hạng 70 năm 2006. École Polytechnique của Pháp cũng “nhảy đầm” như thế: hạng 27 năm 2004, 10 năm 2005, và 37 năm 2006! Chính vì thế mà nhiều đại học bây giờ không đánh giá cao những cách xếp hạng này.

Ở nước ta, tôi nghĩ nhu cầu xếp hạng đại học là có thật, nhưng trước khi công bố xếp hạng, tôi nghĩ cần phải có dữ liệu dồi dào qua nhiều năm (longitudinal research) chứ không phải một năm, và phương pháp phải mang tính hợp lí cao thì mới đảm bảo tính khách quan của xếp hạng. Thiết tưởng việc xếp hạng đại học có ảnh hưởng đến nhiều người, vấn đề phương pháp và dữ liệu cần nên được minh bạch hóa và thảo luận trước khi ứng dụng vào thực tế.

Như đề cập trên, đối với sinh viên và phụ huynh chọn trường, xếp hạng đại học có thể có ích. Nhưng xếp hạng như cách làm hiện nay không thể xem là một chỉ số về chất lượng khoa học hay đào tạo được, bởi vì ngay cả cụm từ “chất lượng” vẫn chưa được định nghĩa và định lượng rõ ràng.

NVT

2 comments:

Anonymous said...

Xin hỏi anh Tuấn có phải giáo sư Huỳnh Huynh là người phát triển phương pháp Huynh-Feldt không? Tôi thấy tên phương pháp này trong rất nhiều phần mềm thống kê. Còn giáo sư Thụ thì tôi mới nghe lần đầu.

Tôi nghĩ khác anh. Tôi nghĩ ở VN xếp hạng đại học chưa cần thiết vì các đại học đều chẳng có gì để xếp hạng. Chẳng lẽ lấy tiêu chuẩn địa phương chẳng giống ai?

Hai Lúa

Nguyễn Văn Tuấn said...

Đúng rồi, "Huynh-Feldt epsilon" là của Gs Huynh đó. Feldt là thầy của Gs Huynh hồi đó. Ai học về repeated ANOVA đều biết đến hai cái tên này.

Còn Gs Thụ thì nổi tiếng về trường phái Bayesian stat. Anh mà chưa biết Gs Thụ là một thiếu sót đó nghen. :-)

NVT