Monday, June 9, 2008

Chỉ số H trong nghiên cứu khoa học

Bài này đã đăng trên Tia Sáng: http://www.tiasang.com.vn/news?id=2741


Các cơ quan quản lí khoa học, kể cả đại học và cơ quan tài trợ nghiên cứu khoa học, thường phải đối đầu với một vấn đề tương đối nan giải: đó là đánh giá khách quan thành tựu của một nhà khoa học hay một công trình nghiên cứu. Đứng trước hàng trăm đơn xin tài trợ, hay hàng trăm đơn xin được bổ nhiệm một chức vụ khoa bảng, người quyết định phải dựa vào tiêu chuẩn gì để tuyển chọn một công trình hay một nhà khoa học? Đánh giá thành quả và thành tích của một nhà khoa học thường dựa vào sự đóng góp của nhà khoa học cho cộng đồng khoa học. Hai chữ “đóng góp” bao gồm năng suất làm việc, ảnh hưởng của công trình nghiên cứu đến cộng đồng khoa học quốc tế, và sự ghi nhận của đồng nghiệp trong ngành. Gần đây, chỉ số H (còn gọi là chỉ số Hirsch, hay H index) được đề nghị như là một thước đo về thành quả của một nhà khoa học. Trong bài này, tôi sẽ bàn qua những ưu điểm và khiếm khuyết của chỉ số này.

Số lượng và chất lượng

Đối với những nhà khoa học đã được trao giải Nobel, sự đóng góp và thành tựu của họ trong khoa học rất khó ai chất vấn được. Nhưng đối với 99,9% các nhà khoa học chưa có [hay không nằm trong phạm vi của] giải thưởng cao quí đó, việc đánh giá thành quả của họ là một vấn đề đa chiều kích (multidimension) và phức tạp. Đa chiều kích là vì thành quả khoa học phải được lượng hóa, nhưng cũng không thể bỏ qua chất lượng của các công trình nghiên cứu. Vấn đề trở nên nan giải khi tìm một công thức để quân bình giữa hai yếu tố lượng và phẩm đó. Trong quá khứ, giới quản lí đánh giá thành quả của một nhà khoa học thường chủ yếu dựa vào 3 chỉ số sau đây:

  • Số lượng bài báo khoa học công bố;
  • Tổng số lần trích dẫn các bài báo; và
  • Hệ số ảnh hưởng của tập san khoa học.

Số lượng bài báo công bố trên các tập san quốc tế thường được xem là một thước đo về sự tích cực và năng suất nghiên cứu của một nhà khoa học. Cần nói thêm rằng cụm từ “tập san quốc tế” ở đây là chỉ những tập san khoa học có ban biên tập mà thành phần là các chuyên gia từ nhiều quốc gia, có hệ thống bình duyệt nghiêm chỉnh (peer review system), và được công nhận trong danh sách của Viện thông tin khoa học (Institute of Scientific Information). Theo cách hiểu và các tiêu chuẩn này, phần lớn -- nếu không muốn nói là hầu hết -- các tạp chí khoa học của nước ta chưa được xem là tập san quốc tế. Cũng cần nói thêm rằng “bài báo khoa học” ở đây chỉ tính những bài báo nguyên thủy (original paper) chứ không phải những bản tóm lược (abstract) nghiên cứu hay trình bày trong các hội nghị khoa học. Do đó, một người có nhiều bài báo khoa học công bố trên các tập san quốc tế là một chỉ số khá tốt phản ảnh năng suất lao động của nhà khoa học.

Tuy nhiên, số lượng bài báo chỉ phản ảnh phần lượng, mà có thể không phản ảnh được phần chất. Một nhà nghiên cứu có thể công bố nhiều bài báo khoa học, nhưng chất lượng nghiên cứu có thể không cao. Nhưng lấy gì để đánh giá “chất lượng” nghiên cứu của một nhà khoa học? Đây là một vấn đề gai góc, đã chiếm nhiều thì giờ và giấy mực của nhiều chuyên gia trên thế giới nhưng cho đến nay vẫn chưa có thước đo hoàn chỉnh. Trong khi chưa có một thước đo hoàn chỉnh, giới quản lí thường dựa vào uy tín hay độ ảnh hưởng của tập san mà họ từng công bố. Uy tín của một tập san thường được đo bằng hệ số ảnh hưởng (còn gọi là impact factor hay IF). Hệ số ảnh hưởng IF của một tập san khoa học là số lần trích dẫn trung bình trong năm cho các bài báo công bố trên tập san đó trong vòng 2 năm trước. Chẳng hạn như trong 2 năm 2003 và 2004 tập san y khoa Lancet công bố 450 bài báo khoa học, và trong năm 2005 có 10.500 bài báo khác trích dẫn 450 bài báo đó, thì hệ số IF = 10.500 / 450 = 23,3.

Các tập san thuộc bộ môn khoa học thực nghiệm như y sinh học và vật lí thường có hệ số IF cao hơn các tập san thuộc nghành toán học hay khoa học xã hội, nhưng điều này không có nghĩa là tập san các ngành đó có chất lượng thấp. Điều này có nghĩa là khi so sánh IF, người ta phải so sánh trong cùng ngành khoa học. Nói chung, ở mỗi chuyên ngành, tập san nào có chất lượng cao hay uy tính cao thường có hệ số IF cao. Do đó, dựa vào IF của tập san, người ta có thể đánh giá chất lượng nghiên cứu của nhà khoa học. Nhưng xin nhấn mạnh là “có thể”, bởi vì IF phản ảnh chất lượng của tập san chứ không hẳn bài báo khoa học trên tập san đó. Trong thực tế, có nhiều bài báo được công bố trên các tập san có IF thấp nhưng lại có ảnh hưởng rất lớn đến chuyên ngành.

Bởi vì IF phản ảnh chất lượng của tập san, giới quản lí phải đi tìm một chỉ số khác phản ảnh chất lượng nghiên cứu của cá nhân nhà khoa học. Một trong những chỉ số hấp dẫn là chỉ số trích dẫn (average citation) của cá nhân nhà khoa học. Chỉ số trích dẫn được tính bằng cách lấy tổng số lần trích dẫn chia cho số lượng bài báo khoa học của một tác giả. Chẳng hạn như tác giả VĐT công bố 116 bài báo khoa học, và các bài báo này đã được trích dẫn 1434 lần (kể cả tác giả tự trích dẫn), do đó, chỉ số trích dẫn là 1434 / 116 = 12,3. Nói cách khác, tính trung bình số lần trích dẫn cho mỗi công trình khoa học của tác giả này là 12,3 lần.

Việc diễn giải chỉ số trích dẫn cũng đôi khi gặp khó khăn. Theo phân tích của ISI, trong tất cả các bài báo khoa học công bố trên thế giới, có khoảng 55% các bài không bao giờ được ai (kể cả chính tác giả) trích dẫn sau 5 năm công bố ! Trong các ngành như kĩ thuật tần số không trích dẫn lên đến 70%. Ngay cả được trích dẫn và tham khảo, con số cũng rất khiêm tốn : chỉ có trên dưới 1% bài báo khoa học được trích dẫn hơn 6 lần mà thôi (trong vòng 5 năm). Do đó, có người đề nghị là một bài báo được trích dẫn một cách độc lập (tức không phải chính tác giả tự trích dẫn) hơn 5 lần được xem là "có ảnh hưởng". Những công trình có ảnh hưởng lớn thường có số lần trích dẫn 100 lần trở lên.

Tuy nhiên, các chỉ số dựa vào số lần trích dẫn như IF hay chỉ số trích dẫn cũng có khiếm khuyết quan trọng. Lí do đơn giản là vì có khi nhà khoa học có một vài bài báo được trích dẫn nhiều lần, nhưng đa số còn lại chẳng ai trích dẫn, thì chỉ số trích dẫn không phản ảnh được chính xác tình trạng này.

Chỉ số H

Trong nỗ lực đi tìm một chỉ số tốt hơn, năm 2005, nhà vật lí học Jorge Hirsch (Đại học California San Diego) tiến hành một phân tích khá qui mô về xu hướng công bố bài báo khoa học và trích dẫn, và sau cùng ông đề nghị một chỉ số mà ông lấy tên là H index (H có lẽ là viết tắt họ của ông). Chỉ số H được tính toán dựa vào số công trình công bố và số lần trích dẫn. Mục tiêu của chỉ số H là đo lường mức độ ảnh hưởng tích lũy của một nhà khoa học. Chỉ số H được định nghĩa như sau: Chỉ số H của một nhà khoa học là H công trình trong số N công trình của nhà khoa học đó được trích dẫn ít nhất là H lần, và (N – H) được trích dẫn dưới H lần. Ví dụ, nếu một nhà khoa học có chỉ số H = 20 có nghĩa là nhà khoa học này có 20 công trình nghiên cứu với mỗi công trình được trích dẫn ít nhất là 20 lần.

Nhìn qua định nghĩa trên của chỉ số H, dễ dàng thấy rằng đây là một chỉ số phản ảnh thành quả tích lũy của một nhà khoa học. Chỉ số H không có những khiếm khuyết mà các chỉ số khác gặp phải. Chẳng hạn như một nhà nghiên cứu có thể công bố hàng trăm ấn phẩm khoa học, nhưng trong số này chỉ có một số ít được trích dẫn thì chỉ số H vẫn không cao. Có thể nói rằng cái lợi thế lớn nhất của chỉ số H là nó chẳng những bao gồm hai yếu tố lượng và phẩm, mà còn quân bình hóa hai yếu tố này khá tốt.

Chỉ số H xem ra có tính hợp lí (validity). Hirsch chịu khó phân tích các nhà khoa học y sinh học, vật lí học, hóa học từng chiếm giải Nobel thì thấy 84% có chỉ số H trên 30. Những người được bầu vào Viện Hàn lâm Khoa học Mĩ có chỉ số H trung bình là 45. Khi so sánh những nghiên cứu sinh thành công xin học bổng hậu tiến sĩ (postdoctoral fellowship) và những người không thành công, thì chỉ số H của người thành công lúc nào cũng cao hơn người không thành công. Phân tích trên 147 nhà khoa học ở Hà Lan cho thấy hệ số tương quan giữa chỉ số H và uy tín cũng như số lần trích dẫn lên đến 0,89. Tất cả các dẫn chứng này cho thấy chỉ số H phản ảnh tốt chất lượng nghiên cứu và ảnh hưởng của nhà khoa học.

Vấn đề kế đến là diễn giải chỉ số H như thế nào? Trong bài báo trên PNAS [1], Hirsch viết rằng [tôi tạm dịch] một nhà khoa học với chỉ số H = 12 nên được xem là đủ tiêu chuẩn để vào biên chế đại học (tenure). Một nhà khoa học với H = 20 sau 20 năm làm khoa học có thể xem là một nhà khoa học thành công (successful); một chỉ số H = 40 sau 20 năm làm khoa học được xem là xuất sắc (outstanding) thường hay thấy ở các đại học hàng đầu hay viện nghiên cứu đẳng cấp quốc tế; một chỉ số H = 60 sau 20 năm làm nghiên cứu được xem là thật sự cá biệt (truly unique) [2]. Hirsch còn đề nghị rằng người có chỉ số H khoảng 12 có thể xem tương đương với giảng viên (lecturer hay senior lecturer), và người có H khoảng 18 trở lên có thể xem tương đương với đẳng cấp giáo sư. Phân tích chỉ số H của các nhà khoa học từng chiếm giải Nobel cho thấy chỉ số H trung bình của họ là 41 với độ lệch chuẩn 15. Một số nhà khoa học nổi tiếng hiện nay thường có chỉ số H trên 100. Tuy nhiên, chỉ số H của các nhà khoa học Việt Nam -- trong cũng như ngoài nước -- nói chung là còn rất khiêm tốn, chỉ dao động trong khoảng 2 đến 31, phần lớn là dưới 10.

Chỉ số H của một số nhà khoa học nổi tiếng

Vật lí

Ed Witten (Princeton) : 110

Martin Cohen (Berkeley) : 94

Philip Anderson (Princeton) : 91

Manuel Cardona (Max Planck) : 86

Frank Wilczek (MIT) : 68

Hóa học

George Whitesides (Harvard) : 135

Elias James Corey (Harvard) : 132

Martin Karplus (Harvard) : 129

Alan Heeger (California) : 114

Kurt Wurthrich (Switzerland) : 113


Khoa học máy tính

Hector Garcia Molina (Stanford) : 70

Deborah Estrin (UCLA) : 68

Ian Foster (Illinois) : 67

Scott Shenker (Berkeley) : 65

Don Towsley (Massachusetts) : 65

Jeffrey Ullman (Stanford) : 65

Ngay từ khi chỉ số H ra đời, có nhiều người tán thành và lấy đó làm thước đo thành tựu và ảnh hưởng của một nhà khoa học. Ngày nay, các tập san khoa học danh tiếng như Nature, Science, Cell, PNAS, v.v… và các cơ quan quản lí khoa học ở Âu châu, Mĩ châu, Úc châu đều sử dụng chỉ số H để làm cơ sở cho đề bạt, cấp tài trợ, và đánh giá thành công của một nhà khoa học hay một nhóm nghiên cứu. Ngay cả Viện thông tin khoa học (ISI Thomson) cũng sử dụng chỉ số H trong báo cáo của họ [3].

Chuẩn hóa chỉ số H

Nhưng chỉ số H vẫn chưa hoàn hảo. Trong những khiếm khuyết mà giới khoa học chỉ ra trong thời gian qua, có 3 khiếm khuyết lớn như sau:

· Thứ nhất, chỉ số H luôn luôn tăng theo thời gian, và do đó tùy thuộc vào độ tuổi của nhà nghiên cứu và thời gian làm nghiên cứu. Chẳng hạn như chỉ số H của một người đã làm nghiên cứu 35 năm có xu hướng cao hơn người có thời gian làm khoa học ngắn hơn.

· Thứ hai, chỉ số H không phân biệt được những nhà khoa học đã nghỉ hưu với những nhà khoa học đang làm việc. Chẳng hạn như nếu Albert Einstein chết vào năm 1906 thì chỉ số H của ông chỉ 4 hay 5, nhưng ai cũng biết công trình của ông có ảnh hưởng rất lớn đến khoa học.

· Thứ ba, chỉ số H còn tùy thuộc vào ngành khoa học. Nói chung, các ngành khoa học tự nhiên và thực nghiệm (như vật lí, y sinh học) có xu hướng công bố nhiều công trình nghiên cứu và thường hay trích dẫn nhau hơn các nghành khoa học như toán học hay xã hội học.

Để khắc phục các khiếm khuyết trên, một vài chỉ số khác đã được đề xuất để “điều chỉnh” chỉ số H. Để điều chỉnh cho thời gian làm nghiên cứu, Hirsch đề nghị chia chỉ số H cho thời gian làm nghiên cứu và ông gọi chỉ số này là Chỉ số m. Chẳng hạn như một người làm khoa học 30 năm với chỉ số H = 61 thì chỉ số m là 61 / 35 = 1,74.

Nhưng khiếm khuyết thứ ba là đáng quan tâm nhất. Chúng ta biết rằng các bộ môn khoa học có những văn hóa ngành khác nhau. Chẳng hạn như các ngành khoa học thực nghiệm thường có truyền thống trích dẫn cao hơn so với các ngành khoa học tự nhiên như toán học. Do đó, rất khó mà so sánh chỉ số H của một nhà vật lí học với một nhà toán học, nếu không có một cái gì đó để điều chỉnh. "Cái gì đó" chính là hệ số mà hai nhà nghiên cứu Tây Ban Nha đã phát triển [4]. Theo hai nhà nghiên cứu này, lấy ngành vật lí làm chuẩn, có thể tìm những hệ số điều chỉnh bằng cách xem xét xu hướng trích dẫn và chỉ số H của các nhà khoa học trong các bộ môn khoa học khác nhau. Qua những phân tích công phu và khá phức tạp, họ đề ra những hệ số chuẩn hóa như sau (xem Bảng 1).

Cách sử dụng hệ số này rất đơn giản. Chẳng hạn như nhà vật lí Ed Witten có chỉ số H = 110 và nhà hóa học Kurt Wurthrich có chỉ số H = 113, có thể nói rằng nhà hóa học này có thành tựu khoa học cao hơn nhà vật lí ? Để trả lời câu hỏi đó, chúng ta phải chuẩn hóa chỉ số H. Tra bảng 1 thấy hệ số điều chỉnh cho ngành hóa học là 0,92, và do đó chỉ số H của nhà hóa học này là : 113 × 0,92 = 103,6. Như vậy, sau khi điều chỉnh, nhà hóa học có lẽ có thành tựu khoa học kém hơn nhà vật lí.

Ngoài ra, còn có chỉ số khác như chỉ số g (g index), chỉ số H đương đại (contemporary H index), chỉ số H cá nhân (individual H index). Có thể tham khảo thêm các chỉ số này trong trang nhà của giáo sư Harzing. Tuy nhiên, khi so sánh các chỉ số mới này với chỉ số H, ngoài vài trường hợp cá biệt, không có gì khác nhau đáng kể. Do đó, cho đến nay giới quản lí khoa học vẫn sử dụng chỉ số H hay chỉ số H chuẩn hóa để đánh giá chất lượng và thành tựu của một nhà nghiên cứu khoa học. Chỉ số H còn có thể thay thế hệ số IF để đánh giá uy tín và chất lượng của một tập san khoa học [5] (xem Bảng 2).

Nói tóm lại, chỉ số H là một thước đo thành quả khoa học khách quan nhất so với các chỉ số hiện nay. Tuy chỉ số H vẫn còn vài khiếm khuyết, nhưng với sự chuẩn hóa (lấy ngành vật lí làm chuẩn), các cơ quan quản lí khoa học có một phương tiện, một thước đo có ích để phục vụ cho việc cung cấp tài trợ và đề bạt các nhà khoa học xứng đáng. Ứng dụng chỉ số H cũng là một cách đưa hoạt động khoa học nước ta từng bước hội nhập quốc tế.

Chú thích:

[1] Hirsch, J. E. (2005). "An index to quantify an individual's scientific research output," Proceedings of the National Academy of Sciences, 102(46):16569-16572, November 15, 2005 (có thể tải về miễn phí tại arXiv).

[2] Trong bài báo [1] Hirsch viết như sau: “From inspection of the citation records of many physicists, I conclude the following:

  1. A value of m ≈ 1 (i.e., an H index of 20 after 20 years of scientific activity), characterizes a successful scientist.
  2. A value of m ≈ 2 (i.e., an H index of 40 after 20 years of scientific activity), characterizes outstanding scientists, likely to be found only at the top universities or major research laboratories.
  3. A value of m ≈ 3 or higher (i.e., an H index of 60 after 20 years, or 90 after 30 years), characterizes truly unique individuals.”

[3] Có thể sừ dụng ISI để tìm chỉ số H của bất cứ nhà khoa học nào, qua các bước sau đây: Truy cập trang ISI Web of Knowledge (www.isiknowledge.com), tìm “Web of Science”, chọn Advanced Search. Trong box này, gõ tiêu chuẩn tìm như tên nhà khoa học và địa chỉ hay quốc gia. Chẳng hạn như để tìm tác giả Sutherland RL ở viện Garvan thuộc, chúng ta gõ AU=Sutherland RL AND AD=Garvan AND CU=Australia. Sau đó ISI sẽ cho ra một danh sách tất cả các bài báo khoa học. Chọn “Citation Report” sẽ có chỉ số H và một số chỉ số khác của nhà khoa học.

[4] Iglesias JE, Pecharromen C. Scaling the h-index for different scientific ISI fields. Scientometrics 2007;3:303. Có thể tải bài này về từ website sau đây: http://arxiv.org/abs/physics/0607224.

[5] Braun T, Glanzel W, Schubert A. A Hirsch-type index for journals. The Scientist Nov 21, 2005; 22.

[5] Philip Ball. Achievement index climbs the ranks. Nature 448, 737 (16 August 2007) và phản hồi: Michael C. Wendl. H-index: however ranked, citations need context. Nature 449, 403 (27 September 2007). Philip Ball. "Index aims for fair ranking of scientists". Nature 436 (August 2005), và Wikipedia.


Bảng 1. Hệ số điểu chỉnh cho chỉ số H

Ngành khoa học

Hệ số điều chỉnh (f) chung

Hệ số điều chỉnh cho các tác giả với số bài báo

100 bài

200 bài

500 bài

1000 bài

Nông nghiệp

1.27

1.20

1.24

1.30

1.35

Sinh học và sinh hóa

0.60

0.77

0.73

0.68

0.64

Hóa học

0.92

0.95

0.94

0.93

0.92

Y học

0.76

0.86

0.83

0.80

0.77

Khoa học máy tính

1.75

1.97

-

-

-

Kinh tế

1.32

1.23

1.28

1.36

1.42

Kĩ thuật

1.70

1.79

-

-

-

Môi trường học

0.88

0.93

0.92

0.90

0.88

Geoscience

0.88

0.93

0.91

0.89

0.88

Miễn dịch học

0.52

0.73

0.68

0.63

0.58

Khoa học vật liệu

1.36

1.29

1.35

1.44

-

Toán học

1.83

-

-

-

-

Vi sinh học

0.63

0.79

0.75

0.71

0.67

Sinh học phân tử và di truyền

0.44

0.68

0.64

0.57

0.53

Thần kinh học

0.56

0.75

0.71

0.66

0.62

Dược học

0.84

0.90

0.89

0.86

0.85

Vật lí

1.00

1.00

1.00

1.00

1.00

Thực vật học

1.08

1.05

1.06

1.07

1.08

Tâm thần và tâm lí học

0.88

0.93

0.91

0.90

0.88

Khoa học xã hội

1.60

1.58

1.72

-

-

Khoa học không gian

0.74

0.85

0.82

0.79

0.76


Bảng 2. Chỉ số H của một số tập san khoa học hàng đầu

Tập san

Chỉ số H

Xếp hạng theo chỉ số H

Xếp hạng theo hệ số IF

Nature

157

1

10

Science

155

2

13

New England Journal of Medicine

113

3-4

5

Proceedings of the National Academy of Sciences of the USA

113

3-4

55

Cell

109

5

3

Journal of Biological Chemistry

100

6

95

Physical Review Letters

96

7

118

Lancet

89

8

60

Circulation

86

9

54

Nature Genetics

85

10

4

JAMA – Journal of the American Medical Association

80

11

26

Cancer Research

79

12

84

Nature Medicine

78

13-14

6

Journal of Immunology

78

13-14

109

Neuron

77

15-16

29

Journal of Cell Biology

77

15-16

36

Journal of Clinical Investigation

76

17-19

48

Blood

76

17-19

75

Astrophysical Journal

76

17-19

511

Nature Neuroscience

75

20-21

44

Journal of the American Chemical Society

75

20-21

133

No comments: