Saturday, June 10, 2017

David R. Cox: cha đẻ của Mô hình Cox

Một trong những nhà thống kê học hàng đầu, một "giant" thuộc vào thế hệ sau Pearson và Fisher, là David Roxbee Cox. Những công trình của ông không chỉ ảnh hưởng trong khoa học thống kê, mà còn trong tất cả các lĩnh vực khoa học khác, nhất là y học. Số bệnh nhân được ông gián tiếp cứu thì không một nhà khoa học giải Nobel nào có thể sánh nổi với ông. Nói đến tên D. R. Cox là người ta nghĩ ngay đến "Cox's proportional hazards model", nhưng ít ai biết được đằng sau công trình đó là một con người hết sức khiêm nhường.



David R. Cox sinh 17/7/1924 tại Birmingham, Anh. Thân phụ ông làm chủ tiệm vàng nhỏ. Ông theo học toán ở St John College, thuộc Đại học Cambridge, nhưng ông tốt nghiệp tiến sĩ từ Đại học Leeds vào năm 1949. Thầy hướng dẫn luận án tiến sĩ của ông là Henry Daniels và Bernard Welch, nhưng cả hai không nổi tiếng bằng trò.


Ông xuất thân không hẳn từ khoa bảng, mà trong kĩ nghệ. Trong thời gian 1944 đến 1946, ông làm việc cho hãng máy bay Royal Aircraft Establishment. Từ 1946 đến 1950, ông làm việc cho hiệp hội nghiên cứu về vải len. Nhưng sự nghiệp ông bắt đầu nổi bật khi làm nghiên cứu viên cho Labo Thống kê của ĐH Cambridge từ năm 1950 đến 1955. Từ 1956 đến 1966 ông được bổ nhiệm và giữ chức Reader (tương đương với associate professor) và sau này thành giáo sư (professor) tại Birkbeck College thuộc Imperial College London (ICL), một đại học lừng danh thế giới. Sau khi xong nhiệm kì giáo sư, ông được bổ nhiệm là chủ nhiệm (chair) về thống kê học của ICL. Năm 1988 ông được bổ nhiệm làm Warden (như hiệu trưởng) của Nuffield College, và một thành viên của Bộ môn thống kê học thuộc ĐH Oxford. Năm 1994, ông chính thức nghỉ hưu từ các chức vụ khoa bảng, nhưng vẫn còn tham gia nghiên cứu và công bố khoa học.

Cũng như phần lớn những nhà thống kê học nổi tiếng, David Cox xuất thân là dân "ngoại đạo" thống kê. Ông cho biết thời gian ông làm việc cho hãng máy bay Royal Aircraft Establishment, ông phải đương đầu với phân tích dữ liệu, nhưng ông chuyên môn về toán của ông không giúp gì cho công việc cả. Hãng máy bay thì nghĩ những người làm toán có thể làm thống kê, nhưng họ sai lầm tai hại. Thế là ông phải tự học về xác suất, nhưng xác suất cũng không giúp ông giải đáp được những vấn đề mang tính thí nghiệm. Nhưng khốn khổ thay, thời đó rất ít chương trình dạy về thống kê học, nên ông chỉ tự học và tham vấn các nhà thống kê học như Fisher và Lindley. Ông cho biết ông không đến với thống kê học, và thực tế dồn ông vào cái vị trí phải học thống kê để ... giữ việc.

Câu chuyện về Fisher, Jeffreys và Wishart

Khi đã học qua thống kê học, ông tự tin tìm việc ở hiệp hội nghiên cứu vải len. Ở đó, ông có nhiều cơ hội giúp thiết kế thí nghiệm và phân tích dữ liệu để sản xuất vải len đẹp hơn và bền hơn. Ông cho biết lúc đó ngay cả những người giao việc cho ông cũng không nghĩ thống kê học có thể giúp cho các nhà khoa học thiết kế thí nghiệm tốt hơn!

Thời gian ông làm việc tại Labo Thống kê ĐH Cambridge (Statistical Laboratory) là thời gian ông tiếp xúc toàn những danh tài trong "làng" thống kê học và vật lí học, như Ronald Fisher, Dennis Lindley và Harold Jeffreys (một 'kẻ thù' của Fisher). Cả hai người vĩ đại Fisher và Jeffreys đều là dân ngoại đạo thống kê, nhưng lại là bậc thầy thống kê của David Cox. Fisher lúc đó làm nghiên cứu về di truyền học và thí nghiệm nông nghiệp, còn Jeffreys là 'cha đẻ' của khoa học địa vật lí hiện đại. Dạo đó, Jeffreys viết cuốn sách "Theory of Probability" là gối đầu giường cho nhiều sinh viên cho đến ngày hôm nay. Ông cho biết rằng dù là một nhà khoa học lừng danh như thế, Jeffreys là người rất hồi hộp khi đứng giảng trước đám đông, kể cả trước sinh viên! Jeffreys là người rất thân thiện, nhưng ông rất ít nói, có khi ngồi cả giờ mà ông không nói gì cả!

Còn Ronald Fisher thì có rất nhiều kẻ thù, trong số đó có cả Jeffreys. Fisher tìm đọc cuốn "Theory of Probability" của Jeffreys, và phát hiện một sai sót trong đó, và thế là ông kết luận 600 trang còn lại là sai hết! Khi Jeffreys được kể câu chuyện về phát biểu của Fisher, Jeffreys chỉ mỉm cười. Ngoài ra, Fisher còn "đụng độ" với Wishart lúc đó là Giám đốc Labo Thống kê học tại ĐH Cambridge. Hai người (Fisher và Wishart) không nói chuyện với nhau, nhưng phần lớn là do thái độ và cá tính kì cục của Fisher. Gs David Cox cho biết ông Fisher có thể rất rộng lượng với người khác, nhưng với Labo Thống kê học tại ĐH Cambridge thì ông có thái độ "không đội trời chung"!

Công trình "proportional hazards model": Ý tưởng từ thực tế 

Có thể nói công trình làm nên tên tuổi của Gs David Cox là bài báo "Regression models and life-tables" công bố trên tập san Journal of the Royal Statistical Society năm 1972. Trong bài báo đó, ông mô tả một phương pháp phân tích các dữ liệu sống còn theo mô thức hồi qui. Mô hình này sau này được biết đến dưới thuật ngữ "Cox's proportional hazards model" (nhớ rằng hazards có "s" nhé).

Chúng ta đã biết rằng có 2 mô hình hồi qui phổ biến dựa vào biến outcome. Để tìm hiểu mối liên quan giữa một biến outcome liên tục và những yếu tố khác, chúng ta dùng mô hình hồi qui tuyến tính (linear regression). Ví dụ như mô hình mối liên quan sự ảnh hưởng của gen đến biến insulin, vì insulin là biến outcome thuộc loại liên tục, nên chúng ta dùng mô hình hồi qui tuyến tính. Nếu biến outcome là biến nhị phân (chỉ có hai giá trị 0/1, yes/no, sống/chết ...) thì chúng ta dùng mô hình hồi qui logistic.

Nhưng nếu biến outcome là biến nhị phân, mà nó lại phụ thuộc vào thời gian theo dõi. Ví dụ như bệnh nhân được điều trị, có người sống suốt thời gian theo dõi, có người chết sau điều trị vài tháng, có người sống đến 2 năm, lại có người chúng ta không biết còn sống hay chết vì không theo dõi được. Trong những trường hợp này, chúng ta dùng mô hình hồi qui Cox, như ông mô tả trong bài báo công bố vào năm 1972. Gọi L(t) là rủi ro (hazard) của một cá nhân tại thời điểm t, mô hình hồi qui Cox phát biểu rằng L(t) được xác định bởi tích số của rủi ro trung bình (L0) và ảnh hưởng của các yếu tố nguy cơ (X1, X2, ..., Xk):

L(t) = L0*exp(b1X1 + b2X2 + ... + bkXk)

Trong đó, b1, b2, ..., bk là hệ số cần phải ước tính từ dữ liệu thực tế. Ví dụ như tôi muốn biết rủi ro bị ung thư trong vòng 5 năm, L(5), của một cá nhân bằng rủi ro trung bình trong quần thể, L0, và ảnh hưởng của các yếu tố như độ tuổi, giới tính, lối sống, gen, v.v. Mô hình này phổ biến trong hầu hết các ngành khoa học, từ y khoa đến kĩ thuật và xã hội học. Nhiều nhà khoa học xã hội còn áp dụng mô hình để nghiên cứu thời gian từ lúc hôn nhân đến li dị! Bài báo của Gs Cox cho đến nay (sau 45 năm) đã có hơn 45,000 trích dẫn! Bài báo này được đánh giá là một trong 100 công trình nổi tiếng toàn cầu từ trước đến nay (Con số trích dẫn của toàn bộ nền toán học Việt Nam trong 10 năm cũng không bằng phân nửa con số trích dẫn này của 1 bài báo).

Bây giờ, khi chúng ta đã biết và hiểu mô hình này, thì thấy nó không có gì quá phức tạp, nhưng phát kiến đó tốn Gs Cox rất nhiều thời gian. Ông cho biết rằng trước đó ông đã quan tâm đến vấn đề reliability trong kĩ thuật trong thời gian làm việc cho hãng máy bay và hiệp hội vải len, nhưng chưa nghĩ ra cách phân tích. Ông cho biết ông dành đến 4 năm cho công trình này. Có đêm ông thức giấc và nghĩ đến nó, nhưng rồi lại ... ngủ. 

Được hỏi tại sao bài báo trở nên phổ biến, ông cho rằng một phần là phương pháp elegant và dễ hiểu, nhưng phần quan trọng khác là có nhiều người viết chương trình máy tính để triển khai mô hình trong thực tế. Thế là nhiều người có thể ứng dạng và trích dẫn bài báo. Đây cũng là một bài học cho nhà khoa học, vì muốn phương pháp của mình được nhiều người sử dụng (và gây ảnh hưởng) thì ngoài lí thuyết còn phải viết chương trình máy tính.  

Nhìn về tương lai

Cũng như C. R. Rao, Gs David Cox cũng là một người khiêm tốn. Ông nói năng nhẹ nhàng, phong cách nho nhã. Tôi có cơ duyên nghe ông giảng một lần khi ông ghé qua Sydney. Không giống như những nhà khoa học khác, ông nói không cần slides. Ông nói về hành trình dẫn đến công trình lừng dang "Cox's model" rất ư là gần gũi, và suốt một giờ đồng hồ, ông chỉ nói có vài ba thuật ngữ thống kê! Đến phần thảo luận, người ta hỏi ông nhiều về những vấn đề liên quan đến dữ liệu sống còn, và câu trả lời của ông thường là ... không biết. Ông thường bắt đầu câu trả lời bằng câu "Tôi không biết", nhưng ngay sau đó ông bàn về ý tưởng giải quyết vấn đề. Khi hỏi về trường phái Bayes, ông tỏ ra rất ngoại giao, cho rằng cả hai trường phái tần số (frequentist) và Bayes đều có ích, nhưng ông có vẻ nghiêng về Bayes trong thời đại dữ liệu lớn.

Khi được hỏi về phát triển quan trọng trong thời gian gần đây là gì, ông nghĩ rằng Dữ liệu Lớn (Big Data) là một phát triển đáng chú ý. Đáng chú ý là vì dữ liệu lớn đặt ra nhiều câu hỏi và vấn đề cho suy luận thống kê, và sẽ dẫn đến ý tưởng mới. Phần lớn những phương pháp và mô hình thống kê được phát triển cho các nghiên cứu nhỏ hay tương đối lớn, chứ không cho các vấn đề với hàng tỉ tỉ dữ liệu. Nhưng ông cũng cảnh báo rằng những phát triển quan trọng và những khám phá mang tính cơ bản sẽ, cũng như trong quá khứ, xuất phát từ những nghiên cứu nhỏ nhưng được thiết kế chặt chẽ, hơn là thu thập hàng tỉ thông tin từ hàng triệu người. 

Trong một bài nói chuyện về tiến bộ trong y học trong thế kỉ 20, một giáo sư Mĩ lừng danh là Ioanndidis nói rằng "mô hình Cox" là một trong những tiến bộ quan trọng nhất. Mà, đúng như thế. Làm sao chúng ta có thể xác định hiệu quả của thuốc điều trị, của thuật can thiệp; làm sao chúng ta có cách chọn phương pháp điều trị tối ưu và cứu sống bệnh nhân. Ứng dụng mô hình Cox đã giúp y khoa trả lời những câu hỏi đó. Qua mô hình Cox, ông đã gián tiếp cứu vô số bệnh nhân trên toàn thế giới. Qua mô hình đó, ông cũng đã làm thay đổi cách phân tích của các nhà khoa học, kinh tế học, xã hội học, công nghệ, v.v. và giúp họ có những khám phá có ích cho đời. Nhìn như thế, chúng thấy mức độ ảnh hưởng của David Cox quả là to lớn, và khó có thể đo lường bằng chỉ tần số trích dẫn.  Do đó, không ngạc nhiên khi 3 năm trước, Tạp chí Nature xếp công trình "Cox's model" là một trong 100 công trình có ảnh hưởng lớn nhất trong lịch sử khoa học ("top 100 most-cited papers of all time for all fields") (1).

Trong sự nghiệp 50 năm, ông công bố tất cả 364 bài báo khoa học. Những nghiên cứu của ông trải dài và rộng đến nổi có hai nhà khoa học là David Hand và A. M. Herzberg phải biên tập thành hai tập sách (xem cuốn "Selected papers of Sir David Cox"). Ngoài ra, ông còn viết một số sách rất hay và rất dễ hiểu. Hai cuốn tôi yêu thích nhất và muốn nhân dịp này giới thiệu đến các bạn là:

·       "Applied Statistics", ông viết cùng với học trò là Elizabeth Snell, trong đó ông trình bày những vấn đề thực nghiệm hết sức lí thú và dùng mô hình thống kê để giải đáp.

·       Cuốn thứ hai là "Analysis of Binary Data", trong đó ông mô tả mô hình hồi qui logistic cho các dữ liệu dạng nhị phân. Khoảng 30 năm trước, thầy tôi yêu cầu tất cả sinh viên dịch tễ học phải đọc và học cuốn này. Tuy chỉ có khoảng 200 trang khổ nhỏ, mà lúc đó giá gần 50 AUD!

·       Ngoài ra, cuốn "Principles of applied statistics" cũng thuộc lại gối đầu giường cho những ai quan tâm đến ứng dụng thống kê trong khoa học.

Ông được trao 20 bằng Doctor of Science từ các đại học khắp thế giới. Năm 2016 ông được trao giải "International Prize in Statistics" (giải thưởng ngang hàng với Abel trong toán và Nobel trong khoa học). Nhưng ông vẫn chỉ muốn xem mình là một nhà khoa học sử dụng thống kê học ("I would like to think of myself as a scientist, who happens largely to specialise in the use of statistics")

 

===

(1) http://www.nature.com/news/the-top-100-papers-1.16224

Trong số 100 bài báo có ảnh hưởng lớn nhất trong lịch sử khoa học, có đến 12 bài thuộc khoa học thống kê. Một số công trình này tuy có ảnh hưởng lớn đến khoa học, nhưng chưa hẳn là những công trình hàng đầu trong thống kê học. Danh sách 12 bài đó là như sau:

 

1. Kaplan, E. L. & Meier, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 53, 457–481 (1958).

 

2.  Cox, D. R. Regression models and life-tables. J. R. Stat. Soc., B 34, 187–220 (1972).

 

3.  Bland, J. M. & Altman, D. G. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 327, 307–310 (1986).

 

4.  Dempster, A. P., Laird, N. M. & Rubin, D. B. Maximum likelihood from incomplete data via EM algorithm. J. R. Stat. Soc., B 39, 1–38 (1977).

 

5.  Benjamini, Y. & Hochberg, Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. J. R. Stat. Soc. B 57, 289–300 (1995).

 

6.  Duncan, D. B. Multiple range and multiple F tests. Biometrics 11, 1–42 (1955).

 

7.  Landis, J. R. & Koch, G. G. The measurement of observer agreement for categorical data. Biometrics 33, 159–174 (1977).

 

8.  Akaike, H. A new look at statistical-model identification. IEEE Trans. Automat. Contr. 19, 716–723 (1974).

 

9.  Marquardt, D. W. An algorithm for least-squares estimation of nonlinear parameters. J. Soc. Ind. Appl. Math. 11, 431–441 (1963).

 

10.  Felsenstein, J. Confidence limits on phylogenies: an approach using the bootstrap. Evolution 39, 783–791 (1985).

 

11. Baron, R. M. & Kenny, D. A. The moderator–mediator variable distinction in social psychological-research — conceptual, strategic, and statistical considerations. J. Pers. Soc. Psychol. 51, 1173–1182 (1986).

12. Ronquist, F. & Huelsenbeck, J. P.
  MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics 19, 1572–1574 (2003).

 

(2) https://www.youtube.com/watch?v=xRik3vOKLcU

David Cox's lecture




1 comment:

phamquang anh said...

Cám ơn thầy. Bài viết quá hay về Sir Cox. Tính cách của ngài Cox gợi cho em nhớ tới Đức Đạt Lai Lạt Ma thứ 14. Ông ấy cũng thường hay bắt đầu câu trả lời bằng: "Tôi không biết" và sau đó là diễn giải dựa vào nền tảng Phật giáo kèm theo kinh nghiệm cá nhân. Có lẽ họ thuộc hàng "thâm sâu" trên mức giỏi bình thường nên khi phát biểu họ không muốn phô trương và quá đề cao ý kiến cá nhân của mình để người khác dễ hiểu hơn.