Tuesday, January 31, 2017

Bia Guinness, "Student", và t-test

Những ai sành điệu về bia đều biết rằng chỉ có một số bia là "xịn" thôi, còn các bia nổi tiếng bán trên thị trường như loại Heineken, Budweiser, Tiger, chỉ là ... nước giả bia. Một trong những bia xịn là Guinness. Nhưng ít ai biết rằng bia Guinness chính là nguồn gốc của t-test (kiểm định t), một phương pháp phân tích dữ liệu phổ biến nhất trong khoa học mà hầu như tất cả sinh viên trên thế giới đều học qua.




Có thể nói rằng lịch sử thống kê học hiện đại có một mảng tối. Những người khai sinh ra khoa học thống kê như Francis Galton và Karl Pearson (chỉ lấy 2 người làm ví dụ) là những người xiển dương và nghiên cứu về học thuyết ưu sinh (eugenics), một học thuyết kì thị chủng tộc đáng ghét nhất. Một số phương pháp thống kê như phân tích tương quan (correlation analysis), hồi qui tuyến tính, Ki bình phương, v.v. mà chúng ta dùng trong machine learning được các bậc "tiền bối" này phát triển để phục vụ cho học thuyết ưu sinh của họ. Tình trạng này cũng giống như nhiều thông số về cơ thể học và y học mà chúng ta sử dụng ngày nay có nguồn gốc từ các thí nghiệm trên tù nhân của bọn Nazi. Cả hai khoa học y và thống kê có những mảng tối nhưng có lẽ ít ai để ý.

Ngoài cái mảng tối trên, khoa học thống kê có những câu chuyện đằng sau rất ... giải trí. Chẳng hạn như mối liên hệ giữa bia và t-test, và từ mối liên hệ này đã đem đến thế giới một nhà khoa học vĩ đại của thế kỉ 20 ít ai biết đến, nhưng phương pháp kiểm định mà ông phát kiến thì hầu như nhà khoa học nào cũng biết đến hay từng dùng. Tôi muốn nói đến "Student", người đã phát triển phương pháp kiểm định t, hay gọi theo tiếng Anh là "t-test". Đây mới chính là một "Già làng" trong thế giới khoa học, và điều rất tiếc là Già làng này không có con cái vinh danh.

"Già làng" này tên thật là William Sealy Gosset, nhưng ông kí tên trong các bài báo khoa học là "Student" (và tôi sẽ giải thích sau). Ông sinh năm 1876 và qua đời năm 1937, thọ chỉ 61 tuổi. Ông sinh ra trong một gia đình giàu có, có thân phụ là đại tá công binh. Ông định theo nghiệp nhà binh của thân phụ, nhưng vì thị lực kém, nên phải theo nghiệp dân sự. Thoạt đầu, ông theo học ở trường cao đẳng lừng danh Winchester, sau đó vào trường Đại học Oxford, nơi ông theo học về hoá học nhưng lại thích làm toán. Năm 1899, ông tốt nghiệp đại học, và có việc làm tại hãng bia Guinness, thời đó là hãng bia lớn nhất thế giới và một trong những loại bia nổi tiếng thế giới cho đến nay.

Kiểm định t ra đời từ hãng bia

Chính tại Guinness đã là môi trường để ông đóng góp cho khoa học. Khác với các công ti bia đương thời, Guinness là công ti chịu khó đầu tư cho nghiên cứu khoa học, với định hướng liên tục cải tiến chất lượng bia. Do đó, Guinness tự hào ("nổ") là chỉ mướn những bộ óc thông minh nhất mà thế giới có thể tìm!

Bí quyết của bia Guinness là "looks and fragrance". Bia được chế biến có màu nâu đậm, và có hương vị đặc biệt, uống vào thì đắng mà giọt sau thì lại ngọt! Cái đặc điểm này được xác định bởi chất liệu Humulus lupulus, có khi còn gọi là "hop". Người sếp của Gosset lúc đó là Thomas Case nghĩ rằng công thức đặc thù để hop cho ra cái "looks and fragrance" là tỉ số resin mềm trên resin cứng trong hop. (Resin có thể xem là chất nhựa làm bia). Ông Case làm thí nghiệm bằng cách tính toán số trung bình tỉ số resin. Trong một thí nghiệm, Case chọn ngẫu nhiên 11 mẫu và có được kết quả là 8.1%. Một nghiên cứu khác trên 14 mẫu thì trung bình của tỉ số là 8.4%. Nhưng sếp Case không biết làm gì với các con số này, và cũng không biết diễn giải ý nghĩa của các con số đó. Ông nghĩ tỉ số lí tưởng phải là cỡ 8-9%. Thế là ông tìm đến người phụ tá là Gosset.

Trọng tâm của vấn đề mà Gosset đặt ra là: cần phải có bao nhiêu mẫu để đạt được mức độ đại diện cho quần thể (8-9%). Nói theo ngôn ngữ kĩ thuật là cần phải có bao nhiêu mẫu để đạt được một độ chính xác có thể chấp nhận được. Hay nói theo ngôn ngữ thống kê học hiện đại, đây là vấn đề ước tính cỡ mẫu cho một số trung bình. Nên nhớ rằng thời đó, chưa ai quan tâm đến việc suy luận dựa trên số mẫu nhỏ cả (còn gọi là small sample problem). Để giải đáp câu hỏi này, Gosset làm một cách thủ công như sau:

• Ông làm 3000 tờ giấy carton, mỗi tờ giấy ông liệt kê 2 dữ liệu của 1 tên tội phạm: một dữ liệu là chiều cao, và một dữ liệu là chiều dài của ngón tay giữa.
• Ông bèn xáo trộn 3000 tờ giấy, rồi lấy ngẫu nhiên 750 mẫu; mỗi mẫu có 4 tờ giấy;
• Sau đó tính số trung bình (M) cùng độ lệch chuẩn (SD).
• Bước kế tiếp, ông tính hiệu số giữa số trung bình mẫu và trung bình quần thể (tức là trung bình của 3000 đối tượng). Sau đó, lấy hiệu số chia cho SD.

Nói cách khác, với thí nghiệm này, Gosset có được 750 giá trị z (z-scores). Qua vẽ biểu đồ phân bố (histogram), ông phát hiện rằng 750 giá trị z này tuân theo luật phân bố chuẩn. Và, với thí nghiệm này, ông có thể ước tính giá trị trung bình quần thể (population mean, trong trường hợp này là trung bình của 3000 đối tượng) và sai số chuẩn với một xác suất nhất định.

Sau lần thí nghiệm đầu tiên, ông lặp lại thí nghiệm nhưng lần này chỉ lấy 3 tờ giấy (thay vì 4 tờ giấy như thí nghiệm 1). Kết quả thí nghiệm 2 cũng cho ra phân bố chuẩn. Lặp lại thí nghiệm với số cỡ mẫu nhiều hơn, ông phát hiện là số trung bình mẫu càng gần hơn với trung bình quần thể. Nói theo ngôn ngữ hiện đại là ông có thể tính được khoảng tin cậy 95% của giá trị trung bình, và khoảng tin cậy (width of confidence interval) càng hẹp khi số lượng đối tượng càng tăng. Nói cách khác, khi số đối tượng (tức số tờ giấy) càng tăng thì số trung bình mẫu càng gần với trung bình quần thể. Suy ra, để ước tính chính xác một tham số quần thể (population parameter) chúng ta nên tăng cỡ mẫu.

Ông trình bày kết quả với sếp Thomas Case, và khẳng định rằng không cần phải lấy nhiều mẫu mà vẫn có thể đạt được giá trị trung bình 8-9%. Sếp Case rất hào hứng với kết quả, vì qua đó họ có thể nâng cao chất lượng bia, và nâng cao sự cạnh tranh của công ti.

Nhưng Gosset chưa hài lòng với kết quả, vì ông không chứng minh được bằng toán. Ông xin phép sếp Case cho ông đi nghỉ sabbatical (tức là một dạng nghỉ hè học thuật) để ông tham vấn nhà thống kê học lừng danh bấy giờ là Karl Pearson tại University College London (UCL). Pearson chính là người "sáng chế" ra Ki bình phương, hệ số tương quan, principal component analysis, và hàng loạt phương pháp khác. Sếp Case đồng ý cho Gosset đi nghỉ hè ở UCL.

Sau khi tham vấn "sư phụ" Pearson, Gosset đã tìm ra qui luật toán học đằng sau khám phá của ông, mà sau này ông đặt tên là "law of errors" (định luật sai số mẫu) khi nghiên cứu trên cỡ mẫu nhỏ. Định luật này có thể phát biểu như sau: nếu chúng ta lấy mẫu nhỏ nhiều lần, và mỗi lần tính số trung bình, thì phân bố của trung bình mẫu sẽ tuân theo luật phân bố chuẩn. Đây cũng là một nguyên lí quan trọng của thống kê, mà tôi có lần điểm qua cuốn sách "The Seven Pillars of Statistical Wisdom" của Stephen M. Stigler (1).

Gosset được thầy Pearson khen, nên ông hào hứng lắm, và muốn công bố phát hiện này trên tập san Biometrika mà lúc đó Pearson làm tổng biên tập. Nhưng sếp của ông ở Guinness tuy ủng hộ ông, nhưng không muốn tiết lộ "bí mật" của công ti. Sau một thời gian thương thảo, Guinness đồng ý cho Gosset công bố bài báo, nhưng phải kí tên khác. Thế là Gosset kí tên là "Student". Bài báo được công bố trên Biometrika số tháng 3 năm 1908.

Về bản chất, phương pháp kiểm định t hết sức đơn giản. Tử số của t là signal (tín hiệu), mẫu số là noise (nhiễu). Tín hiệu ở đây là hiệu số giữa trung bình mẫu và trung bình quần thể. Nhiễu là sai số chuẩn, tức standard error. Nếu signal/noise cao thì đó là khác biệt đáng quan tâm. Nếu signal/noise bằng 1 hay thấp hơn 1 thì bỏ qua. Đây là cách mà chúng ta khám phá gen, là cách chúng ta phân biẹt giữa cái mang tính hệ thống và cái ngẫu nhiên. Tất cả các phương pháp kiểm định thống kê sau này đều xây dựng trên cách tiếp cận của t test.

Năm 2008, thế giới khoa học kỉ niệm 100 năm t-test. Phương pháp kiểm định t đã giúp khoa học khám phá vô số hiện tượng trên thế giới. Từ y học, nông nghiệp, khoa học xã hội, đến kinh tế, và thậm chí nhân văn, ai cũng dùng phương pháp kiểm định t để phân biệt giữa tín hiệu và nhiễu trong dữ liệu. Cho đến ngày nay, dù thống kê học đã phát triển đến loại Dữ liệu Lớn và machine learning, nhưng nguyên lí và triết lí của phương pháp kiểm định t vẫn là nền tảng. Phát hiện và đóng góp của Student xứng đáng với chữ "ví đại".

Đến sự đóng góp của Fisher

Bài báo của Gosset tuy quan trọng như thế, nhưng chẳng ai chú ý. Đó là một công trình tương đối khô khan, phần lớn là những công thức toán và mô phỏng Monte Carlo (theo ngôn ngữ ngày nay) để chứng minh sự chính xác của phương pháp. Nhưng đến khi một nhà di truyền học trẻ tên là Ronald A. Fisher đọc bài báo, thì ý tưởng của Gosset mới trở thành lừng danh. Fisher đặc biệt thích cái bảng phân bố mà Gosset trình bày trong bài báo, vì qua đó mà ông có thể so sánh dữ liệu quan sát với kì vọng ngẫu nhiên. Chính ý tưởng về trị số P của Fisher bắt nguồn từ bài báo và kết quả của Gosset.

Fisher không chỉ là một nhà di truyền học tài ba, mà còn là một nhà thống kê học hạng thiên tài, người được xem là "cha đẻ" của khoa học thống kê hiện đại. Ông là người phát kiến kiểm định thống kê (test of significance), trị số P, phân tích phương sai (và kiểm định F chính là viết tắt tên của ông), phân tích phân định (discriminant analysis), maximum likelihood, v.v. Đóng góp của Fisher thì viết vài quyển sách cũng không đủ. Khi đọc bài báo của Gosset, Fisher nghĩ ngay đến ý nghĩa quan trọng của nó. Fisher khai triển thêm những ý tưởng của Gosset và chứng minh bằng toán học một cách thuyết phục hơn. Nhưng Gosset không hài lòng với cái ngưỡng P = 0.05 của Fisher, vì ông xem đó là ngưỡng tuỳ tiện.

Fisher soạn cuốn sách "Statistical Methods for Research Workers" và qua cuốn sách này, ông quảng bá phương pháp kiểm định t ra công chúng rộng lớn hơn. Cuốn sách "Statistical Methods for Research Workers" sau này được tái bản nhiều lần (chỉ sau Thánh Kinh) và trở thành một trong những công trình có ảnh hưởng lớn nhất trong lịch sử khoa học.

Nhân cách của Gosset

Gosset là nhà khoa học có đức tính khiêm tốn và sống hài hoà với mọi người. Thời đó, có hai nhà thống kê học lừng lẫy là Karl Pearson và Ronald Fisher, và hai người này ghét nhau. Thật ra, phải kể thêm hai nhà thống kê học nổi tiếng khác là Egon Pearson (con trai của Karl Pearson) và Jerzy Neyman (một người tị nạn cộng sản từ Ba Lan), và Fisher không ưa hai người này. Nhưng với Gosset thì ai ông cũng làm việc được, và ông không bao giờ nói xấu ai, không bao giờ nói về cá nhân ông.

Năm 1934, ông bị tai nạn và phải nằm liệt giường một thời gian, vì bác sĩ phải cưa một chân. Thời gian nằm dưỡng bệnh trớ trêu thay lại là thời gian ông có năng suất khoa học cao nhất. Dù năm bệnh, nhưng ông xuất bản đều đều những công trình nghiên cứu, từ hoá học, sinh học, đến thống kê học. Và, trong tất cả bài báo khoa học, ông chỉ kí tên "Student" (2). Chỉ có một số ít người trong giới khoa học biết Student là ai, đại đa số không hề biết danh tính của ông. Năm 1937 ông bị đột quị và qua đời ở tuổi 61. Nhiều nhà khoa học đương thời viết nhiều lời tri ân và điếu văn về con người và sự nghiệp của ông.

Năm 2017 là kỉ niệm 80 năm ngày William Gosset từ giã cõi đời. Dù ông đã ra đi 80 năm, nhưng phương pháp kiểm định t của ông thì sẽ sống mãi trong khoa học. Hầu như bất cứ sinh viên nào trên thế giới đều học phương pháp kiểm định t. Trong thời đại Dữ liệu Lớn ngày nay, phương pháp kiểm định t vẫn còn y giá trị của nó, và đó chính là phương pháp giúp chúng ta khám phá gen, thuốc điều trị, xác định mối liên quan, xu hướng kinh tế, v.v. Rất nhiều phương pháp mới đã được phát triển nhưng đều xây dựng trên triết lí và ý tưởng của Student. Do đó, không phải ngẫu nhiên mà "cha đẻ" khoa học thống kê hiện đại Ronald Fisher gọi William Gosset là "Faraday of Statistics" (3).

Hãng bia Guinness dựng một tấm bia tưởng niệm William Gosset.

===

(1) http://tuanvannguyen.blogspot.com.au/2016/11/bay-tru-cot-thong-thai-cua-thong-ke-hoc.html

2) Trong thế giới y khoa, còn có một tác giả khác cũng kí tên là "Student". Đó là Bác sĩ William Silverman (1917–2004), một bác sĩ nhi khoa lừng danh và tiền phong. Bác sĩ Silverman công bố hàng trăm bài báo khoa học, nhưng kí dưới bút danh "Student". Lí do là ông cho rằng tất cả chúng ta mãi mãi là "học sinh" vì có rất nhiều điều chúng ta chẳng biết gì cả và cần phải học.

(3) http://www.swlearning.com/quant/kohler/stat/biographical_sketches/bio12.1.html


2 comments:

lê thúy said...

Xin cảm ơn thầy!

Thành Nguyễn Văn said...

Chào thầy Tuấn
Thầy có thể làm một bài nói rõ hơn về cái gọi là "nước giả bia" không ạ, câu này của thầy mới mẻ quá, em đã thử tìm trên mạng về cái gọi là nước giả bia nhưng không ra thông tin gì.
Cảm ơn thầy
Chúc thầy luôn khỏe