Monday, December 12, 2016

Ước tính cỡ mẫu và Machine Learning

Xin thông báo đến các bạn rằng tôi mới tải lên kênh youtube hai bài giảng về phân tích dữ liệu. Bài thứ nhất bàn về các phương pháp ước tính cỡ mẫu cho một nghiên cứu khoa học, và bài thứ hai là giới thiệu workshop về machine learning vào đầu năm 2017. Địa chỉ là:




Sau gần 2 năm vắng bóng, tôi quay lại kênh youtube này, tôi mới tự "phát hiện" mình đã upload 60 bài giảng trong thời gian qua. Cũng là một kì công đó chứ! Càng vui hơn khi biết có nhiều bạn theo dõi các bài giảng này. Có bài mà số người xem hay download lên đến hơn 20 ngàn! Theo tôi biết, loạt bài giảng này cũng gây cảm hứng cho vài bạn khác ở trong nước làm theo và như thế là tạo được một "cộng đồng" truyền bá thống kê học và phân tích dữ liệu ở qui mô lớn hơn. Chúng ta rất cần nhiều người như thế -- những người làm cái công việc mà có người mỉa mai là "vác tù và hàng tổng" -- bởi vì tất cả các lĩnh vực khoa học trong nước rất cần những kĩ năng về phân tích dữ liệu.

Thoạt đầu làm những clip này tôi không hề có ý định là bài giảng gì cả, mà chỉ muốn trước là học cách làm video cá nhân, và sau là thử nghiệm cách chia sẻ kinh nghiệm cùng các bạn và đồng nghiệp qua youtube. Nhưng dần dần thấy có hiệu quả nên tôi làm tiếp, chứ tôi cũng chẳng phải là chuyên gia gì cả. Có người còn đề nghị tôi làm tiếp, nhưng tôi không dám hứa gì cả, vì hiện nay tôi có hai ba nhiệm sở nên rất bận với chuyện "cơm áo gạo tiền". Nhưng thỉnh thoảng nhận được email của vài bạn nói rằng những bài đó đã giúp rất nhiều các bạn ấy trong học tập ở nước ngoài (có người nói là "phao"), và điều này làm tôi có động cơ làm tiếp.

1. Ước tính cỡ mẫu cho nghiên cứu

Nhân dịp quay lại với kênh youtube lần này tôi muốn giới thiệu đến các bạn một bài về ước tính cỡ mẫu cho nghiên cứu khoa học. Bài này soạn theo một bài viết trước đây (2) và cũng là một chương sách trong cuốn "Y học thực chứng" (Nhà xuất bản Y học 2014). Trong bài này tôi giải thích tại sao chúng ta phải ước tính cỡ mẫu, và mục tiêu của ước tính cỡ mẫu là gì; sau đó tôi hướng dẫn cách tính cỡ mẫu cho 4 tình huống nghiên cứu. Ở đây, tôi phải nói thêm và nhấn mạnh là phương pháp ước tính cỡ mẫu phụ thuộc vào đặc tính của nghiên cứu, chứ không có một công thức chung mà tôi hay thấy các bạn bên Việt Nam hay sử dụng.


Tôi cũng nói thêm là không có cái con số huyền thoại 30. Rất nhiều người hỏi tôi (và tôi cũng nghe phát biểu từ vài người trên báo chí) là nghiên cứu nào cũng cần phải có 30 đối tượng trở lên thì mới đáng tin cậy. Chẳng hạn như mới đây có người phê bình Vinastas về vụ nước mắm rằng phải kiểm tra 30 mẫu thì mới có tính khoa học. Trong thực tế thì hoàn toàn không có một con số nào như thế cả. Nghiên cứu có thể cần ít hơn hay nhiều hơn 30 mẫu, và mỗi mô hình nghiên cứu có một cách tính. Tôi có bàn về "con số huyền thoại" này, nhưng website bị "chết" rồi nên mất. Tuy nhiên, may mắn là có website đăng lại dưới đây (3).

2.  Giới thiệu lớp học "Machine Learning"

Bài thứ hai không phải là bài giảng, mà là bài giới thiệu về lớp học "Machine Learning" sắp tới tại ĐH Tôn Đức Thắng. Tôi có nói qua về nội dung của lớp học và học viên sẽ học được gì sau khi hoàn tất lớp học 10 ngày này. Tôi nói về hai văn hoá trong phân tích dữ liệu để các bạn thấy nét đặc thù của lớp học này. Tôi cũng giải thích tại sao "Machine Learning" không nên dịch là "Học Máy", vì chữ learning ở đây không có nghĩa là "học" mà chính là "fitting" (tức là mô hình hoá). Tưởng chỉ nói 10-15 phút, ai dè nói hơn 30 phút!


Đây là một workshop làm hao tổn sức lực của chúng tôi, vì soạn bài giảng gần như mới hoàn toàn (hơn 1000 slides), và phải chọn bài tập để học viên thực hành. Ngay cả ở nước ngoài, năm tới tôi sẽ giảng vài bài về chủ đề này, nhưng chỉ là "cưỡi ngựa xem hoa" thôi, chứ không chi tiết như ở VN.  Tôi tin rằng sau khi hoàn tất lớp học này các bạn sẽ có thêm "vũ khí" lợi hại cho công việc của mình. Các bạn sẽ có một cách suy nghĩ mới về nghiên cứu khoa học, và tôi chắc rằng sẽ làm cho nghiên cứu của các bạn phong phú hơn, hay hơn. Đối với các bạn đối phó với dữ liệu lớn (big data) thì các phương pháp machine learning sẽ giúp cho việc khai thác các dữ liệu này.

Tôi kì vọng rằng sau khi hoàn tất lớp học, các bạn sẽ thay thế tôi đi truyền đạt các phương pháp này đến các bạn khác. Chúng ta rất cần tạo ra một cộng đồng mạnh về thống kê học và machine learning ở VN, chứ không nên chỉ tập trung vào một thiểu số rất nhỏ. 

Chỉ còn hơn 2 tuần nữa là khai mạc lớp học, nên các bạn nào có ý định tham dự thì ghi danh ngay từ bây giờ. Sau khi khoá sổ thì Trường không nhận thêm, và đó là chính sách. Hi vọng sẽ gặp lại các bạn trong lớp học.

====

(1) Địa chỉ bài giảng: https://www.youtube.com/user/drnguyenvtuan/videos



(3) http://vienthongke.vn/thong-tin-khoa-hoc/thong-tin-khtk/209-thong-tin-khoa-hoc-thong-ke-so-5-nam-2012/1644-co-mau-huyen-thoai-con-so-30  (chú ý: website này không đáng tin cậy, vì rất chập chờn và không ổn định).

No comments: