Saturday, December 3, 2016

Cập nhật khoá học về Machine Learning 1/2017


Xin thông báo đến các bạn quan tâm là tiến trình chuẩn bị khoá học về ML sắp tới diễn ra rất ok. Phía bên Trường (ĐH Tôn Đức Thắng) cho biết đã có một số bạn ghi danh, nhưng số gọi điện tìm hiểu thì cao gấp chục lần số ghi danh. Trường định đóng sổ ghi danh vào ngày 30/12/2016.




Nói ra thì có vẻ là "kể công", nhưng sự thật là khoá học này làm tốn thì giờ và công sức của các anh em trong nhóm. Khác với các khoá học trước thường tập trung vào các phương pháp tương đối truyền thống, khoá học này tập trung vào các phương pháp "hiện đại". Ở góc độ thời gian tính, cũng có thể xem những phương pháp machine learning là "thời thượng". Phải một thời gian suy nghĩ và phân tích lợi hại, chúng tôi mới đi đến cơ cấu nội dung bài giảng sao cho thích hợp với người làm khoa học thực nghiệm (vốn quan tâm đến diễn giải kết quả) và giữ được tính "hiện đại" (vốn là các vấn đề về kĩ thuật).

Nội dung thì chúng tôi tập trung vào hai chủ đề chính: phân tích association (liên quan) và phân tích prediction (tiên lượng). Do đó, mỗi mô hình như hồi qui tuyến tính đa biến hay mô hình logistic đa biến, sẽ có 2 phần giảng về phân tích association và tiên lượng. Chẳng hạn như khi bàn về mô hình hồi qui tuyến tính, chúng tôi sẽ bàn về ý nghĩa của mô hình, cách ước tính tham số, ý nghĩa của kết quả phân tích. Kế đến chúng tôi sẽ bàn về cách xây dựng mô hình cho tiên lượng bằng các thủ thuật machine learning như random forest, support vector machine, kNN. Tôi nghĩ cách cấu trúc bài giảng như thế sẽ giúp các bạn phân định rõ ràng được sự ứng dụng của các mô hình thống kê.

Tôi nghĩ học về machine learning giúp cho chúng ta không chỉ cập nhật kiến thức và kĩ năng, mà còn giúp chúng ta có cái nhìn mới hơn về một vấn đề khoa học. Tôi nói ra điều này với kinh nghiệm cá nhân. Giả dụ như các bạn có một nghiên cứu mà mục tiêu là tìm ra những yếu tố nào có liên quan đến một bệnh, thì giải pháp truyền thống mà nhiều bạn được học là "stepwise regression". Nhưng phương pháp đó sai, và chỉ có một số người biết nó sai! Phương pháp đúng hơn và hiện đại hơn là dùng chỉ số AIC, phương pháp GLASSO hay phương pháp Bayes. Nhưng nếu các bạn học machine learning, thì sẽ biết thêm một số phương pháp "lợi hại" khác. Nhìn như thế sẽ thấy machine learning giúp cho nghiên cứu của chúng ta phong phú hơn và giúp chúng ta đặt ra câu hỏi mới.

Tôi thử tìm trong y văn và khoa học xã hội thì thấy machine learning được ứng dụng khá nhiều. Ngành ung thư học và tiểu đường là dùng nhiều nhất. Họ dùng ML để phân định các dạng ung thư, để xây dựng mô hình tiên lượng. Bên intensive care cũng dùng ML để tìm mô hình phân nhóm bệnh nhân nặng nhẹ. Bên xã hội học, giáo dục, môi trường, v.v. cũng dùng ML để đánh giá tầm quan trọng của các yếu tố. Ngành kinh tế và kĩ thuật thì khỏi nói vì họ đi tiên phong trong lĩnh vực này từ những 20 năm trước.

Một lợi ích khác của machine learning mà tôi phát hiện là dùng cho các nghiên cứu mà dữ liệu phức tạp, phi tuyến tính. Nếu mối liên hệ giữa các yếu tố là tuyến tính thì chúng ta có các mô hình cổ điển giải quyết rất tốt. Nhưng trong thực tế, rất nhiều mối liên hệ không phải là tuyến tính (ví dụ như cholesterol và bệnh tim mạch, như ảnh hưởng của gen đến bệnh tiểu đường, hay mối liên quan giữa trình độ học vấn của cha mẹ và con cái, v.v.), thì phương pháp cổ điển có vấn đề. Trong các trường hợp phi tuyến tính và rất thực tế này, các phương pháp machine learning cung cấp cho chúng ta nhiều giải pháp rất tốt. "Tốt" hiểu theo nghĩa chúng ta có thể tạo ra những mô hình tiên lượng chính xác hơn và hữu hiệu hơn.

Đối với các nghiên cứu hay dữ liệu mà số biến tiên lượng (machine learning gọi là "feature") nhiều hơn số đối tượng nghiên cứu (n) thì machine learning rất tuyệt vời. Chẳng hạn như bạn có 50 bệnh nhân nhưng số biến số lên dến 200, thậm chí 100000, thì các phương pháp truyền thống "bó tay", nhưng ML thì có thể cho ra kết quả rất đáng tin cậy. ML rất có ích cho big data -- dữ liệu lớn.

Có thể tôi sai, nhưng khoá học này là lần đầu tiên được tổ chức ở bên nhà với một thời gian dài như thế (10 ngày). Tôi quan niệm đã học cái gì thì học cho đầy đủ để sau khi xong lớp học là thực hành được, và quan trọng hơn là phải hiểu được ý nghĩa của kết quả. Do đó, lớp học này dài hơn các lớp học khác là vậy. Viết đến đây tôi chợt nhớ đến một chị bác sĩ trong nhóm tôi mới đi học một lớp về data analysis bên ĐH Sydney, lớp học chỉ có 10 bài giảng gì đó (khoảng 1 tuần) nhưng chị ấy phải trả 3000 đô-la! Đây là điều bình thường. Khoảng 10 năm trước đây tôi theo học một lớp về bioinformatics 5 ngày cũng do Sydney tổ chức, và viện tôi phải trả 2000 đôla. Học về phương pháp lúc nào cũng đắt hơn học về lí thuyết, vì học phương pháp nó cho bạn cái "cần câu" để tìm việc làm và là một đầu tư. Tuy nhiên, khoá học tại TDT thì chỉ 4 triệu đồng thôi, và nếu là sinh viên hay nghiên cứu sinh thì Trường sẽ giảm giá (cái này là tôi yêu cầu).

Như nói trên, thời gian ghi danh sẽ hết hạn vào ngày 30/12. Để tiện cho việc tổ chức, nếu các bạn và đồng nghiệp có ý định ghi danh thì nên làm trước ngày này. Kinh nghiệm lần trước ở ĐH Phạm Ngọc Thạch, số ghi danh dồn dập vào ngày cuối làm ban tổ chức lúng túng và thiếu ghế! Tuy nhiên, Trường TDT thì chắc chắn không thiếu ghế cho các bạn, vì cơ sở vật chất ở đây rất tốt, và quan trọng nhất là sạch sẽ. Hệ thống internet và wifi (rất quan trọng cho khoá học) của TDT tuy không bằng UTS của Úc nhưng tốt nhất so với các đại học VN mà tôi từng ghé qua.

Hẹn các bạn ngày 3/1/17.

Chương trình học tháng 1/2017:
1. Giới thiệu chương trình học 
2. Giới thiệu ngôn ngữ R 
3. Cú pháp, input và output 
4. Phân tích mô tả với R 
5. Xây dựng biểu đồ dùng R: cơ bản 
6. Xây dựng biểu đồ dùng R: ggplot2 
7. Mô hình hồi qui tuyến tính đơn biến 
8. Phân tích dao động dư (residual analysis) 
9. Mô hình hồi qui tuyến tính đa biến 
10. Mô hình hồi qui tuyến tính với biến phân loại và tương tác
11. Hồi qui đa thức 
12. Hồi qui tuyến tính: PLS, Ridge, GLASSO
Supervised learning: 
13. Giới thiệu các phương pháp machine learning: training vs testing
14. Random forest 
15. Support vector machine 
16. kNN 
17. Mô hình hồi qui logistic đơn biến 
18. Mô hình hồi qui logistic đa biến 
19. Các phương pháp chọn mô hình tối ưu (model selection) 
20. Đánh giá mô hình: discrimination
21. Đánh giá mô hình: calibration
22. Đánh giá mô hình: reclassification 
23. ML cho mô hình hồi qui logistic: random forest, prediction
Unsupervised learning 
24. Cluster analysis 1: khái niệm 
25. Cluster analysis 2: mô hình và kĩ thuật 
26. Dimensionality reduction
27. Mô hình thành tố (Principal component model) 
28. Mô hình Cox's 
29. Ước tính cỡ mẫu

Đăng kí và liên lạc

Học viên sẽ đăng kí từ ngày ra thông báo đến hết ngày 23/12/2016.

Lệ phí khóa học: 4 triệu đồng/học viên (bao gồm sách, tài liệu giảng dạy, và teabreak trong suốt 10 ngày học). Đối với học viên ghi danh lớp cơ bản (5 ngày đầu), chi phí là 2 triệu đồng/học viên. Nghiên cứu sinh sẽ được giảm 50% học phí.


Như thường lệ, học viên hoàn tất lớp học sẽ được cấp chứng chỉ với credit cho sau đại học.

Mọi thông tin vui lòng liên hệ: Phòng quản lý phát triển khoa học và công nghệ (ThS. Nguyễn Hoàng Nam), Phòng A303, số 19, Đường Nguyễn Hữu Thọ, P. Tân Phong, Q.7, TP. HCM.

Điện thoại: (08) 37755 037. Email: nguyenhoangnam@tdt.edu.vn

No comments: