Friday, October 28, 2016

Thông báo về workshop "Machine Learning" 1/2017

-->
Chúng tôi hân hạnh thông báo một khóa học với chủ đề "Data Science and Machine Learning" (mà tôi tạm dịch là "Khoa học dữ liệu và Mô hình học bằng máy")  do Trường đại học Tôn Đức Thắng tổ chức từ ngày 3/1/2017 đến 12/1/2017. Đây là một workshop có mục tiêu chính là giới thiệu những mô hình thống kê phổ biến và ứng dụng trong nghiên cứu khoa học.



Trong vài năm gần đây có hai "trào lưu" khoa học rất thịnh hành trên trường quốc tế: Dữ liệu Lớn và Machine Learning (còn có thể gọi là Statistical Learning, và tôi tạm dịch là "Mô hình học bằng máy" -- ML). Cả hai trào lưu là giao thoa giữa khoa học thống kê và khoa học máy tính. Cả Dữ liệu Lớn và ML đều xuất phát từ nhu cầu thực tế trong khoa học thực nghiệm như di truyền học, sinh học, và doanh nghiệp. Các nghiên cứu di truyền học và những thông tin từ các doanh nghiệp viễn thông tạo ra những dữ liệu lớn, mà các phương pháp thống kê cổ điển khó đáp ứng nhu cầu.

ML  là tập hợp một số phương pháp thống kê học nhằm khám phá những xu hướng và đặc điểm của các dữ liệu lớn. Tuy nhiên, những phương pháp và mô hình này hiện nay chưa được tiếp cận một cách có hệ thống ở Việt Nam. Trong thực tế, ngay cả nhiều người trong giới khoa học ở nước ngoài vẫn còn rất xa lạ với những phương pháp hiện đại của ML.

1.   Mục tiêu

Do đó, chúng tôi có ước vọng trước là giới thiệu những mô hình ML và chia sẻ kinh nghiệm thực tế mà chúng tôi đúc kết được qua những dự án nghiên cứu y khoa và di truyền học mà chúng tôi thực hiện trong thời gian gần đây.

Mục tiêu chung của khoá học là giới thiệu các khái niệm cơ bản về Khoa học Dữ liệu và Mô hình hoá bằng máy. Học viên sẽ làm quen với một số phương pháp và kĩ thuật cơ bản, thuật toán phổ biến và ứng dụng trong thực tế. Chúng tôi sẽ nhấn mạnh đến việc ứng dụng các phương pháp mô hình hoá dữ liệu trong việc phân tích các dữ liệu lớn qua một số ca nghiên cứu cụ thể của chúng tôi và các đồng nghiệp khác. Chúng tôi kì vọng học viên sau khi xong lớp học sẽ:

·       Sử dụng thành thạo R cho các mô hình hồi qui tuyến tính;
·       Sử dụng R để xử lí các dữ liệu lớn;
·       Hiểu và có thể áp dụng các phương pháp chọn mô hình;
·       Hiểu và xây dựng mô hình tiên lượng với các phương pháp hiện đại;
·       Có thể giảng dạy cho các đồng nghiệp chưa am hiểu về thống kê học và ML.

2.   Đối tượng

Lớp học được thiết kế dành cho các giảng viên, nhà khoa học, và nghiên cứu sinh có nhu cầu phân tích dữ liệu, đặc biệt là dữ liệu lớn. Các nhà khoa học đang đối phó với dữ liệu lớn và mô hình tiên lượng sẽ thấy khoá học rất thiết thực. Học viên cần có kiến thức cơ bản về thống kê học và đã làm quen với ngôn ngữ R (tuy không phải là điều kiện quan trọng).

3.   Địa điểm

Trường Đại học Tôn Đức Thắng
Số 19, Đường Nguyễn Hữu Thọ, Phường Tân Phong, Quận 7, TP. Hồ Chí Minh.

4.   Giảng viên

Giảng viên phụ trách lớp học bao gồm các nhà khoa học thực nghiệm có kinh nghiệm trong phân tích dữ liệu lớn và ML:
·       GS Nguyễn Văn Tuấn
·       TS Trần Sơn Thạch
·       PGS Nguyễn Thời Trung
·       BS Hà Tấn Đức
·       Nguyễn Chí Dũng
·       và các giảng viên của Đại học Tôn Đức Thắng 

GS. Nguyễn Văn Tuấn có kinh nghiện lâu năm trong việc phát triển mô hình tiên lượng, và chính là tác giả của mô hình đánh giá nguy cơ gãy xương Garvan. Ông còn giúp nghiên cứu sinh trong nước phát triển mô hình tiên lượng tử vong ở khoa cấp cứu trong bệnh viện. Hiện tại, ông hiện là Giáo sư y khoa tiên lượng (Predictive Medicine) của Trường Đại học Công nghệ Sydney (UTS), Giáo sư Dịch tễ học và Thống kê học của Đại học Notre Dame Australia, và Giáo sư Y khoa của Đại học New South Wales, Australia.

5.  Thời gian

Khóa học sẽ kéo dài 10 ngày, từ 3/1/2017 đến 12/1/2017.

5.   Chương trình (dự kiến)

Chương trình học sẽ bao gồm 35 bài giảng. Những bài giảng sẽ được sắp xếp như sau:

·       Giới thiệu về ngôn ngữ R và package "caret";

·       Giới thiệu mô hình học dùng máy (ML), so sánh các khái niệm về mô hình thống kê và ML;

·       Ứng dụng các mô hình thống kê phổ biến: mô hình tuyến tính (linear regression, linear discriminant model); mô hình phi tham số (neural networks, support vector machines, knn, Cox's model); mô hình phân nhóm (classificationregression trees models);

·       Phương pháp xây dựng và đánh giá mô hình như discrimination analysis, calibration analysisreclassification analysis.

Mỗi mô hình thống kê (như mô hình logistic chẳng hạn), chúng tôi sẽ có 2 phần giảng. Phần thứ nhất giới thiệu ý tưởng đằng sau mô hình, những ứng dụng thành công trong thực tế, và cách dùng R để ước tính tham số. Sau đó chúng tôi sẽ triển khai các "chiến lược" của machine learning để xây dựng và đánh giá mô hình tiến lượng như cross-validation và bootstrap. Tất cả đều được minh hoạ bằng những dataset thực tế rút ra từ những nghiên cứu của chúng tôi và của đồng nghiệp.


Thời gian
Nội dung
3/1/2017
Chủ đề: Tổng quan về ngôn ngữ R (Overview of R language)
·       Bài 1: Giới thiệu về R (Introduction to R language)
·       Bài 2: Cú pháp, input và output (R input/output)
·       Bài 3: Phân tích mô tả dùng R (Descriptive analyses using R)
·       Bài 4: Cách xử lí tập hợp dữ liệu lớn (How to handle large datasets)
4/1/2017
Chủ đề: Phân tích mô tả (Descriptive analyses)
·       Bài 5: Phân tích biểu đồ dùng R: Biểu đồ cơ bản  (Graphical analyses using R: Basic graphs)
·       Bài 6: Phân tích biểu đồ dùng R: Biểu đồ nâng cao  (Graphical analyses using R: Advanced graphs)
·       Bài 7: Ôn tập phân tích hồi qui tuyến tính (Review of linear regression analysis)
·       Bài 8: Phân tích dao động dư và hoán chuyển dữ liệu (Residual analysis and data transformation)
5/1/2017
Chủ đề: Mô hình hồi qui tuyến tính (Linear regression models)
·       Bài 9: Hồi qui tuyến tính đa biến 1: biến số phân loại (Multiple linear regression 1: categorical variables)
·       Bài 10: Hồi qui tuyến tính đa biến 2: tương tác (Multiple linear regression 1: interaction)
·       Bài 11: Tiên lượng qua mô hình hồi qui đa biến (Prediction in multiple linear regression)
·       Bài 12: Hồi qui đa thức (Polynomial regression)
6/1/2017
Chủ đề: Mô hình hồi qui logistic (Logistic regression models)
·       Bài 13: Giới thiệu về mô hình hồi qui logistic (Introduction to logistic regression)
·       Bài 14: Mô hình hồi qui logistic đa biến (Multiple logistic regression model)
·       Bài 15: Tiên lượng trong mô hình hồi qui logistic và cách tạo "chỉ số nguy cơ" (Prediction in logistic regression model and "risk score")
7/1/2017
Chủ đề: Phân tích sống sót và mô hình tỉ lệ cùng nguy cơ (Survival analysis and proportional hazards models)
·       Bài 16: Giới thiệu về phân tích sống còn (Introduction to survival analysis)
·       Bài 17: Giới thiệu về mô hình hồi qui Cox (Introduction to Cox's proportional hazards model)
·       Bài 18: Giới thiệu thêm về mô hình Cox: các phương pháp phụ thuộc vào thời gian (More on Cox's model: time-variant methods)
8/1/2017
Chủ đề: Mô hình thống kê đa biến (Multivariate statistics)
·       Bài 19: Mô hình phân định tuyến tính (Linear discriminant model)
·       Bài 20: Mô hình thành tố (Principal component model)
·       Bài 21: Phân tích cụm 1: Giới thiệu khái niệm  (Cluster analysis 1 – Introduction to concepts)
·       Bài 22: Phân tích cụm 2: Mô hình và kĩ thuật (Cluster analysis 2 – Models and techniques)
9/1/2017
Chủ đề: Các phương pháp chọn lựa mô hình (Model selection methods)
·       Bài 22: Giới thiệu về khái niệm và các kỹ thuật được thành lập (Introduction to the concept and established techniques)
·       Bài 23: Lựa chọn mô hình dùng các phương pháp dựa trên AIC (AIC based methods for model selection)
·       Bài 24: Phương pháp mô hình trung bình Bayesian (Bayesian Average Model method)
10/1/2017
Chủ đề: Các phương pháp chọn lựa mô hình mới (New methods for model selection)
·       Bài 25: Mô hình dựa trên rừng ngẫu nhiên (Random Forest based methods)
·       Bài 26: Phương pháp LASSO (LASSO method)
·       Bài 27: Các phương pháp tái lấy mẫu (Resampling method)
·       Bài 28: Xử lí số liệu trống (Treatment of missing values)
11/1/2017
Chủ đề: Xây dựng mô hình (Model building)
·       Bài 29: Đánh giá khả năng phân định (Evaluation of discrimination)
·       Bài 30: Đánh giá độ chính xác (Evaluation of calibration)
·       Bài 31: Phân tích tái phân loại (Reclassification method)
12/1/2017
Chủ đề: Các trường hợp nghiên cứu (Case studies)
·       Trường hợp 1: Lựa chọn các yếu tố phụ thuộc vào gene đối với bệnh loãng xương (Evaluation of discrimination)
·       Trường hợp 2: Phát hiện các giao dịch gian lận (Detection of fraudulent transactions)
·       Trường hợp 3: Dự đoán sự trở lại của thị trường cổ phiếu (Prediction of stock market returns)
·       Trường hợp 4: Dự đoán sự phát triển bùng nổ của tảo (Predicting algae blooms)



-->
Đăng kí và liên lạc
  • Học viên sẽ đăng kí từ ngày ra thông báo đến hết ngày 23/12/2016.
  • Lệ phí khóa học: 4 triệu đồng/học viên (bao gồm sách, tài liệu giảng dạy, và teabreak trong suốt 10 ngày học). Đối với học viên ghi danh lớp cơ bản (5 ngày đầu), chi phí là 2 triệu đồng/học viên. Nghiên cứu sinh sẽ được giảm 50% học phí.
  • Mọi thông tin vui lòng liên hệ: Phòng quản lý phát triển khoa học và công nghệ (ThS. Nguyễn Hoàng Nam), Phòng A303, số 19, Đường Nguyễn Hữu Thọ, P. Tân Phong, Q.7, TP. HCM.
  • Điện thoại: (08) 37755 037. Emailnguyenhoangnam@tdt.edu.vn

1 comment:

Heo Pro (Đình Trung) said...

Cảm ơn Thầy đã quay lại!