Wednesday, July 3, 2013

Lớp học “Phân tích dữ liệu với phương pháp hiện đại”

Tiếp theo thông báo của Viện nghiên cứu y học ĐTH tôi muốn nói thêm về lớp học sắp tới ở Hà Nội. Đây là một lớp học tương đối đặc biệt vì nội dung sẽ xoay quanh các phương pháp phân tích có thể nói là tương đối “hiện đại”. Nhưng cách thiết kế lớp học cũng khác với các lớp khác. Tôi đầu tư khá nhiều thời gian để suy nghĩ về cách “đổi mới” cho lớp học.


Thử tưởng tượng: các bạn đã làm xong thí nghiệm hay hoàn tất một công trình nghiên cứu lâm sàng, dữ liệu đã được nhập vào một cơ sở dữ liệu (database) như Excel hay Access, câu hỏi là bạn phải làm gì để biến những data này thành information, và công bố. Tình huống này cũng giống như các bạn đã xong mùa vụ, lúa đã gặt và phơi nắng xong, và đã cho vào bồ, vấn đề kế tiếp là làm sao chế biến để bán ra ngoài. Lớp học này được thiết kế để giúp các bạn những kĩ năng cần thiết cho phân tích dữ liệu nghiên cứu, và quan trọng hơn là hiểu ý nghĩa của dữ liệu, để từ đó “đóng gói” và chào hàng các tập san khoa học.

Xuất phát từ nhu cầu trên, tôi thiết kế chương trình học một cách hoàn toàn mới so với các lớp học “truyền thống”. Nguyên tắc là bám sát theo nhu cầu của người làm nghiên cứu khoa học. Do đó, các bạn, thay vì phải bị “tra tấn” bằng lí thuyết, sẽ được cung cấp một dữ liệu trích từ một công trình nghiên cứu qui mô. Các bạn sẽ được cho biết mục tiêu / câu hỏi của nghiên cứu là gì, và những dữ liệu cùng biến số liên quan đến mục tiêu. Các bạn sẽ học các phương pháp phân tích cơ bản và các phương pháp hiện đại để giải đáp các câu hỏi nghiên cứu.

Ngoài ra, tôi dành nguyên ngày cho phần phân tích tổng hợp (meta-analysis). Đây là đề tài có vẻ “nóng” bên nhà. Thật ra, cách đây 9 năm tôi đã giới thiệu phương pháp này ở VN và sau này (2005) in trong một cuốn sách về R, nhưng lúc đó chỉ có vài người chú ý. Nay thì nhiều người chú ý, và hình như bên nhà cũng đã có nhiều thầy cô giảng về phương pháp này. Ở đây, tôi có cách tiếp cận theo kiểu PBL (problem based learning), vì tôi và đồng nghiệp có khá nhiều công trình về phân tích tổng hợp nên có thể chia sẻ những khó khăn và cạm bẫy để các bạn không vấp phải trong tương lai.

Lớp học sẽ dùng ngôn ngữ R. Tôi tin rằng chúng ta nên học R, và giảm sự lệ thuộc vào các software khác (mà phần lớn là dùng không có bản quyền). R đã và đang trở thành một ngôn ngữ chính thức của khoa học thống kê. Do đó, nếu đồng nghiệp muốn hội nhập quốc tế thì nên dùng R. Có thể thoạt đầu R sẽ không “thân thiện” với các software khác, nhưng chỉ một thời gian ngắn các bạn sẽ thích R hơn vì các bạn biết chính xác mình làm gì. (Rất nhiều người sử dụng các phương pháp thống kê như người say rượu sử dụng đèn đường). Có thể xem qua giải thích về R ở đây.

Có lẽ một lợi thế của lớp học là “cây nhà lá vườn”. Tất cả những tài liệu tham khảo, sách, bài báo khoa học là của chúng tôi. Chúng tôi không cần đến dữ liệu của người khác, và cũng chẳng cần dùng bài báo của người khác. Vì chúng tôi là tác giả nên chúng tôi có thể chia sẻ những kinh nghiệm thực tế và câu chuyện đằng sau những công trình đó cùng các bạn.

Chương trình bao gồm 25 bài giảng như sau:

Ngày 1: Giới thiệu R

• Bài giảng 1: Giới thiệu R, giao diện, ngôn ngữ, tương tác
• Bài giảng 2: Cách đọc dữ liệu
• Bài giảng 3: Cách biên tập và coding dữ liệu
• Bài giảng 4: Vài phân tích mô tả bằng R (và những hàm phổ biến)
• Buổi chiều: Bài tập và thực hành
o tương tác với R; đọc dữ liệu từ máy tính cá nhân, từ mạng;
o một số phân tích biểu đồ đơn giản như histogram và luật phân bố, biểu đồ tán xạ (scatterplot), biểu đồ tương quan đa biến;
o một số phương pháp phân tích mô tả, ước tính tỉ lệ phát sinh và tỉ lệ hiện hành và khoảng tin cậy 95%; ước tính các tham số của một biến liên tục.

Ngày 2: Những phương pháp so sánh biến liên tục
• Bài giảng 5: Phương pháp t-test và ý nghĩa
• Bài giảng 6: Phương pháp hoán vị và phương pháp bootstrap
• Bài giảng 7: Phân tích phương sai
• Buổi chiều: Bài tập và thực hành
o Phân tích khác biệt bằng đồ thị stripchart và boxplot
o Kiểm định giả thuyết về khác biệt giữa 2 nhóm bằng phương pháp t-test cổ điển;
o Cách ứng phó với các biến không tuân theo luật phân phối chuẩn (phương pháp hoán vị và bootstrap);
o Kiểm định giả thuyết về khác biệt giữa nhiều nhóm, phân tích hậu định (posthoc analysis); phân tích phương sai phi tham số và bootstrap.

Ngày 3: Những phương pháp so sánh biến phân nhóm

• Bài giảng 8: So sánh 2 nhóm với phương pháp z test
• Bài giảng 9: Tỉ số odds và tỉ số nguy cơ (risk ratio)
• Bài giảng 10: So sánh nhiều nhóm với Ki bình phương và mô hình log-linear
• Buổi chiều: Bài tập và thực hành
o Hiểu và phân biệt ý nghĩa của OR và RR, cách tính khoảng tin cậy 95% của OR và RR;
o Phân tích sự khác biệt về tỉ lệ phát sinh (incidence) và hiện hành (prevalence) giữa nhiều 2 và 3+ nhóm.
o Thực hành mô hình log-linear cho số liệu đa chiều.

Ngày 4: Phương pháp phân tích tương quan

• Bài giảng 11: Phân tích tương quan (correlation analysis)
• Bài giảng 12: Phân tích đồng dạng giữa các phương pháp đo lường (analysis of agreement)
• Bài giảng 13: Phân tích tương quan đa chiều qua biểu đồ và khái niệm partial correlation
• Buổi chiều: Bài tập và thực hành
o Phân tích tương quan và biểu đồ;
o Cách đánh giá độ tin cậy của phương pháp đo lường .

Ngày 5: Mô hình hồi qui tuyến tính
• Bài giảng 14: Mô hình hồi qui tuyến tính đơn giản
• Bài giảng 15: Mô hình hồi qui tuyến tính với biến phân loại (ANCOVA)
• Bài giảng 16: Mô hình hồi qui tuyến tính đa biến
• Bài giảng 17: Phương pháp tìm mô hình tối ưu
• Buổi chiều: Bài tập và thực hành
o Mô hình tiên lượng BMD;
o So sánh tỉ trọng mỡ giữa phụ nữ Mĩ và VN qua hồi qui tuyến tính;
o Cách xây dựng mô hình tiên lượng đa biến;
o Thực hành phương pháp BMA và diễn giải.

Ngày 6: Mô hình hồi qui logistic

• Bài giảng 18: Giới thiệu mô hình hồi qui logistic và giả định
• Bài giảng 19: Hồi qui logistic đa biến
• Bài giảng 20: Cách tìm các yếu tố tiên lượng độc lập (model selection)
• Bài giảng 21: Cách xây dựng mô hình tiên lượng (prognostic model)
• Buổi chiều: Bài tập và thực hành
o Thực hành mô hình tiên lượng gãy xương và diễn giải kết quả;
o Sử dụng phương pháp BMA để tìm mô hình tốt nhất;
o Thực hành phương pháp kiểm định mô hình tiên lượng logistic.

Ngày 7: Phân tích tổng hợp (meta-analysis)
• Bài giảng 22: Lịch sử, khái niệm và giới thiệu
• Bài giảng 23: Độ ảnh hưởng (effect size) và đánh giá độ precision
• Bài giảng 24: Trọng số (weights)
• Bài giảng 25: Mô hình phân tích, định lượng heterogeneity và “publication bias”
• Buổi chiều: Bài tập và thực hành: Phân tích 3 dữ liệu liên quan đến biến nhị phân, biến liên tục, và hệ số tương quan bằng metafor.

Dataset cho thực hành:
• Dữ liệu “Vietnam Living Standards Survey: Househld Per Capita” trích từ điều tra xã hội 1992-1993.
• Dữ liệu về nghiên cứu loãng xương (csv)
• Dữ liệu về nghiên cứu kinh tế (csv)
• Dữ liệu về so sánh tỉ trọng mỡ gữa người Mĩ và Việt Nam (excel)
• Dữ liệu cho phân tích tổng hợp: biến categorical, biến liên tục, và hệ số tương quan (excel)

Sách và tài liệu tham khảo cho lớp học:

  •   “Phân tích dữ liệu và biểu đồ bằng R” của Nguyễn Văn Tuấn (Nxb Khoa học Kĩ thuật 2005).
  •   “Đi vào nghiên cứu khoa học” của Nguyễn Văn Tuấn (Nxb Tổng hợp TPHCM 2012).
  •   “Effect of vegetarian diets on bone mineral density: a Bayesian meta-analysis” của Hồ Phạm Thục Lan, Nguyễn Đình Nguyên, Nguyễn Văn Tuấn. Am J Clin Nutr October 2009 vol. 90 no. 4 943-950.
  •   “Development of a nomogram for individualizing hip fracture risk in men and women” của Nguyễn Đình Nguyên, Nguyễn Văn Tuấn. Osteoporosis Int 2007;18:1109-17.
  • “Vitamin D deficiency in northern Vietnam: prevalence, risk factors and associations with bone mineral density” của Nguyễn Thị Thanh Hương, et al. Bone 2012 Dec;51(6):1029-34.
 

19 comments:

Anonymous said...

dạ em muốn hỏi lớp học này thì bao h mình khai gảng ạ?

Lethuyhang said...

Thưa thầy, làm thế nào để em có thể đăng ký tham gia khóa học này?

Tuan Nguyen said...

Em có thể liên lạc qua email vớii Ngọc Ánh anh.nguyen@dthim.org.vn hoặc điện thoại 0972.095.132 cho Ánh. Nhớ đăng kí trước 10/7.

Anonymous said...

Thưa thầy em rất thích những bài giảng của thầy nhưng hôm nay em không hỏi về bài học mà em muốn được nghe mộtlời khuyên từ thầy!không biết thầy có nhận được mail này không!chuyện của em là em vừa thôi việc tại công ty cũ và bắt đầu ở công ty mới. Em cảm thấy áp lực quá và công việc dường như hơi cao hơn những gì mà làm trước giờ.tuy nhiên ở lại công ty cũ thì lương thấp quá không đủ sống và cũng không có tương lai đi lên. Em rất lo lắng cho tương lai sau này không biết sẽ ra sao vì phía ssau em có gánh nặng gia đình nữa. Không biết quyết định ra đi của em có phải là sáng suốt không, thầy cho em lời khuyên với,rất cảm ơn thầy.Chào thầy, chúc thầy sức khỏe!

Bùi Quốc Huy said...

Xin GS cho biết lớp học này có mở tại Sài Gòn không?

Bùi Quốc Huy said...

Xin GS cho biết lớp này có mở tại Sài Gòn không?

Tuan Nguyen said...

Chắc cuối năm mới làm một lớp ở Sài Gòn. Nhưng nội dung sẽ khác một chút. Đầu tháng 8 sẽ có một khoá về meta-analysis ở SGN.

mktk said...

Em thấy Website của thầy ghi lịch khóa học bắt đầu từ ngày 21 nhưng khi click vào phần đăng ký thì lịch khóa học lại ghi là bắt đầu từ ngày 13.
Không biết thông tin nào là chính xác thưa thầy Tuấn?

mktk said...

Em thấy website của thầy thông báo ngày bắt đầu khóa học là 21/07 nhưng khi click vào phần đăng ký của Viện Y học Đinh Tiên Hoàng thì họ thông báo là khóa học bắt đầu vào ngày 13/07.
Em rất hoang mang. Xin thầy cho em biết chính xác lịch học để em sắp xếp thời gian.

mktk said...

Xin thầy cho em biết lịch học chính xác vì website của thầy thông báo là khóa học bắt đầu từ ngày 21 nhưng Viện Y học Đinh Tiên Hoàng thông báo là ngày 13 tháng 7.

Tuan Nguyen said...

Ngày 21/7 bắt đầu.

Hanh Nguyen said...

Thầy ơi, Thầy mở lớp ở Sài Gòn sớm nhé để những bạn có nhu cầu ở miền Nam có thể học

Ngo Manh Tuong said...

Thưa thầy!
Em đang rất quan tâm đến đề tài này nhưng em lại không có điều kiện để đến lớp học. Thầy có thể cho em xin tài liệu của lớp học được không?
Em rất cảm ơn thầy!

Ngo Manh Tuong said...

Thưa thầy!
Em đang rất quan tâm đến đề tài này nhưng em không có điều kiện để đến lớp học. Thầy có thể cho em xin tài liệu của lớp học được không?
Em cảm ơn thầy nhiều!

Ngo Manh Tuong said...

Thưa thầy!
Em đang rất quan tâm đến đề tài này nhưng em không có điều kiện để đến lớp học. Thầy có thể cho em xin tài liệu của lớp học được không?
Em cảm ơn thầy nhiều!

T.Phuong said...

Xin chao thay Tuan, xin hoi la lop hoc trong TPHCM cua thay la o dau? va hinh thuc dang ky nhu the nao?

Tung Nguyen said...

Bao giờ thì lớp mở lại ở Hà Nội hả thầy?

dmkhoi HCMULAW said...

Kính chào thầy Tuấn,
Tôi là giảng viên chuyên ngành Luật.
Rất mong thầy sớm mở một lớp phương pháp nghiên cứu định lượng trong KHXH tại TPHCM.
Rất cảm ơn thầy!

Anonymous said...

Kính chào thầy Tuấn,
Tôi là giảng viên chuyên ngành Luật.
Rất mong thầy sớm mở một lớp phương pháp nghiên cứu định lượng trong KHXH tại TPHCM.
Rất cảm ơn thầy!