Sunday, October 19, 2014

Bài giảng 37: Đánh giá tầm quan trọng của biến tiên lượng

Tiếp tục loạt bài mô hình hồi qui tuyến tính đa biến, bài này sẽ hướng dẫn cách đánh giá tầm quan trọng của biến tiên lượng. Trong các mô hình phân tích dạng hồi qui tuyến tính, một câu hỏi rất quan trọng là làm sao đánh giá được tầm quan trọng của biến tiên lượng (X) trên biến phụ thuộc . Chẳng hạn như biết được yếu tố nào quan trọng giúp nhà khoa học tập trung can thiệp vào yếu tố đó để có kết quả tối ưu. Tuy câu hỏi rất quan trọng như thế, nhưng sách giáo khoa hoàn toàn không đề cập đến vấn đề này, đơn giản vì cho đến nay, phương pháp tính toán khá phức tạp. Trong bài giảng này, tôi sẽ giới thiệu một phương pháp khả dĩ (dùng kĩ thuật bootstrap chỉ có trong R) để giải quyết câu hỏi đánh giá tầm quan trọng của biến tiên lượng. Tôi đã áp dụng phương pháp này cho một bài báo mới đây về hormone và thấy rất có ích. Tôi hi vọng các bạn cũng sẽ thích thú với cách đặt câu hỏi và giải pháp. 

Địa chỉ bài giảng: https://www.youtube.com/watch?v=HsU3cDpQJko&list=UU21dOPe-YHO3Gw6BRbyeotQ

Một bạn đọc Nguyễn Thanh Tùng ghi thêm và có một ý hay liên quan đến vấn đề này:

Cảm ơn GS, bài giảng hay và tôi biết thêm được phương pháp Lmg để tính độ quan trọng của các biến tiên lượng trong mô hình hồi quy. Tôi sẽ thử với bài toán đang làm, trong bài giảng tôi thấy Lmg hình như chỉ đánh giá từng biến, GS cho hỏi là cách làm này có đánh giá được tầm quan trọng của các nhóm biến không? Có đánh giá được các biến có quan hệ XOR với nhau được ko? Có làm việc được với số chiều cao không?

Tôi cũng đã gặp bài toán này và xin trao đổi cách làm như sau: Tôi dùng phương pháp dựa theo kinh nghiệm (Heuristic), hình dung ta có 1 nhóm người A, B, C, D.. cùng khênh 1 vật nặng. Xét lần lượt từng người trong nhóm, giả sử xét anh A, ta thay thế A bởi 1 người A' rất yếu và quan sát hiện tượng. Nếu mọi việc vẫn bình thường thì chứng tỏ anh A ko quan trọng, ngược lại thì anh A có tầm ảnh hưởng đến kết quả cuối cùng. Bài báo của nhóm làm về hồi quy dùng random forests được đăng ở link dưới , GS hoặc anh chị em nào quan tâm xin cùng trao đổi http://link.springer.com/article/10.1007/s10994-014-5452-1

1 comment:

Đức Trí Nguyễn said...

Thầy kính mến! Kính bạch thầy, con không biết bằng cách nào để có thể liên lạc để bày tỏ lòng tri ân của con đối với thầy, người mà con chỉ biết và học hỏi về nghị lực và kiến thức của thầy qua internet. Nay con mượn blog này để gửi lời cám ơn đến thầy về sự nhiệt tình, hết mình trong nghiên cứu và giảng dạy. Con làm việc và nghiên cứu chẳng dính dáng gì tới ngành y, con làm bên Quy hoạch sử dụng đất nhưng các nghiên cứu trong luận văn cao học của con bây giờ cần sử dụng đến Thống kê cụ thể là Hồi quy Logistic và đánh giá bằng đường cong ROC và các vấn đề khác. Học chuỗi bài giảng mà thầy upload con thấy sáng hơn rất nhiều vấn đề. Con sử dụng Logistic và ROC khi nghiên cứu sâu về Geostatistics - spatial statistics với dữ liệu đầu vào là các biến tiên lượng được trích ảnh vệ tinh như các bản đồ nhân tố (tự nhiên: thổ nhưỡng; nhiệt độ; địa hình; độ dốc...., kinh tế, xã hội) phục vụ cho đánh giá thích nghi cho các loại hình sử dụng đất như Lúa, cà phê... Mới nghe qua nó chẳng ăn nhập gì với mấy vd xét nghiệm y khoa của thầy cả, nhưng qua bài giảng của thầy, con lại có thể áp dụng vào ngành của con. Con áp dụng cùng một lý thuyết, một phương pháp nhưng đối tượng áp dụng lại khác.Mong thầy tiếp tục giảng vì sẽ có những thằng ngoại đạo như con sẽ lắng nghe và áp dụng thiết thực trong các nghiên cứu bên ngoài y khoa. Nếu có duyên lành khi thầy về Sài Gòn, con sẽ tìm đến để mong gặp thầy ở ngoài đời thự ạ. Mến chúc thầy mau hồi phục sức khỏe. :)Nếu con có vấn đề thực sự thắc mắc, con có thể gửi mail nhờ thầy vấn đáp qua địa chỉ mail nào ạ, địa chỉ mail của con là: ndtri88@gmail.com