Monday, November 7, 2016

Một phân tích đánh giá có vấn đề


Một đồng nghiệp ở Hà Nội hỏi tôi về một cách đánh giá hiệu quả can thiệp trong cộng đồng mà anh ấy cảm thấy hình như có vấn đề, dù anh ấy không giải thích được tại sao. Chỉ là trực giác. Tôi tìm hiểu qua thì quả thật trực giác của anh bạn tôi là đúng. Trong cái note này tôi sẽ giải thích tại sao cách đánh giá này sai và có thể gây tác động đến nhiều chính sách ở qui mô lớn.


Để hiểu vấn đề, tôi xin nói qua loại nghiên cứu đánh giá hiệu quả can thiệp trong cộng đồng. Hãy tưởng tượng một nghiên cứu có mục tiêu chính là đánh giá hiệu quả của truyền thông về sức khỏe đến một bệnh tiểu đường. Giả thuyết là sau khi can thiệp bằng truyền thông tỉ lệ bệnh tiểu đường sẽ giảm (chưa nói đến giả thuyết này "xa xỉ" như thế nào, hãy chấp nhận cái đã). Nhà nghiên cứu thiết kế một nghiên cứu can thiệp như sau:

·       Chọn ra một cộng đồng A (xã/phường) để can thiệp bằng truyền thông;
·       Chọn ra một cộng đồng B nhưng không can thiệp.

(a) Để đánh giá hiệu quả can thiệp, nhà nghiên cứu sẽ lấy mẫu (ví dụ như) 200 ngườu trong cộng đồng A có 3000 người, và 200 người trong cộng đồng B có 2800 người. Trước khi can thiệp, họ làm xét nghiệm trên 200 người mỗi nơi và phát hiện (ví dụ như) cộng đồng A có 5% (10) người bị tiểu đường, cộng đồng B có 6% (12) người bị tiểu đường.

(b) Sau đó, họ phát động phong trào truyền thông ở cộng đồng A. Sau một năm truyền thông, họ lại lấy mẫu 200 người trong cộng đồng A, và 200 người trong cộng đồng B. (Chú ý là 400 người mới này có thể không phải là 400 người trong đợt trước). Giả dụ rằng kết quả cho thấy trong cộng đồng A, lần này có 3% (6) người bị tiểu đường, cộng đồng B có 5% (10) người bị tiểu đường.

Có thể tóm tắt kết quả trên trong bảng dưới đây như sau:


Cộng đồng A
(can thiệp)
Cộng đồng B
(không can thiệp)
Trước can thiệp (baseline)
10/200 (5%)
12/200 (6%)
Sau can thiệp (follow-up)
6/200 (3%)
10/200 (5%)



Cách phân tích hiện nay


Tính chỉ số hiệu quả (CSHQ)
CSHQ1 = (5-3)/5 = 0.40 
CSHQ2 = (6-5)/6 = 0.17
Tính hiệu quả can thiệp (HQCT)

HQCT = 0.40 – 0.17 = 0.23


Để dễ bàn luận, chúng ta có thể thể hiện bằng kí hiệu: 


Cộng đồng A (can thiệp)
Cộng đồng B (không can thiệp)
Trước can thiệp (baseline)


Cỡ mẫu
n1
n2
Số ca bệnh
x1
x2
Tỉ lệ mắc bệnh
p1
p2
Sau can thiệp (follow-up)


Cỡ mẫu
m1
m2
Số ca bệnh
y1
y2
Tỉ lệ mắc bệnh
q1
q2
Chú ý: p1 = x1/n1, p2 = x2/n2; q1 = y1/m1; và q2 = y2/m2.


Cách phân tích phổ biến

Câu hỏi đặt ra là với kết quả trong (a) và (b) trên, nhà nghiên cứu đánh giá hiệu quả can thiệp như thế nào? Cách thức mà nhiều nhà nghiên cứu ở Việt Nam làm như sau:

(a) tính chỉ số hiệu quả (CSHQ) cho cộng đồng A: lấy 5% trừ cho 3%, chia kết quả cho 5%. Nói cách khác CSHQ1 = (0.05 - 0.03) / 0.05 = 0.40.

(b) tính CHSQ2 cho cộng đồng B: lấy 6% trừ cho 5%, chia kết quả cho 6%. Nói cách khác CHSQ2 = (0.06 - 0.05) / 0.06 = 0.17.

(c) tính hiệu quả can thiệp: HQCT = CSHQ1 - CSHQ2 = 0.40 - 0.17 = 0.23. Và, họ diễn giải rằng hiệu quả can thiệp là 23%.

Con số 23% có thể diễn giải là can thiệp bằng truyền thông giảm 23% ca tiểu đường? Nhưng có tình huống HQCT lại là số âm và tác giả sử dụng dấu giá trị tuyệt đối HQCT= |CSHQ1-CSHQ2| để xử lí vấn đề này. Làm như vậy có thể biến nghiên cứu phương pháp can thiệp không có hiệu quả (thậm chỉ có hại với kết quả âm) thành có hiệu quả (với kết quả dương)! 

Lại có tình huống HQCT là số rất lớn đến 1600%, vì tỉ lệ trước can thiệp nhỏ (ví dụ 5%, tỉ lệ sau can thiệp lớn (ví dụ 85%) thì CHSQ= |5%-85%|/5%. Giải thích thế nào với con số hiệu quả 1600%?

Hoá ra, cách tính này rất phổ biến và đã được sử dụng trong nhiều luận án tiến sĩ và nhiều bài báo. Chỉ cần Google cụm từ "chỉ số hiệu quả, hiệu quả can thiệp" là có thể tìm thấy nhiều luận án và bài báo sử dụng cách tính trên. Trong các luận án tiến sĩ này, các nghiên cứu sinh đều tính như thế, và kết luận dựa trên kết quả tính toán đó. Hỏi phương pháp này xuất phát từ đâu thì không ai trả lời được, nhưng tất cả đều thấy ok, và ... thông qua hết.

Sai lầm trong phân tích 

Nhưng cách phân tích trên đây sai.  Có hai sai lầm, một hiển nhiên và một không hiển nhiên. Sai lầm thứ nhất là chỉ số CSHQ1 và CSHQ2 bản chất của chúng là tỉ số (giống như relative risk reduction hay RRR trong nghiên cứu lâm sàng). Lấy hiệu số của hai RRR thì đâu có ý nghĩa gì, nhất là cái RRR của nhóm chứng là một chỉ số phản ảnh mức độ bias.  Đây là một sai lầm hiển nhiên.

Nhưng sai lầm thứ hai mang tính thống kê học và khó phát hiện hơn. Trong thống kê học, một chỉ số có ý nghĩa nếu chỉ số đó có những "properties", có thể hiểu như là tiêu chuẩn. Bốn tiêu chuẩn quan trọng nhất là: unbiased (nếu ước số bằng tham số trong quần thể); efficient (có nghĩa là ước số đó có phương sai thấp nhất); sufficient (ước số sử dụng tất cả thông tin trong mẫu); và meaningful, tức là phải có ý nghĩa thực tế.

Chỉ số HQCT không đạt cả 4 tiêu chuẩn unbiased, efficient, sufficient, và meaningful. Thứ nhất, bởi vì CSHQ được tính từ hiệu số của 2 tỉ số, mà phân bố của tỉ số thì lúc nào cũng lệch, nên giá trị trung bình của ước số cũng lệch với tham số quần thể (population parameter). Cũng giống như trường hợp tỉ số odds (odds ratio) hay tỉ số nguy cơ (risk ratio, RR) có phân bố lệch, chứ không chuẩn như nhiều người nghĩ. Tuy nhiên, log của tỉ số odds hay log của RR thì cân đối. Thứ hai, bởi vì CSHQ là tỉ số, và phương sai của tỉ số không phải dễ tính vì phải dùng đến Taylor series, và HQCT lại càng có vấn đề về phương sai. Nói trắng ra là phương sai của HQCT không thể xác định được. Thứ ba, vì CSHQ bản chất là tỉ lệ, nên không sử dụng tất cả thông tin của mẫu. Con số 5% có thể là 5 trên 100, nhưng cũng có thể 50 trên 1000, và chỉ dùng 5% là một sai lầm căn bản về thống kê học vì nó bỏ qua số cỡ mẫu và số biến cố.  Thứ tư là HQCT không có ý nghĩa gì cả, vì như nói trên nó là khác biệt giữa hai chỉ số RRR, và không thể kết luận rằng hiệu quả can thiệp có ý nghĩa thống kê hay không. Do đó, chỉ số HQCT là một sai lầm căn bản về thống kê học.

Cách phân tích thích hợp 

Thật ra, cách thiết kế nghiên cứu như mô tả trên là không tối ưu. Không tối ưu vì đối tượng được chọn đánh giá (sau can thiệp) không phải là những người đã được chọn lúc ban đầu (trước can thiệp). Do đó, kết quả của một nghiên cứu như thế không thể nào kết luận gì về hiệu quả can thiệp cả.

Nhưng hãy giả dụ rằng chúng ta phải "đương đầu" với nghiên cứu trên, thì cách để "cứu" kết quả là sao? Trước hết, cần phải ý thức rằng khác biệt trước và sau "can thiệp" trong nhóm chứng (thật ra là không có can thiệp), tức d2 trong bảng dưới đây, là một chỉ số đo lường về bias. Còn d1= q1 -p1 chính là hiệu quả quan sát. Do đó, hiệu quả can thiệp sau khi đã điều chỉnh cho bias là:

Q = d1 - d2


Cộng đồng A (can thiệp)
Cộng đồng B (không can thiệp)
Trước can thiệp (baseline)


Cỡ mẫu
n1
n2
Số ca bệnh
x1
x2
Tỉ lệ mắc bệnh
p1
p2
Sau can thiệp (follow-up)


Cỡ mẫu
m1
m2
Số ca bệnh
y1
y2
Tỉ lệ mắc bệnh
q1
q2
Phân tích


Hiệu số trước và sau can thiệp
d1 = q1 - p1
d2 = q2 - p2
Hiệu quả
Q = d1- d2
Phương sai của Q
var(Q)
Chú ý: p1 = x1/n1, p2 = x2/n2; q1 = y1/m1; và q2 = y2/m2.

Để biết Q có khác 0 hay không (nếu Q = 0 có nghĩa là can thiệp không có hiệu quả), chúng ta phải tính phương sai của Q. Phương sai của Q hơi phức tạp một chút, vì nó phải được tính từ n1, x1, m1, y1, n2, x2, m2, và y2. Sau khi tính phương sai của Q, chúng ta có thể tính sai số chuẩn (standard error) của Q, và kiểm định giả thuyết chỉ đơn giản là tỉ số của Q trên sai số chuẩn, và tỉ số này tuân theo (xấp xỉ) luật phân bố chuẩn. Đó là cách đơn giản nhất để đánh giá hiệu quả của một can thiệp cộng đồng.

Trong trường hợp cộng đồng B nhận được một can thiệp khác thay vì không can thiệp, thì cách phân tích sẽ là so sánh hai can thiệp. Cách tính và lí giải kết quả cũng tương tự trên.

Ngoài ra, còn có vài phương pháp khác nữa, chẳng hạn như:

Phương pháp 2: chúng ta đặt câu hỏi "Tôi phải can thiệp bao nhiêu người để giảm một ca bệnh"? Trả lời câu hỏi này đòi hỏi phải tính chỉ số impact (giống như chỉ số NNT trong nghiên cứu lâm sàng). Nhưng chỉ số này rất khó tính khoảng tin cậy 95% vì phải dùng kĩ thuật bootstrap.

Phương pháp 3: tính tỉ số (thay vì tính hiệu số Q). Nhưng cách phân tích này phức tạp hơn một chút, và dành cho những bạn nào có chút tưởng tượng và am hiểu lí thuyết thống kê học. :-)

Phương pháp 4: dùng area under the curve (AUC) làm chỉ số đo lường hiệu quả can thiệp. Đây là một phát kiến mới đòi hỏi phải có chút kinh nghiệm thực tế mới diễn giải được. Tính AUC cho cộng đồng A và cộng đồng B, sau đó tính phương sai cho mỗi AUC, và sau cùng là so sánh hai giá trị AUC. 

Nói tóm lại, cách phân tích hiệu quả can thiệp cộng đồng hiện nay mà nhiều đồng nghiệp đã làm ở Việt Nam là có vấn đề. Nói trắng ra là sai. Phân tích sai dẫn đến kết luận sai. Kết luận sai dẫn đến nhiều hệ quả, từ luận án tốt nghiệp đến chính sách. Có lẽ đã đến lúc phải bỏ cách tính phi phương pháp, và áp dụng phương pháp chuẩn. Còn những luận án cũ có sai sót thì xem như là một bài học về khoa học. 


1 comment:

Rocky said...

Bài này hay. Thật sự hữu ích, sẽ áp dụng trong lĩnh vực của mình xem kết qua thế nào. Cám ơn anh Tuấn.