Phân tích thống kê là một phần không thể thiếu được trong các nghiên cứu y khoa, nhất là nghiên cứu lâm sàng và dịch tễ học. Thống kê đã được ứng dụng trong y học từ những năm trong thập niên 1930s, nhưng thật ra từ thế kỉ 19 người ta cũng đã nghĩ đến việc sử dụng các thuật phân tích thống kê trong thử nghiệm lâm sàng. Mặc dù đã trải qua hơn 1 thế kỉ ứng dụng, nhưng cho đến ngày nay vẫn còn rất nhiều sai sót về phân tích thống kê trong các công trình nghiên cứu y học. Một số sai sót không ảnh hưởng gì đến kết luận của nghiên cứu, nhưng nhiều sai sót mang tính hệ thống thì có khi làm cho công trình nghiên cứu có một ý nghĩa hoàn toàn khác với kết luận của tác giả.
Để khắc phục tình trạng sai sót về phân tích thống kê trong nghiên cứu y học, nhiều nhóm trên thế giới đã xuất bản những “phác đồ”, những hướng dẫn trong cách phân tích và trình bày kết quả phân tích dữ liệu. Đây là một nỗ lực trong thực hành y học thực chứng, bởi vì y học thực chứng dựa vào những công trình nghiên cứu có chất lượng và chứng cứ phải chính xác. Trong bối cảnh nghiên cứu y học ở Việt Nam, y học thực chứng vẫn còn trong giai đoạn đầu, và nhìn qua những bài báo khoa học rất dễ nhận ra nhiều sai sót về phân tích dữ liệu trong mỗi bài báo. Đó cũng là một trong những nguyên nhân dẫn đến chất lượng nghiên cứu y học ở Việt Nam không có phẩm chất cao. Chúng ta cần phải khắc phục tình trạng yếu kém này.
Phân tích thống kê có thể chia thành hai lĩnh vực chính: phân tích mô tả và phân tích suy luận. Phân tích mô tả quan tâm đến cách mô tả dữ liệu từ một mẫu hoặc từ một công trình nghiên cứu. Phân tích suy luận bao gồm các phương pháp phân tích cách ước tính, suy luận, kiểm định giả thuyết khoa học. Trong loạt bài này, tôi sẽ trình bày những sai sót phổ biến nhất về phân tích mô tả và phân tích suy luận trong các nghiên cứu y học trên thế giới và Việt Nam, với hi vọng rằng những sai sót này sẽ giảm đi trong tương lai, và chất lượng nghiên cứu khoa học sẽ được nâng cao.
Tôi sẽ lần lượt (hai ngày một lần) trình bày những sai sót này để chúng ta cùng tham khảo và bàn luận. Nếu bạn đọc phát hiện những thiếu sót gì mới, xin cung cấp thông tin cho chúng tôi để bình luận. Dĩ nhiên, theo qui ước y khoa, chúng tôi sẽ giữ kín thông tin các bạn cung cấp.
Sai sót 1: Không định nghĩa biến phân tích rõ ràng
Đặc tính của khoa học là cân, đo, đong, đếm. Nhà nghiên cứu cần phải nói cho người đọc (và công chúng) biết những biến lâm sàng mà họ đo lường là gì, và phải cung cấp định nghĩa của những biến đó sao cho người đọc có thể hiểu được. Chẳng hạn như khi nói đến mật độ xương (bone mineral density - BMD), nhà nghiên cứu phải định nghĩa BMD là gì, đo ở vị trí nào trong cơ thể, đơn vị đo lường là gì, và đo bằng phương pháp hay phương tiện gì. Hay như huyết áp, nhà nghiên cứu phải cung cấp định nghĩa ngưỡng giá trị nào là “cao huyết áp” và ngưỡng nào là “bình thường”. Tương tự, khi đề cập đến béo phì (obesity), nhà nghiên cứu phải định nghĩa thế nào là béo phì, và dùng chỉ số nào để định nghĩa. Chẳng hạn như BMI trên 27.5 (ở người Á châu) hay trên 30 (ở người Âu châu) được xem là béo phì.
Đối với các biến liên quan đến khái niệm hoặc hành vi (behavior) vấn đề định nghĩa có thể khó hơn vì khó đo lường. Chẳng hạn như trầm cảm được định nghĩa bằng thang điểm Zung Depression Inventory (ZDI) trên 50, nhưng biến số này phản ảnh trầm cảm chính xác độ nào thì là một vấn đề còn trong vòng tranh cãi. Trong một cuộc điều tra qui mô ở Mĩ, một cá nhân được xem là “đang hút thuốc lá” là người hút thuốc lá trong vòng 30 ngày trước khi tham gia cuộc điều tra. Mặc dù định nghĩa này không hiển nhiên như chúng ta mong muốn, nhưng đó là một định nghĩa mang tính “operational”, và nhà nghiên cứu phải phát biểu, cho dù chúng ta có thể không đồng ý với định nghĩa đó.
Sai sót 2: Không cung cấp độ đo lường cho từng biến số
Độ đo lường (level of measurement) là một thông tin quan trọng cho phân tích thống kê. Trong lí thuyết đo lường, người ta phân biệt ba loại biến số: định danh (nominal), định cấp độ (ordinal), và liên tục (continuous).
Ở mức độ thấp nhất là những dữ liệu mang tính định danh, tức những biến bao gồm hai hay hơn hai loại (nam hay nữ), hoặc tên (đạo Phật, đạo Công giáo), phân loại nhưng không có tính thứ tự cao thấp (như nghề nghiệp). Loại máu A, B, AB, hoặc O cũng được xem là dữ liệu định danh.
Các dữ liệu định cấp bao gồm thể loại có thứ tự cao thấp và có thể xếp hạng. chẳng hạn như một cá nhân có thể là thấp, trung bình, hay cao. Chúng ta có thể không biết chính xác chiều cao của bệnh nhân, nhưng chúng ta biết bệnh nhân đó thuộc nhóm cao, trung bình hay thấp.
Các biến liên tục có giá trị chính xác hơn các biến định cấp và định danh. Những biến số như chiều cao (đo bằng cm), cân nặng (kg), huyết áp (mmHg), mật độ xương (g/cm2), v.v. được xem là những dữ liệu liên tục. Dữ liệu liên tục là những dữ liệu có độ chính xác cao nhất trong 3 nhóm đo lường.
Nhà nghiên cứu cần phải nói rõ biến phân tích thuộc loại nào trong bài báo khoa học. Chẳng hạn như huyết áp của một bệnh nhân có thể chia thành hai nhóm (tăng hay không tăng), hoặc như là một biến phân cấp (hypotensive, normotensive, và hypertensive), hoặc như là một biến liên tục. Đây là vấn đề quan trọng, bởi vì đặc tính của biến số quyết định phương pháp phân tích. Do đó, nếu nhà nghiên cứu không định nghĩa và không mô tả biến phân tích rõ ràng, thì người đọc sẽ không lĩnh hội được kết quả nghiên cứu có ý nghĩa gì.
Sai sót 3: Phân chia biến liên tục thành nhiều nhóm mà không giải thích lí do
Thỉnh thoảng, để đơn giản hóa các phân tích thống kê, nhà nghiên cứu có thể chia các biến liên tục thành nhiều nhóm. Chẳng hạn như body mass index có thể chia thành 4 nhóm: béo phì, quá cân, bình thường, và thiếu cân. Nhưng cũng có nhiều trường hợp nhà nghiên cứu chia nhóm một cách tùy tiện, hoàn toàn không theo một qui ước lâm sàng nào cả, như chia độ tuổi thành nhiều nhóm theo 5 tuổi (0-4, 5-9, 10-14, v.v.), lại có khi chia thành nhóm theo 10 tuổi (0-9, 10-19, 20-29, v.v.). Phân chia một biến liên tục thành một biến không liên tục qua phân nhóm như vừa đề cập là một cách làm … phi khoa học. Như đề cập trên, biến liên tục là biến có giá trị chính xác cao nhất so với các biến định cấp và định danh. Một khi một biến liên tục bị cắt thành nhiều đoạn, thì điều đó cũng có nghĩa là làm giảm độ chính xác của biến số. Vì độ chính xác suy giảm, nên power của phân tích cũng giảm theo. Đã có rất nhiều nghiên cứu lí thuyết và thực hành cho thấy những phân nhóm như thế là phản khoa học, và có khi cho ra những kết quả rất khó diễn giải, nếu không muốn nói là sai.
Sai sót 4: Dùng trung bình và độ lệch chuẩn (SD) để mô tả một biến liên tục không tuân theo luật phân phối chuẩn
Không như các biến định danh và định cấp vốn có thể mô tả bằng tần số (frequency) hoặc tỉ lệ (proportion) cho mỗi nhóm, các biến số liên tục có thể mô tả bằng một biểu đồ phân phối. Đối với các biến tuân theo luật phân phối chuẩn (normal distribution), có hai thông số chính là số trung bình và độ lệch chuẩn. Theo định nghĩa của luật phân phối chuẩn, khoảng 67% các giá trị của nằm trong khoảng ±1 SD của số trung bình; khoảng 95% giá trị nằm trong khoảng ± 2 SD.
Tuy nhiên, nếu một biến không tuân theo luật phân phối chuẩn, thì số trung bình và độ lệch chuẩn sẽ không có ý nghĩa gì đáng kể. Đối với các biến không tuân theo luật phân phối chuẩn, các suy luận về 67% và 95% không còn đúng nữa. Trong trường hợp này, chúng ta nên dùng số trung vị (median) và số interquartile range để mô tả dữ liệu.
Phần lớn số liệu lâm sàng và sinh hóa không tuân theo luật phân phối chuẩn. Do đó, số trung vị và interquartile range nên được sử dụng thường xuyên hơn. Một cách tính nhẩm đáng tin cậy là nếu SD cao hơn phân nửa số trung bình (và số âm là số không khả dĩ về mặt sinh học) thì dữ liệu có lẽ không tuân theo luật phân phối chuẩn.
Sai sót 5: Dùng số trung bình và sai số chuẩn (standard error – SE) như là các chỉ số thống kê mô tả
Số trung bình và độ lệch chuẩn (SD) là những chỉ số thống kê mô tả một mẫu nghiên cứu (study sample) với điều kiện biến số tuân theo luật phân phối chuẩn. Sai số chuẩn (standard error hay SE) là một chỉ số đo lường độ chính xác (precision) của một đặc điểm quần thể (population). Xin nhắc lại, SD áp dụng một mẫu nghiên cứu, SE áp dụng cho đặc điểm của một quần thể. SD phản ảnh độ dao động hay khác biệt giữa các cá nhân trong một mẫu nghiên cứu, còn SE phản ảnh độ dao động về một chỉ số như số trung bình giữa các mẫu tưởng tượng (vâng! tưởng tượng).
SE có thể ước tính từ SD bằng cách lấy SD chia cho căn số bậc hai của số cỡ mẫu. Do đó, SE lúc nào cũng thấp hơn SD. Nhiều nhà nghiên cứu không hiểu ý nghĩa của SE nên dùng nó như là một đo lường thay cho SD, và làm cho biến số có độ dao động thấp hơn so với thực tế. Một số nhà nghiên cứu sai lầm vì không hiểu (tức sai lầm có thể thông cảm), nhưng có những nhà nghiên cứu cao bồi cố tình lừa gạt người đọc bằng cách dùng SE thay cho SD và không nói rõ. Nói chung, nên dùng SD (chứ không phải SE) để mô tả một biến số.
Sai sót 6: Chỉ báo cáo kết quả qua trị số P
Một bài báo y khoa viết như sau: “The effect of the drug on lowering diastolic blood pressure was statistically significant(P<0.05).” Ở đây, trị số P có thể là 0.049; tức có ý nghĩa thống kê (vì thấp hơn 0.05), nhưng rất gần với 0.05 mà có thể diễn giải như là môt trị số P bằng [chẳng hạn như] 0.051, tức không có ý nghĩa thống kê! Ngoài ra, , chúng ta không biết ảnh hưởng của thuốc trong việc hạ huyết áp là bao nhiêu, tức là chúng ta không biết ảnh hưởng của thuốc có ý nghĩa lâm sàng hay không.
Một nghiên cứu khác viết “The mean diastolic blood pressure of the treatment group dropped from 110 to 92 mm Hg(P=0.02).” Cách trình bày này tốt hơn cách trình bày trên, nhưng vẫn chưa đầy đủ. Giá trị trước và sau điều trị được báo cáo rõ ràng, nhưng không nói đến độ khác biệt. Thật ra, thuốc giảm huyết áp 18 mm Hg, và có ý nghĩa thống kê (P = 0.02), nhưng tác giả không cho chúng ta biết khoảng tin cậy 95% của độ khác biệt trước và sau điều trị.
Một cách viết tốt hơn nữa là “The drug lowered diastolic blood pressure by a mean of 18 mm Hg, from 110 to 92 mm Hg(95% CI = 2 to 34 mm Hg; P=0.02).” Ở đây, tác giả cho chúng ta biết ba thông tin quan trọng: huyết áp trước và sau điều trị; mức độ ảnh hưởng và khoảng tin cậy 95%; và trị số P. Khoảng tin cậy 95% có thể diễn giải nôm na rằng nếu thuốc được thử nghiệm trên 100 mẫu tương tự như nghiên cứu đang báo cáo, thì tính trung bình huyết áp giảm từ 2 đến 34 mm Hg trong 95 mẫu. Chúng ta biết rằng một giảm huyết áp A chỉ 2 mm Hg chẳng có ý nghĩa lâm sàng, nhưng giảm đến 34 mm Hg thì quả có ý nghĩa lâm sàng. Do đó, mặc dù huyết áp giảm trung bình là có ý nghĩa thống kê, mức độ khác biết có thể không phải lúc nào cũng có ý nghĩa lâm sàng; nói cách khác, kết quả nghiên cứu gần như khó kết luận. Để có kết luận dứt khoát, có lẽ chúng ta cần thêm bệnh nhân sao cho tất cả khoảng tin cậy 95% đều có ý nghĩa lâm sàng.
Sai sót 7: Không kiểm định giả thiết trong phân tích
Bất cứ mô hình phân tích thống kê nào cũng đựa vào một số giả định (assumptions). Chẳng hạn như kiểm định t (t test) giả định rằng biến số phải tuân theo luật phân phối chuẩn, phương sai của hai nhóm so sánh phải tương đương nhau, các giá trị trong biến số phải độc lập với nhau, v.v. Tương tự, trong mô hình hồi qui tuyến tính, ngoài những giả định như kiểm định t, còn có giả định mối liên hệ giữa hai biến phụ thuộc và độc lập phải tuân theo hàm số tuyến tính. Trong phân tích sống sót (survival analysis), giả định proportionality cũng rất quan trọng, và nếu giả định này không đúng thì kết quả cũng có thể sai. Nếu biến số không đáp ứng các giả thiết này, thì kết quả phân tích có khi không hợp lí, thậm chí sai. Vì thế, việc kiểm định giả thiết trong phân tích rất quan trọng.
Một cách viết về giả định đã được kiểm tra có thể “The proportionality assumption was tested by evaluating the log minus log plot”, hoặc nếu dùng phương pháp khác thì “We tested the proportionality assumption by examining the odds of becoming pregnant in each discrete month when no contraception was used. Although the magnitude of the association was slightly less in the first month of follow-up compared with later months, we found that higher PBDE concentration was associated with decreased fecundability in every month.” (K Harley et al, Environ Health Perspect. 2010 August; 118(8): A330–A331).
Sai sót 8: Diển giải kết quả không có ý nghĩa thống kê như là một nghiên cứu negative.
Giả sử một nhà nghiên cứu so sánh huyết áp giữa hai nhóm, và kết quả không có ý nghĩa thống kê (statistically insignificant, P > 0.05). Nhà nghiên cứu phải quyết định sự không khác biệt đó có nghĩa là hai nhóm giống nhau (tương đương nhau), hay số liệu chưa đầy đủ để đi đến một kết luận chắc chắn hơn. Cần nói rằng một kết quả không có ý nghĩa thống kê không có nghĩa là hai nhóm giống nhau, mà chỉ có nghĩa là không thể bác bỏ giả thuyết vô hiệu. Giả thuyết vô hiệu (null hypothesis) là giả thuyết hai nhóm bằng nhau.
Nhiều nghiên cứu báo cáo kết quả không có ý nghĩa thống kê thường có power thấp, và do đó, không thể cung cấp câu trả lời dứt khoát. Nhà nghiên cứu có thể không “chứng minh” hai nhóm khác nhau, nhưng nhà nghiên cứu cũng không thể bác bỏ giả thuyết rằng hai nhóm có thể khác nhau. Người ta có câu Absence of proof is not proof of absence hay Absence of evidence is not evidence of absence (không có bằng chứng không có nghĩa là bằng chứng không có). Những nghiên cứu có power đầy đủ, một kết quả không có ý nghĩa thống kê có thể xem là một kết quả âm tính – negative (tức hai nhóm thật sự không khác nhau)
Không có nhận xét nào:
Đăng nhận xét