Thứ Năm, 23 tháng 6, 2011

Ước tính tỉ lệ HBV và HCV trong điều kiện bất định

Đọc bản tin dưới đây làm tôi giật mình. Không ngờ số người bị nhiễm viêm gan siêu vi B và C cao như thế.  Bài báo không cho biết nguồn gốc con số này xuất phát từ đâu. Nhưng con số này đặt ra một vấn đề cho thống kê học. Làm sao ước tính prevalence (tỉ lệ hiện hành) khi phương pháp xét nghiệm không hoàn hảo? Bài viết ngắn này sẽ bàn câu hỏi này.
Bản tin có một thông tin dễ gây sốc. Đó là câu “Ở Việt Nam, hiện có hơn 20% dân số nhiễm viêm gan siêu vi B&C, tức khoảng 18 triệu người, trong đó viêm gan siêu vi B chiếm 1/6 dân số.”  Dĩ nhiên là không có ai đi xét nghiệm 87 triệu người Việt Nam để biết bao nhiêu người nhiễm viêm gan siêu vi B &C.  Người ta chỉ xét nghiệm trên một quần thể được chọn hi vọng là ngẫu nhiên để ước tính mà thôi.  Tôi tìm trong y văn thì thấy một bài báo công bố vào năm 2003 (1) ước tính tỉ lệ hiện hành nhiễm viêm gan siêu vi B (tôi sẽ viết tắt là HBV) ở hai huyện thuộc tỉnh Thanh Hóa vào năm 1998.  Họ xét nghiệm 1579 đối tượng (nam và nữ), và tỉ lệ nhiễm HBV như sau:
Tỉ lệ nhiễm viêm gan siêu vi B ở hai huyện thuộc tỉnh Thanh Hóa (1998)
Nhóm tuổi
N
Đang bị nhiễm (%)
Đã và đang bị nhiễm (%)
Trẻ em (9–18 tháng tuổi)
536
12.5
19.6
Trẻ em (4-6 tuổi)
228
18.4
36.4
Thiếu niên (14-16 tuổi)
219
20.5
55.3
Người lớn (25-40 tuổi)
596
18.8
79.2
Tổng số
1579
16.8
49.5

Như vậy, nếu hai huyện này mang tính đại diện cho cả nước, và dựa vào kết quả này, thì chỉ riêng HBV tỉ lệ hiện hành cũng đã xấp xỉ 17%.  Nếu tính cả những người đã bị thì tỉ lệ cũng gần 50%.  Một con số quá cao!
Ước tính tỉ lệ hiện hành có khi rất đơn giản.  Phương pháp đơn giản nhất là tiến hành một cuộc survey hay nghiên cứu một thời điểm (cross-sectional study), đối tượng được chọn ngẫu nhiên trong cộng đồng quan tâm.  Sau đó làm xét nghiệm, và kết quả sẽ có một số người có kết quả dương tính và số còn lại có kết quả âm tính.  Gọi số cỡ mẫu trong quần thể là N và số người có kết quả dương tính là A, tỉ lệ hiện hành (prevalence, kí hiệu t) được ước tính đơn giản qua công thức:
t = A / N
Độ lệch chuẩn có thể tính như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»s«/mi»«mo»=«/mo»«msqrt»«mrow»«mi»t«/mi»«mfenced»«mrow»«mn»1«/mn»«mo»-«/mo»«mi»t«/mi»«/mrow»«/mfenced»«mo»/«/mo»«mi»N«/mi»«/mrow»«/msqrt»«/math» 
Và khoảng tin cậy 95% là t ± 1.96s.
Trong ví dụ trên, với N = 1579 và A = 265, chúng ta có thể ước tính tỉ lệ hiện hành là
t = 265 / 1579 = 0.168
Độ lệch chuẩn
s = 0.009
Và khoảng tin cậy 95% dao động từ 0.149 đến 0.186.
Nhưng cách tính trên không thỏa đáng.  Cách tính trên chỉ đúng khi nào phương pháp xét nghiệm HBV hoàn hảo, tức chính xác 100%, không có sai sót.  Nhưng trong thực tế, chúng ta biết rằng phương pháp xét nghiệm HBV không hoàn hảo.  Theo y văn, độ nhạy (sensitivity) của phương pháp xét nghiệm PCR là 99% và độ đặc hiệu (specificity) là 97%.  Do đó, tỉ lệ dương tính giả là 3% (tức không bị HBV nhưng có kết quả dương tính), và âm tính giả là 1% (bị HBV nhưng có kết quả âm tính).
Câu hỏi đặt ra là làm sao ước tính tỉ lệ hiện hành điều chỉnh cho sens và spec?  Một phương pháp phổ biến thường hay dùng trong dịch tễ học là dựa vào công thức Bayes.  Gọi p là ước số của tỉ lệ hiện hành «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#960;«/mi»«/math» (chúng ta không biết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#960;«/mi»«/math»), có thể tính toán như sau:
= (t + spec – 1) / (sens + spec – 1)                [1]

Áp dụng cho số liệu trên chúng ta có: 
p = (0.168 + 0.97 – 1) / (0.99 + 0.97 – 1) = 0.143

Chúng ta cũng có thể ước tính khoảng tin cậy 95% cho p bằng cách thay thế khoảng tin cậy 95% của trong công thức [1]: 
p = (0.149 + 0.97 – 1) / (0.99 + 0.97 – 1) = 0.124
đến
p = (0.186 + 0.97 – 1) / (0.99 + 0.97 – 1) = 0.163
Như vậy, nếu độ nhạy là 99% và độ đặc hiệu là 97%, chúng ta có tỉ lệ hiện hành là 14.3% (chứ không phải 16.8%) và khoảng tin cậy 95% của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#960;«/mi»«/math» là từ 12.4% đến 16.3%.
Vấn đề không dừng ở đó.  Giả dụ như nếu chúng ta có số cỡ mẫu thấp hơn (như N = 250) và chỉ có 6 kết quả dương tính, thì t = 0.024, và = -0.0062!  Một kết quả vô lí và phi thực tế.  Điều này cho chúng ta biết phương pháp ước tính đơn giản trên đây là thất bại.
Phương tính [1] chỉ “hiệu quả” khi tần số mắc bệnh khá cao và khi cỡ mẫu tương đối lớn.  Khi cỡ mẫu nhỏ và tần số mắc bệnh thấp, phương pháp đó thất bại.  Lần sau tôi sẽ chỉ ra một phương pháp ước tính chính xác hơn, nhưng cần đến Bayes.
Quay trở lại vấn đề: có bao nhiêu người Việt nhiễm HBV và HCV?  Chúng ta không có nhiều số liệu cộng đồng về HCV, nhưng số liệu HBV như trình bày trên cho thấy có lẽ tỉ lệ nhiễm HBV theo độ tuổi là:
Tỉ lệ nhiễm HBV ở hai huyện thuộc tỉnh Thanh Hóa (1998)
Nhóm tuổi
N
Đang bị nhiễm (%)
Tỉ lệ sau khi điều chỉnh (%)
Dân số Việt Nam 2010 (triệu)
Ước tính số người nhiễm HBV (ngàn)
Trẻ em (9–18 tháng tuổi)
536
12.5
9.9
8.526
997.6
Trẻ em (4-6 tuổi)
228
18.4
16.0
Thiếu niên (14-16 tuổi)
219
20.5
18.2
4.954
901.6
Người lớn (25-40 tuổi)
596
18.8
16.4
23.818
3906.2
Tổng số
1579
16.8
14.4
37.299
5805.4

Kết quả tính toán trên cho thấy với bằng chứng trong y văn, có thể nói số người bị nhiễm HBV là 5.8 triệu người.  Nhưng hãy cho rằng tỉ lệ nhiễm toàn dân số là 14.4%, thì với dân số 87.8 triệu hiện nay, số người nhiễm HBV là 12.6 triệu người.
Còn HCV?  Chúng ta biết rằng tỉ lệ nhiễm HCV thường thấp hơn HBV.  Theo y văn [2-3], thì tỉ lệ nhiễm HCV ở Việt Nam khoảng 1 đến 2%.  Với dân số 87.8 triệu, số người nhiễm HCV có thể là tối đa là 1.7 triệu người.
Như vậy tổng số nhiễm HBV và HCV là 12.6 + 1.7 = 14.3 triệu.  Dĩ nhiên, đây là con số cao hơn thực tế, vì HBV và HCV không độc lập nhau (tức có người bị nhiễm cả hai HBV và HCV). Khó có thể là 18 triệu như tựa đề bài báo tuyên bố.  Tuy nhiên, dù là 14 triệu thì HBV và HCV quả là một vấn đề y tế công cộng rất lớn ở nước ta.

chúng ta đã thấy việc ước tính tỉ lệ hiện hành gặp khó khăn khi phương pháp xét nghiệm không hoàn hảo và khi cỡ mẫu thấp hoặc tần số mắc bệnh thấp.  Trong điều kiện số cỡ mẫu thấp hoặc tần số mắc bệnh thấp, chúng ta có thể sử dụng phương pháp Bayes để ước tính tỉ lệ hiện hành.
Bài này không có ý định giải thích cặn kẽ phương pháp Bayes.  (Tháng 12 năm nay, chúng ta sẽ có một khóa học về thống kê theo trường phái Bayes ở ĐHBK).  Với phương pháp Bayes, chúng ta cần cung cấp thông tin tiền định (prior information) cho thông số chúng ta muốn ước tính.  Thông số trong trường hợp này là tỉ lệ hiện hành «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#960;«/mi»«/math», và sau đó sẽ dùng mô phỏng (simulation) để ước tính «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#960;«/mi»«/math».
Vì chúng ta không biết tỉ lệ hiện hành chính xác là bao nhiêu, nên trong trường hợp này có thể mô tả tình trạng bất định về kiến thức của chúng ta với p bằng luật phân bố Beta.  Luật phân phối Beta có 2 thông số alpha và beta (sẽ viết tắt là a vàb).  Trong điều kiện bất định, a = b = 1.  Nói cách khác,
p ~ Beta(1, 1)
Với độ nhạy sens và độ đặc hiệu spec, chúng ta có thể ước tính giá trị tiên lượng dương tính (positive predictive value –PPV):

«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»P«/mi»«mi»P«/mi»«mi»V«/mi»«mo»=«/mo»«mfrac»«mrow»«mi»§#960;«/mi»«mo»§#215;«/mo»«mi»s«/mi»«mi»e«/mi»«mi»n«/mi»«mi»s«/mi»«/mrow»«mrow»«mo»(«/mo»«mi»§#960;«/mi»«mo»§#215;«/mo»«mi»s«/mi»«mi»e«/mi»«mi»n«/mi»«mi»s«/mi»«mo»)«/mo»«mo»+«/mo»«mo»(«/mo»«mn»1«/mn»«mo»-«/mo»«mi»§#960;«/mi»«mo»)«/mo»«mo»§#215;«/mo»«mo»(«/mo»«mn»1«/mn»«mo»-«/mo»«mi»s«/mi»«mi»p«/mi»«mi»e«/mi»«mi»c«/mi»«mo»)«/mo»«/mrow»«/mfrac»«/math»
Trong số đối tượng có kết quả dương tính, chúng ta kì vọng sẽ có X = A×PPV thật sự nhiễm HBV.  Do đó, chúng ta sẽ sử dụng luật phân phối nhị phân để mô phỏng X.  Tương tự, chúng ta mô phỏng Y = N – A kết quả âm tính nhưng mắc bệnh (âm tính giả).  Tính chung, chúng ta có X + Y đối tượng (trong số N) nhiễm HBV. 
A ~ Binom(APPV)
B ~ Binom(B, 1–PPV)

Chúng ta sẽ sử dụng phương pháp Gibbs sampler để mô phỏng.  Mã R sau đây sẽ mô phỏng theo mô hình trên:

# set.seed(123647)
m=50000       # iterations
PI=numeric(m) # vector for results
PI[1]=0.5     # initial value
alpha=1; beta=1 # Beta paramater
sens=0.99; spec=0.97 # sens and spec
N=1579; A=265; B=N-A # actual data

for (i in 2:m)
{
num.x = PI[i-1]*sens;
den.x = num.x+(1-PI[i-1])*(1-spec)
X = rbinom(1, A, num.x/den.x)
num.y = PI[i-1]*(1-sens)
den.y = num.y+(1-PI[i-1])*spec
Y = rbinom(1, B, num.y/den.y)
PI[i] = rbeta(1, X + Y + alpha, n-X-Y+beta)
}
aft.brn = seq(m/2+1, m)
mean(PI[aft.brn])
quantile(PI[aft.brn], c(0.025, 0.975))
par(mfrow=c(2,1))
plot(aft.brn, PI[aft.brn],)
hist(PI[aft.brn], prob=T)
par(mfrow=c(1,1))


Chú ý trong mã trên, chúng ta có N = 1579 và A = 265.  Sau khi chạy chương trình, chúng ta có kết quả ước số cho tỉ lệ hiện hành p là 0.144, với khoảng tin cậy 95% dao động từ 12.5% đến 16.4%. 
Biểu đồ (không trình bày ở đây) cho thấy quá trình mô phỏng đồng qui (converged), và kết quả trên có thể chấp nhận như là một đáp số đáng tin cậy.
Nếu thay thế N = 250 và A = 6, tỉ lệ hiện hành là 0.07% và khoảng tin cậy 95% là 0.002% đến 0.263% (chứ không còn là số âm như trước).
Nói tóm lại, trong trường hợp bất định (thể hiện qua độ nhạy và độ đặc hiệu không phải là 100%) thì phương pháp mô phỏng theo mô hình Bayes có thể cung cấp một ước số đáng tin cậy hơn phương pháp cổ điển.


GS Nguyễn Văn Tuấn

Không có nhận xét nào:

Đăng nhận xét