1. Giới thiệu
Thống kê y sinh học là việc áp dụng các nguyên tắc thống kê cho các câu hỏi và vấn đề nghiên cứu trong y học, sức khỏe công cộng hoặc sinh học. Nghiên cứu có thể quan tâm đến đặc điểm về sức khỏe của một nhóm dân số nhất định (ví dụ: người trường thành ở Boston hoặc tất cả trẻ em ở Hoa Kỳ) như tỷ lệ người thừa cân hoặc tỷ lệ người mắc bệnh hen và cũng quan trọng khi nghiên cứu ước tính mức độ khác nhau của những vấn đề sức khỏe này theo thời gian hoặc có thể ở các địa điểm khác nhau. Trong khía cạnh khác cũng có tầm quan trọng là vấn đề so sánh giữa các nhóm người tham gia nghiên cứu để xác định xem một số hành vi nhất định (ví dụ: hút thuốc, tập thể dục, v.v.) có liên quan đến nguy cơ cao hơn đối với các kết quả sức khỏe này hay không. Tất nhiên, không thể trả lời được tất cả những câu hỏi như vậy bằng cách thu thập thông tin (dữ liệu) từ tất cả các người trong nhóm quần thể quan tâm. Một cách tiếp cận thực tế hơn là nghiên cứu trên các mẫu hoặc tập hợp con của một quần thể. Ngành thống kê y sinh học cung cấp các công cụ và kỹ thuật để thu thập dữ liệu và sau đó tóm tắt, phân tích và giải thích nó. Nếu các mẫu người ta lấy là đại diện cho quần thể quan tâm, kết quả nghiên cứu sẽ cung cấp các ước tính tốt về quần thể. Do đó, trong thống kê y sinh học, nghiên cứu phân tích mẫu để đưa ra suy luận về quần thể. Mô-đun này giới thiệu các khái niệm và định nghĩa cơ bản về thống kê sinh học.
Mục tiêu bài học
Hoàn thành bài học này, sinh viên
có thể:
1.
Định nghĩa và phân biệt được
quần thể và mẫu nghiên cứu
2.
Định nghĩa và phân biệt được
tham số của quần thể và thống kê mẫu
3. Tính
toán được trung bình, phương sai và độ lệch chuẩn của mẫu nghiên cứu
4. Tính
toán được trung bình, phương sai và độ lệch chuẩn của quần thể
5. Giải
thích được ý nghĩa của suy luận thống kê
Như
đã đề cập trong phần giới thiệu, nhiệm vụ cơ bản của thống kê y học là phân tích các mẫu nghiên cứu để đưa ra suy luận về quần thể mà từ đó các mẫu được rút ra. Để minh họa điều này, hãy xem
xét dân số của Massachusetts vào năm 2010, bao gồm 6,547,629 người. Một đặc điểm
(hoặc biến số) đáng
quan tâm có thể là huyết áp tâm trương của dân số. Có một số cách báo cáo và
phân tích điều này sẽ được xem xét trong bài Tổng hơn dữ liệu. Tuy nhiên trong bài này sẽ tập trung vào huyết áp tâm
trương trung bình của tất cả những người sống ở Massachusetts. Rõ ràng là không
khả thi để đo và ghi lại huyết áp của tất cả cư dân mà nghiên cứu
chỉ có thể lấy mẫu trong dân số để ước tính huyết áp tâm
trương trung bình của dân số.
Mặc dù sự đơn giản của ví dụ này nhưng nó nêu ra một số các khái niệm và thuật ngữ cần được định nghĩa. Các thuật ngữ quần thể, đối tượng, mẫu, biến số và các phần tử dữ liệu được xác định trong hoạt động được trình bày dưới đây.
Có
thể chọn nhiều mẫu nghiên cứu khác nhau từ một quần thể nhất
định và chúng ta sẽ thấy trong các bài học
khác có một số phương pháp có thể được sử dụng để chọn các đối tượng từ một tập
hợp thành một mẫu. Ví dụ đơn giản ở hình trên
cho thấy ba mẫu nhỏ được lấy ra để ước tính huyết áp tâm trương trung bình của
dân số Massachusetts, mặc dù nó không nếu cụ thể cách lấy mẫu. Cũng lưu ý rằng mỗi mẫu nghiên cứu cung cấp một ước tính khác nhau về giá trị trung bình cho dân số và
không ước tính nào giống với giá trị trung bình thực tế cho tổng thể (78 mm Hg
trong ví dụ là giả định). Trong thực tế thì chúng ta không biết được giá trị trung bình
thực sự của các đặc điểm của dân số, đó là lý do tại sao chúng ta cố
gắng ước tính từ các mẫu. Do đó, điều quan trọng là phải xác định và phân biệt
giữa:
Thống kê mẫu
Để minh họa cho việc tính toán thống kê mẫu, chúng ta chọn
một tập hợp con nhỏ (n = 10) của những
người tham gia vào Nghiên cứu Tim Framingham. Giá trị dữ liệu của 10 người này
được trình bày trong bảng dưới đây. Cột ngoài
cùng bên phải là chỉ số khối cơ thể (BMI)
được tính bằng cách sử dụng các số đo
chiều cao và cân nặng. Chúng ta sẽ quay lại ví dụ này trong bài Tổng hợp Dữ
liệu nhưng
số liệu này cung cấp một minh họa hữu ích về
một số thuật ngữ đã được giới thiệu và cũng sẽ dùng để minh họa trong tính
toán một số thống kê mẫu.
Dữ liệu của 1 mẫu nghiên cứu nhỏ
Mã số |
Huyết áp tâm thu |
Huyết áp tâm trương |
Cholesterol huyết thanh toàn phần |
Cân nặng |
Chiều cao |
BMI |
1 |
141 |
76 |
199 |
138 |
63.00 |
24.4 |
2 |
119 |
64 |
150 |
183 |
69.75 |
26.4 |
3 |
122 |
62 |
227 |
153 |
65.75 |
24.9 |
4 |
127 |
81 |
227 |
178 |
70.00 |
25.5 |
5 |
125 |
70 |
163 |
161 |
70.50 |
22.8 |
6 |
123 |
72 |
210 |
206 |
70.00 |
29.6 |
7 |
105 |
81 |
205 |
235 |
72.00 |
31.9 |
8 |
113 |
63 |
275 |
151 |
60.75 |
28.8 |
9 |
106 |
67 |
208 |
213 |
69.00 |
31.5 |
10 |
131 |
77 |
159 |
142 |
61.00 |
26.8 |
Thống kê tóm tắt quan trọng đầu tiên được ghi nhận là cỡ mẫu. Trong ví dụ này, cỡ mẫu là n = 10. Vì mẫu này nhỏ (n = 10), nên có thể dễ
dàng tóm tắt mẫu bằng cách xem xét các
giá trị quan sát. Ví
dụ bằng cách liệt kê
huyết áp tâm trương theo thứ tự tăng dần như sau:
62
63
64
67
70 72
76
77
81 81
Việc xem xét đơn giản đối với mẫu nhỏ này cho chúng ta cảm giác về trung tâm
của áp suất tâm trương quan sát được và cũng cho chúng ta biết mức độ biến
thiên của mẫu. Tuy nhiên, đối với một mẫu lớn thì việc
kiểm tra các giá trị dữ liệu từ cá nhân không cung cấp một bản
tóm tắt có ý nghĩa và thống kê tóm tắt là cần thiết. Hai thành phần chính của một
tóm tắt hữu ích cho một biến liên tục là:
- Mô tả
về trung tâm hoặc 'trung bình' của dữ liệu (tức là giá trị đặc trưng là
gì?) và
- Một
dấu hiệu về sự biến thiên trong dữ liệu.
Trung bình mẫu
Có vài số thống kê mô tả trung tâm của dữ liệu, nhưng bài này tập trung vào giá trị trung bình của mẫu, được tính bằng cách tổng
tất cả các giá trị của một biến cụ thể trong
mẫu và chia cho kích thước mẫu. Đối với mẫu huyết áp tâm trương trong bảng
trên, giá trị trung bình của mẫu được tính như sau:
Để đơn giản hóa các
công thức cho thống kê mẫu (và cho các tham số dân số) chúng ta thường ký hiệu biến quan tâm là "X". X chỉ đơn giản là
một ký hiệu cho biến số đang
được phân tích. Ở đây X = huyết áp tâm trương.
Công thức chung cho giá trị trung bình của mẫu là:
(x ngang) là ký hiệu cho giá trị trung bình của mẫu và nó được đọc là "X bar". Σ ký hiệu tổng (tức là tổng của các giá trị của x hoặc trong ví dụ này là tổng các số huyết
áp tâm trương).
Khi trình bày tóm tắt thống
kê cho một biến liên tục, quy ước là trình bày nhiều hơn một chữ số thập phân
so với số chữ số thập phân được đo. Huyết áp tâm thu và huyết áp tâm trương, tổng lượng
cholesterol trong huyết thanh và cân nặng được đo chính xác đến số nguyên gần
nhất, do đó các tóm tắt thống kê được trình bày chính xác đến vị trí thứ mười.
Chiều cao được đo chính xác đến phần tư inch (vị trí phần trăm) gần nhất, do đó
thống kê tóm tắt được báo cáo chính xác đến vị trí phần nghìn gần nhất. Chỉ số
khối cơ thể được tính đến vị trí phần mười gần nhất, số liệu thống kê tóm tắt
được báo cáo đến vị trí phần trăm gần nhất.
Phương
sai và độ lệch chuẩn của mẫu
Trong trường hợp biến số không có giá trị cực trị hoặc
giá trị ngoại lai của biến thì giá trị trung bình là số trình bày thích hợp
nhất của giá trị trung tâm và để tóm tắt sự biến đổi trong dữ liệu, chúng ta ước
tính cụ thể sự biến thiên trong mẫu xung quanh giá trị trung bình mẫu. Nếu tất
cả các giá trị quan sát được trong một mẫu gần với giá trị trung bình của mẫu,
độ lệch chuẩn sẽ nhỏ (nghĩa là gần bằng 0) và nếu các giá trị quan sát được xa nhiều
xung quanh giá trị trung bình của mẫu thì độ lệch chuẩn sẽ lớn. Nếu tất cả các
giá trị trong mẫu giống hệt nhau, độ lệch chuẩn của mẫu sẽ bằng không.
Khi thảo luận về trung
bình của mẫu, chúng ta thấy rằng số trung bình của mẫu đối với huyết áp tâm
trương = 71,3. Bảng dưới đây cho thấy từng giá trị quan sát được cùng với độ
lệch tương ứng của nó so với giá trị trung bình của mẫu.
Huyết áp tâm trương và độ lệch so với trung bình mẫu
x
= huyết áp tâm trương |
Độ lệch so với số trung bình |
76 |
4.7 |
64 |
-7.3 |
62 |
-9.3 |
81 |
9.7 |
70 |
-1.3 |
72 |
0.7 |
81 |
9.7 |
63 |
-8.3 |
67 |
-4.3 |
77 |
5.7 |
|
) = 0 |
Độ lệch so với số trung bình phản ánh huyết áp tâm trương của mỗi cá nhân chênh lệch
bao xa so với số huyết áp tâm trương trung bình. Huyết áp tâm trương của người
tham gia thứ nhất cao hơn 4,7 đơn vị so với số trung
bình trong khi huyết áp tâm trương của người thứ hai thấp hơn 7,3 đơn vị so với
số trung bình. Những
gì chúng ta cần là một bảng trình bày về những sai lệch này so với số trung bình, cụ thể là một số đo huyết áp tâm trương của
mỗi người tham gia chênh lệch so với số trung bình. Nếu chúng ta tính giá trị trung bình của
các độ lệch bằng cách tổng các độ lệch và chia cho cỡ mẫu, chúng ta sẽ gặp vấn
đề. Tổng của các độ lệch so với giá trị trung bình bằng không. Điều
này sẽ luôn xảy ra vì nó là một thuộc tính của trung bình mẫu, tức là, tổng các
độ lệch ở dưới số trung bình luôn bằng tổng các độ lệch ở trên
số trung bình.
Tuy nhiên, mục đích
là để biết được mức độ của những sai lệch này trong một thước đo tóm
tắt. Để giải quyết vấn đề về tổng các độ lệch này bằng 0 nên có thể lấy các giá trị tuyệt đối hoặc bình phương mỗi độ lệch so với giá trị trung bình. Cả hai phương pháp sẽ giải quyết vấn đề này nhưng phương pháp phổ biến hơn để mô tả độ
lệch so với giá trị trung bình là việc bình phương độ lệch (giá trị tuyệt đối có phần khó trong chứng minh toán học). Bảng dưới đây hiển thị từng giá trị quan
sát được, độ lệch so với giá trị trung bình của mẫu tương ứng và bình phương độ lệch so với giá trị trung bình.
x = Huyết áp tâm trương |
Độ lệch so với số trung bình ( |
Bình phương độ lệch so với số trung bình |
76 |
4,7 |
22,09 |
64 |
-7,3 |
53,29 |
62 |
-9,3 |
86,49 |
81 |
9,7 |
94,09 |
70 |
-1,3 |
1,69 |
72 |
0,7 |
0,49 |
81 |
9,7 |
94,09 |
63 |
-8,3 |
68,89 |
67 |
-4,3 |
18,49 |
77 |
5,7 |
32,49 |
|
) = 0 |
)2
= 472,10 |
Bình phương độ
lệch bình phương được giải thích như sau: Bình
phương độ lệch của người
tham gia nghiên cứu thứ
nhất là 22,09 có nghĩa là huyết áp tâm trương của họ bằng 22,09 đơn vị bình phương so với huyết áp tâm
trương trung bình và huyết áp tâm trương của người tham gia nghiên cứu thứ hai là 53,29 đơn
vị bình phương so với huyết áp tâm trương trung bình. Một đại lượng thường được
sử dụng để đo độ biến thiên trong một mẫu được gọi là phương sai mẫu và về cơ bản
nó là giá trị trung bình của các độ lệch bình phương. Phương sai mẫu được ký hiệu
là s2 và được tính như sau:
Tại sao chúng ta chia cho (n-1) thay vì n?
Phương sai mẫu thực ra không phải là giá trị trung bình của các
độ lệch bình phương, bởi vì chúng ta chia cho (n-1) thay vì n. Trong suy luận
thống kê (được mô tả chi tiết trong một bài đọc khác), nghiên cứu thực hiện khái quát
hóa hoặc ước tính các tham số dân số dựa trên thống kê mẫu. Nếu tính phương sai
mẫu bằng cách lấy giá trị trung bình của độ lệch bình phương và chia cho n,
chúng ta sẽ luôn ước tính thấp phương sai của quần thể thực. Chia cho (n-1) tạo ra ước tính tốt hơn về
phương sai quần thể. Tuy nhiên, phương sai mẫu thường được hiểu là độ lệch bình
phương trung bình so với giá trị trung bình.
Trong mẫu có 10 giá trị huyết
áp tâm trương này, phương sai của mẫu là s2 = 472,10 / 9 = 52,46. Như vậy, huyết áp tâm trương trung
bình bằng 52,46 đơn vị bình phương so
với huyết áp tâm trương trung bình. Bởi vì đơn vị
bình phương nên phương
sai không thể giải thích một cách đặc biệt. Thước đo độ biến thiên phổ biến hơn
trong một mẫu là độ lệch chuẩn của mẫu, được định nghĩa là căn bậc hai của
phương sai mẫu:
Tham số quần thể
Trang trước đã phác thảo các thống kê mẫu để đo huyết
áp tâm trương trong mẫu của chúng tôi. Nếu chúng tôi đo huyết áp tâm trương cho
tất cả các đối tượng trong dân số, chúng tôi cũng có thể tính toán các tham số của quần thể như
sau:
Trung bình quần thể
Thông thường, trung bình quần thể được
ký hiệu bằng chữ µ (viết thường) trong tiếng
Hy Lạp và công thức như sau:
µ
trong đó "N" là kích thước quần thể.
Phương sai và độ lệch chuẩn của quần thể
Các phương trình dưới đây cho
phương sai và độ lệch chuẩn của quần thể (chữ sigma trong tiếng Hy lạp, s viết thường):
Suy luận thống kê
Thực tế thường
không có thông tin về tất cả các đối tượng trong một quần thể quan tâm, vì vậy nghiên cứu lấy mẫu từ quần thể
đó để đưa ra suy luận về các tham số
quần thể chưa biết.
Một mối quan tâm rõ ràng là số liệu thống kê của một
mẫu lấy ra từ quần thể như
thế nào để ước
tính chính xác các
đặc điểm của quần thể.
Có nhiều yếu tố ảnh hưởng đến mức huyết áp tâm trương, chẳng hạn như tuổi tác,
trọng lượng cơ thể, thể lực và di truyền.
Lý tưởng nhất là chọn được mẫu nghiên cứu đại
diện cho quần thể.
Theo trực giác, thì thích
hợp hơn nếu có một mẫu ngẫu nhiên, nghĩa là tất cả các đối tượng trong quần thể đều có cơ hội được chọn vào mẫu như nhau; điều này sẽ
giảm thiểu sai số hệ thống do lấy mẫu sai lệch gây ra.
Ngoài ra, cũng có thể thấy trực quan rằng các mẫu nhỏ có thể không phải là đại diện cho dân số một cách ngẫu nhiên, và các mẫu lớn ít có khả năng bị ảnh hưởng bởi "may rủi". Điều này sẽ làm giảm cái gọi là sai số ngẫu nhiên. Vì chúng ta thường dựa vào một mẫu duy nhất để ước tính các tham số quần thể, nên chúng ta không bao giờ thực sự biết ước tính của mình tốt đến mức nào. Tuy nhiên, chúng ta có thể sử dụng các phương pháp lấy mẫu để giảm độ sai số và mức độ sai số ngẫu nhiên trong một mẫu nghiên cứu có thể được ước tính để có được cảm giác về độ chính xác của các ước tính.
Không có nhận xét nào:
Đăng nhận xét