Đại cương thống kê y học

1. Giới thiệu

Thống kê y sinh học là việc áp dụng các nguyên tắc thống kê cho các câu hỏi và vấn đề nghiên cứu trong y học, sức khỏe công cộng hoặc sinh học. Nghiên cứu có thể quan tâm đến đặc điểm về sức khỏe của một nhóm dân số nhất định (ví dụ: người trường thành ở Boston hoặc tất cả trẻ em ở Hoa Kỳ) như tỷ lệ người thừa cân hoặc tỷ lệ người mắc bệnh hen và cũng quan trọng khi nghiên cứu ước tính mức độ khác nhau của những vấn đề sức khỏe này theo thời gian hoặc có thể ở các địa điểm khác nhau. Trong khía cạnh khác cũng có tầm quan trọng là vấn đề so sánh giữa các nhóm người tham gia nghiên cứu để xác định xem một số hành vi nhất định (ví dụ: hút thuốc, tập thể dục, v.v.) có liên quan đến nguy cơ cao hơn đối với các kết quả sức khỏe này hay không. Tất nhiên, không thể trả lời được tất cả những câu hỏi như vậy bằng cách thu thập thông tin (dữ liệu) từ tất cả các người trong nhóm quần thể quan tâm. Một cách tiếp cận thực tế hơn là nghiên cứu trên các mẫu hoặc tập hợp con của một quần thể. Ngành thống kê y sinh học cung cấp các công cụ và kỹ thuật để thu thập dữ liệu và sau đó tóm tắt, phân tích và giải thích nó. Nếu các mẫu người ta lấy là đại diện cho quần thể quan tâm, kết quả nghiên cứu sẽ cung cấp các ước tính tốt về quần thể. Do đó, trong thống kê y sinh học, nghiên cứu phân tích mẫu để đưa ra suy luận về quần thể. Mô-đun này giới thiệu các khái niệm và định nghĩa cơ bản về thống kê sinh học.

Mục tiêu bài học

 Hoàn thành bài học này, sinh viên có thể:

1.      Định nghĩa và phân biệt được quần thể và mẫu nghiên cứu

2.      Định nghĩa và phân biệt được tham số của quần thể và thống kê mẫu

3.      Tính toán được trung bình, phương sai và độ lệch chuẩn của mẫu nghiên cứu

4.      Tính toán được trung bình, phương sai và độ lệch chuẩn của quần thể

5.      Giải thích được ý nghĩa của suy luận thống kê

Như đã đề cập trong phần giới thiệu, nhiệm vụ cơ bản của thống kê y học là phân tích các mẫu nghiên cứu để đưa ra suy luận về quần thể mà từ đó các mẫu được rút ra. Để minh họa điều này, hãy xem xét dân số của Massachusetts vào năm 2010, bao gồm 6,547,629 người. Một đặc điểm (hoặc biến số) đáng quan tâm có thể là huyết áp tâm trương của dân số. Có một số cách báo cáo và phân tích điều này sẽ được xem xét trong bài Tổng hơn dữ liệu. Tuy nhiên trong bài này sẽ tập trung vào huyết áp tâm trương trung bình của tất cả những người sống ở Massachusetts. Rõ ràng là không khả thi để đo và ghi lại huyết áp của tất cả cư dân mà nghiên cứu chỉ có thể lấy mẫu trong dân số để ước tính huyết áp tâm trương trung bình của dân số.

Map of Massachusetts with thousands of iconic people overlayed. Three random samples are drawn from the population and each sample has a slightly different mean value.

Mặc dù sự đơn giản của ví dụ này nhưng nó nêu ra một số các khái niệm và thuật ngữ cần được định nghĩa. Các thuật ngữ quần thể, đối tượng, mẫu, biến sốcác phần tử dữ liệu được xác định trong hoạt động được trình bày dưới đây.

Có thể chọn nhiều mẫu nghiên cứu khác nhau từ một quần thể nhất định và chúng ta sẽ thấy trong các bài học khác có một số phương pháp có thể được sử dụng để chọn các đối tượng từ một tập hợp thành một mẫu. Ví dụ đơn giản ở hình trên cho thấy ba mẫu nhỏ được lấy ra để ước tính huyết áp tâm trương trung bình của dân số Massachusetts, mặc dù nó không nếu cụ thể cách lấy mẫu. Cũng lưu ý rằng mỗi mẫu nghiên cứu cung cấp một ước tính khác nhau về giá trị trung bình cho dân số và không ước tính nào giống với giá trị trung bình thực tế cho tổng thể (78 mm Hg trong ví dụ giả định). Trong thực tế thì chúng ta không biết được giá trị trung bình thực sự của các đặc điểm của dân số, đó là lý do tại sao chúng ta cố gắng ước tính từ các mẫu. Do đó, điều quan trọng là phải xác định và phân biệt giữa:

Thống kê mẫu

Để minh họa cho việc tính toán thống kê mẫu, chúng ta chọn một tập hợp con nhỏ (n = 10) của những người tham gia vào Nghiên cứu Tim Framingham. Giá trị dữ liệu của 10 người này được trình bày trong bảng dưới đây. Cột ngoài cùng bên phải chỉ số khối cơ thể (BMI) được tính bằng cách sử dụng các số đo chiều cao và cân nặng. Chúng ta sẽ quay lại ví dụ này trong bài Tổng hợp Dữ liệu nhưng số liệu này cung cấp một minh họa hữu ích về một số thuật ngữ đã được giới thiệu và cũng sẽ dùng để minh họa trong tính toán một số thống kê mẫu.

Dữ liệu của 1 mẫu nghiên cứu nhỏ

 Mã số

Huyết áp tâm thu

Huyết áp tâm trương

Cholesterol huyết thanh toàn phần

Cân nặng

Chiều cao

BMI

1

141

76

199

138

63.00

24.4

2

119

64

150

183

69.75

26.4

3

122

62

227

153

65.75

24.9

4

127

81

227

178

70.00

25.5

5

125

70

163

161

70.50

22.8

6

123

72

210

206

70.00

29.6

7

105

81

205

235

72.00

31.9

8

113

63

275

151

60.75

28.8

9

106

67

208

213

69.00

31.5

10

131

77

159

142

61.00

26.8

Thống kê tóm tắt quan trọng đầu tiên được ghi nhận cỡ mẫu. Trong ví dụ này, cỡ mẫu là n = 10. Vì mẫu này nhỏ (n = 10), nên có thể dễ dàng tóm tắt mẫu bằng cách xem xét các giá trị quan sát. Ví dụ bằng cách liệt kê huyết áp tâm trương theo thứ tự tăng dần như sau:

62        63        64        67        70        72        76        77        81        81

 

Việc xem xét đơn giản đối với mẫu nhỏ này cho chúng ta cảm giác về trung tâm của áp suất tâm trương quan sát được và cũng cho chúng ta biết mức độ biến thiên của mẫu. Tuy nhiên, đối với một mẫu lớn thì việc kiểm tra các giá trị dữ liệu từ cá nhân không cung cấp một bản tóm tắt có ý nghĩa và thống kê tóm tắt là cần thiết. Hai thành phần chính của một tóm tắt hữu ích cho một biến liên tục là:

  • Mô tả về trung tâm hoặc 'trung bình' của dữ liệu (tức là giá trị đặc trưng là gì?) và
  • Một dấu hiệu về sự biến thiên trong dữ liệu.

Trung bình mẫu

vài số thống kê mô tả trung tâm của dữ liệu, nhưng bài này tập trung vào giá trị trung bình của mẫu, được tính bằng cách tổng tất cả các giá trị của một biến cụ thể trong mẫu và chia cho kích thước mẫu. Đối với mẫu huyết áp tâm trương trong bảng trên, giá trị trung bình của mẫu được tính như sau:

Để đơn giản hóa các công thức cho thống kê mẫu (và cho các tham số dân số) chúng ta thường ký hiệu biến quan tâm là "X". X chỉ đơn giản là một ký hiệu cho biến số đang được phân tích. Ở đây X = huyết áp tâm trương.

Công thức chung cho giá trị trung bình của mẫu là:

 (x ngang) là ký hiệu cho giá trị trung bình của mẫu và nó được đọc là "X bar". Σ ký hiệu tổng (tức là tổng của các giá trị của x hoặc trong ví dụ này là tổng các số huyết áp tâm trương).

Khi trình bày tóm tắt thống kê cho một biến liên tục, quy ước là trình bày nhiều hơn một chữ số thập phân so với số chữ số thập phân được đo. Huyết áp tâm thu và huyết áp tâm trương, tổng lượng cholesterol trong huyết thanh và cân nặng được đo chính xác đến số nguyên gần nhất, do đó các tóm tắt thống kê được trình bày chính xác đến vị trí thứ mười. Chiều cao được đo chính xác đến phần tư inch (vị trí phần trăm) gần nhất, do đó thống kê tóm tắt được báo cáo chính xác đến vị trí phần nghìn gần nhất. Chỉ số khối cơ thể được tính đến vị trí phần mười gần nhất, số liệu thống kê tóm tắt được báo cáo đến vị trí phần trăm gần nhất.

Phương sai và độ lệch chuẩn của mẫu

Trong trường hợp biến số không có giá trị cực trị hoặc giá trị ngoại lai của biến thì giá trị trung bình là số trình bày thích hợp nhất của giá trị trung tâm và để tóm tắt sự biến đổi trong dữ liệu, chúng ta ước tính cụ thể sự biến thiên trong mẫu xung quanh giá trị trung bình mẫu. Nếu tất cả các giá trị quan sát được trong một mẫu gần với giá trị trung bình của mẫu, độ lệch chuẩn sẽ nhỏ (nghĩa là gần bằng 0) và nếu các giá trị quan sát được xa nhiều xung quanh giá trị trung bình của mẫu thì độ lệch chuẩn sẽ lớn. Nếu tất cả các giá trị trong mẫu giống hệt nhau, độ lệch chuẩn của mẫu sẽ bằng không.

Khi thảo luận về trung bình của mẫu, chúng ta thấy rằng số trung bình của mẫu đối với huyết áp tâm trương = 71,3. Bảng dưới đây cho thấy từng giá trị quan sát được cùng với độ lệch tương ứng của nó so với giá trị trung bình của mẫu.

 

Huyết áp tâm trương và độ lệch so với trung bình mẫu

x = huyết áp tâm trương

Độ lệch so với số trung bình

76

4.7

64

-7.3

62

-9.3

81

9.7

70

-1.3

72

0.7

81

9.7

63

-8.3

67

-4.3

77

5.7

) = 0

Độ lệch so với số trung bình phản ánh huyết áp tâm trương của mỗi cá nhân chênh lệch bao xa so với số huyết áp tâm trương trung bình. Huyết áp tâm trương của người tham gia thứ nhất cao hơn 4,7 đơn vị so với số trung bình trong khi huyết áp tâm trương của người thứ hai thấp hơn 7,3 đơn vị so với số trung bình. Những gì chúng ta cần là một bảng trình bày về những sai lệch này so với số trung bình, cụ thể là một số đo huyết áp tâm trương của mỗi người tham gia chênh lệch so với số trung bình. Nếu chúng ta tính giá trị trung bình của các độ lệch bằng cách tổng các độ lệch và chia cho cỡ mẫu, chúng ta sẽ gặp vấn đề. Tổng của các độ lệch so với giá trị trung bình bằng không. Điều này sẽ luôn xảy ra vì nó là một thuộc tính của trung bình mẫu, tức là, tổng các độ lệch dưới số trung bình luôn bằng tổng các độ lệch trên số trung bình.

Tuy nhiên, mục đích là để biết được mức độ của những sai lệch này trong một thước đo tóm tắt. Để giải quyết vấn đề về tổng các độ lệch này bằng 0 nên có thể lấy các giá trị tuyệt đối hoặc bình phương mỗi độ lệch so với giá trị trung bình. Cả hai phương pháp sẽ giải quyết vấn đề này nhưng phương pháp phổ biến hơn để mô tả độ lệch so với giá trị trung bình việc bình phương độ lệch (giá trị tuyệt đối có phần khó trong chứng minh toán học). Bảng dưới đây hiển thị từng giá trị quan sát được, độ lệch so với giá trị trung bình của mẫu tương ứng bình phương độ lệch so với giá trị trung bình.

x = Huyết áp tâm trương

Độ lệch so với số trung bình

(

Bình phương độ lệch so với số trung bình

76

4,7

22,09

64

-7,3

53,29

62

-9,3

86,49

81

9,7

94,09

70

-1,3

1,69

72

0,7

0,49

81

9,7

94,09

63

-8,3

68,89

67

-4,3

18,49

77

5,7

32,49

) = 0

)2 = 472,10

 

Bình phương độ lệch bình phương được giải thích như sau: Bình phương độ lệch của người tham gia nghiên cứu thứ nhất là 22,09 có nghĩa là huyết áp tâm trương của họ bằng 22,09 đơn vị bình phương so với huyết áp tâm trương trung bình và huyết áp tâm trương của người tham gia nghiên cứu thứ hai là 53,29 đơn vị bình phương so với huyết áp tâm trương trung bình. Một đại lượng thường được sử dụng để đo độ biến thiên trong một mẫu được gọi là phương sai mẫu và về cơ bản nó là giá trị trung bình của các độ lệch bình phương. Phương sai mẫu được ký hiệu là s2 và được tính như sau:

  

Tại sao chúng ta chia cho (n-1) thay vì n?

Phương sai mẫu thực ra không phải là giá trị trung bình của các độ lệch bình phương, bởi vì chúng ta chia cho (n-1) thay vì n. Trong suy luận thống kê (được mô tả chi tiết trong một bài đọc khác), nghiên cứu thực hiện khái quát hóa hoặc ước tính các tham số dân số dựa trên thống kê mẫu. Nếu tính phương sai mẫu bằng cách lấy giá trị trung bình của độ lệch bình phương và chia cho n, chúng ta sẽ luôn ước tính thấp phương sai của quần thể thực. Chia cho (n-1) tạo ra ước tính tốt hơn về phương sai quần thể. Tuy nhiên, phương sai mẫu thường được hiểu là độ lệch bình phương trung bình so với giá trị trung bình.

Trong mẫu có 10 giá trị huyết áp tâm trương này, phương sai của mẫu là s2 = 472,10 / 9 = 52,46. Như vậy, huyết áp tâm trương trung bình bằng 52,46 đơn vị bình phương so với huyết áp tâm trương trung bình. Bởi vì đơn vị bình phương nên phương sai không thể giải thích một cách đặc biệt. Thước đo độ biến thiên phổ biến hơn trong một mẫu là độ lệch chuẩn của mẫu, được định nghĩa là căn bậc hai của phương sai mẫu:

  

 

Tham số quần thể

Trang trước đã phác thảo các thống kê mẫu để đo huyết áp tâm trương trong mẫu của chúng tôi. Nếu chúng tôi đo huyết áp tâm trương cho tất cả các đối tượng trong dân số, chúng tôi cũng có thể tính toán các tham số của quần thể như sau:

Trung bình quần thể

Thông thường, trung bình quần thể được ký hiệu bằng chữ µ (viết thường) trong tiếng Hy Lạp và công thức như sau:

µ

trong đó "N" là kích thước quần thể.

Phương sai và độ lệch chuẩn của quần thể

Các phương trình dưới đây cho phương sai và độ lệch chuẩn của quần thể (chữ sigma trong tiếng Hy lạp, s viết thường):

 

  

  

Suy luận thống kê

Thực tế thường không có thông tin về tất cả các đối tượng trong một quần thể quan tâm, vì vậy nghiên cứu lấy mẫu từ quần thể đó để đưa ra suy luận về các tham số quần thể chưa biết.

Một mối quan tâm rõ ràng là số liệu thống kê của một mẫu lấy ra từ quần thể như thế nào để ước tính chính xác các đặc điểm của quần thể. Có nhiều yếu tố ảnh hưởng đến mức huyết áp tâm trương, chẳng hạn như tuổi tác, trọng lượng cơ thể, thể lực và di truyền.

Lý tưởng nhất là chọn được mẫu nghiên cứu đại diện cho quần thể. Theo trực giác, thì thích hợp hơn nếu có một mẫu ngẫu nhiên, nghĩa là tất cả các đối tượng trong quần thể đều có cơ hội được chọn vào mẫu như nhau; điều này sẽ giảm thiểu sai số hệ thống do lấy mẫu sai lệch gây ra.

Ngoài ra, cũng có thể thấy trực quan rằng các mẫu nhỏ có thể không phải là đại diện cho dân số một cách ngẫu nhiên, và các mẫu lớn ít có khả năng bị ảnh hưởng bởi "may rủi". Điều này sẽ làm giảm cái gọi là sai số ngẫu nhiên. Vì chúng ta thường dựa vào một mẫu duy nhất để ước tính các tham số quần thể, nên chúng ta không bao giờ thực sự biết ước tính của mình tốt đến mức nào. Tuy nhiên, chúng ta có thể sử dụng các phương pháp lấy mẫu để giảm độ sai số và mức độ sai số ngẫu nhiên trong một mẫu nghiên cứu có thể được ước tính để có được cảm giác về độ chính xác của các ước tính.

Không có nhận xét nào:

Đăng nhận xét