Thứ Năm, 4 tháng 8, 2011

Phương pháp phân tích Bayes 1: diễn giải kết quả chẩn đoán


Tóm tắt: Phương pháp phân tích dữ liệu cổ điển và phổ biến dựa vào lí thuyết phản chứng, nhưng là một phương pháp có nhiều khiếm khuyết vốn đã được chỉ ra ngay từ khi phương pháp này ra đời vào khoảng 100 năm trước. Trong vài thập niên gần đây, phương pháp phân tích Bayes càng ngày càng phổ biến và đã đạt được nhiều thành công ngoạn mục trong di truyền học, nghiên cứu khoa học và nghiên cứu lâm sàng.  Bài viết này giới thiệu ứng dụng phương pháp phân tích Bayes trong vài trường hợp lâm sàng. Bài này đã đăng trên Tạp chí Thời sự Y học (Hội y học TPHCM) số tháng 7/2011. 
NVT
Hai trường hợp lâm sàng
Trường hợp 1.  Nữ, 47 tuổi, tự phát hiện một u nhỏ bên vú trái và chị quan ngại đó là bứu ung thư nên đến gặp bác sĩ.  Sau khi khám tổng quát và xem xét tiền sử gia đình, bác sĩ đề nghị chị đi xét nghiệm mammography.  Kết quả xét nghiệm mammography là dương tính.  Chị muốn biết nguy cơ chị mắc bệnh ung thư vú là bao nhiêu.  Bác sĩ nên trả lời như thế nào?
Trường hợp 2Nam bệnh nhân, 60 tuổi, sức khỏe bình thường, BMI 23 kg/m2, không có tiền căn gia đình với bệnh tiểu đường. Tuy nhiên kết quả xét nghiệm glucose trong máu là 127 mg/dL. Theo tiêu chuẩn do ADA đề nghị, ông được chẩn đoán là tiểu đường, nhưng ông không tin.  Ông muốn biết nguy cơ thật mình mắc bệnh tiểu đường. Bác sĩ nên có lời khuyên nào cho bệnh nhân?
Có thể nói hai trường hợp trên rất tiêu biểu trong lâm sàng.  Trước một xét nghiệm như mammography với kết quả dương tính, và biết rằng phương pháp xét nghiệm có những hạn chế về độ chính xác, người bác sĩ cũng như bệnh nhân muốn biết khả năng mình mắc bệnh là cao hay thấp.  Tương tự, đối với các kết quả xét nghiệm không có giá trị nhị phân mà là một dãy giá trị như nồng độ glucose trong máu,  và kết quả xét nghiệm gần ngưỡng chẩn đoán bệnh, người thầy thuốc phân vân không biết nên ra chẩn đoán mắc bệnh hay không mắc bệnh, bởi vì ai cũng biết rằng bất cứ xét nghiệm nào cũng không hoàn hảo.  Hai trường hợp tiêu biểu trên cũng nói lên một đặc điểm của y học hiện đại: đó là tính bất định trong bất cứ đo lường nào, bất cứ xét nghiệm nào, và do đó bất cứ chẩn đoán nào.  Chả thế mà “ông tổ” y khoa William Osler đã từng nói y khoa là một khoa học bất định và một nghệ thuật xác suất (medicine is a science of uncertainty and an art of probability) [1].
Xử lí tình trạng bất định đòi hỏi đến khoa học.  Xử lí xác suất cần phải có nghệ thuật.  Trong vài năm gần đây, một phương pháp phân tích “mới” ra đời và đang dần trở thành phổ biến trong nghiên cứu khoa học và nghiên cứu lâm sàng có thể đáp ứng hai nhu cầu về khoa học và nghệ thuật.  Nói là “mới” nhưng trong thực tế thì không mới, bởi vì cơ sở lí thuyết của phương pháp này đã ra đời từ thế kỉ 18.  Đó là suy luận theo trường phái Bayes (Bayesian inference) do Thomas Bayes đề xuất vào năm 1763 [2].  Thomas Bayes là một linh mục, nhưng cũng là một nhà toán học tài tử.  Tuy là “tài tử” nhưng di sản của ông để lại (chỉ một bài báo duy nhất) làm thay đổi cả thế giới khoa học, thay đổi cách suy nghĩ về sự bất định trong khoa học, và chỉ ra một phương pháp suy luận hoàn toàn logic.  Ngày nay, phương pháp Bayes được ứng dụng trong hầu hết tất cả lĩnh vực khoa học, kể cả trong công nghệ thông tin (ứng dụng Bayes trong việc ngăn chận những thư rác điện tử), tiên lượng kinh tế, phân tích các mối liên hệ xã hội, và lí giải qui trình suy nghĩ của con người. Ngày nay, suy luận theo trường phái Bayes được nhắc đến trên báo chí đại chúng chứ không chỉ trong báo khoa học.  Những tờ báo lớn như New York Times, Economist,Guardian, v.v. đều thường xuyên nhắc đến phương pháp suy luận Bayes.
Suy luận Bayes dựa vào định lí Bayes (Bayesian Theorem).  Có thể phát biểu định lí Bayes theo ngôn ngữ hàng ngày như sau: những gì chúng ta biết là tổng hợp những gì chúng ta đã biết cộng với chứng cứ thực tế.  Có thể nói rằng Định lí Bayes thể hiện cách suy nghĩ rất phổ biến của tất cả chúng ta: đó là chúng ta tiếp thu kiến thức một cách tích lũy.  Trong hai trường hợp trên, trước khi gửi bệnh nhân đi xét nghiệm, chúng ta đã biết được khả năng bệnh nhân mắc bệnh như thế nào (qua các thông tin về tỉ lệ hiện hành trong cộng đồng), sau khi có kết quả xét nghiệm chúng ta có thêm chứng cứ thực tế, và hai thông tin này giúp cho chúng ta đánh giá lại khả năng mắc bệnh của bệnh nhân.
Định lí Bayes dĩ nhiên cũng có thể mô tả một cách đơn giản qua xác suất.  Gọi H là bệnh trạng, và D là chứng cứ (có thể là kết quả xét nghiệm hay dữ liệu), Định lí Bayes phát biểu rằng xác suất H với điều kiện D xảy ra – kí hiệu P(H | D) –  là:
 [1]
Trong đó
o                    P(H) là khả năng mắc bệnh trước khi xét nghiệm; và
o                    P(D | H) là xác suất kết quả dương tính được với điều kiện có bệnh H;
o                    P(D) là độ phân bố của dữ liệu.
Nhìn qua định lí trên, chúng ta thấy suy luận Bayes có 3 thông tin.  Thông tin thứ nhất là thông tin mà chúng ta muốn biết, thuật ngữ tiếng Anh gọi là posterior information – thông tin hậu định.  Thông tin thứ hai là thông tin chúng ta đã biết, tiếng Anh làprior information – thông tin tiền định.  Và, thông tin thứ ba là thông tin thực tế, thuật ngữ tiếng Anh là likelihood. Ở đây, “thông tin” có nghĩa là khả năng hay xác suất.  Chúng ta muốn biết khả năng bệnh nhân thật sự mắc bệnh.  Do đó, 3 yếu tố trên thường được gọi là posterior probability, prior probability,  likelihood, có thể thể hiện qua công thức chung như sau:
Xác suất hậu định = Xác suất tiền định + Dữ liệu thực tế
Chúng ta thử xét qua 3 thông tin trong công thức trên một cách chi tiết hơn như sau:
Thông tin tiền định
Trước khi thực hiện một công trình nghiên cứu, chúng ta đã có vài ý niệm về mức độ ảnh hưởng của một liệu pháp can thiệp.  Trước khi có kết quả xét nghiệm, chúng ta thường đã biết khả năng một cá nhân mắc bệnh cao cỡ nào.  Những thông tin chúng ta biết trước như thế được gọi là thông tin tiền định.  Trong phân tích và suy luận Bayes, có thể nói thông tin tiền định đóng một vai trò quan trọng.  Quan trọng là vì kết quả phân tích có thể thay đổi tùy theo cách chúng ta cung cấp thông tin tiền định.  Quay lại hai trường hợp đặt ra trên đây, chúng ta thử xét qua thông tin tiền định.
Đối với trường hợp 1, thông tin tiền định là khả năng mắc bệnh.  Khả năng này có thể là tỉ lệ hiện hành (prevalence) ung thư vú trong cộng đồng thuộc độ tuổi của cá nhân.  Thông tin tiền định cũng có thể là giá trị tiên lượng qua mô hình Gail [3].  Chẳng hạn như đối với phụ nữ 47 tuổi, không có tiền sử ung thư vú, không có những yếu tố nguy cơ khác, thì số liệu dịch tễ học cho biết tỉ lệ hiện hành ung thư vú là khoảng 1%.  Do đó, chúng ta có một thông tin tiền định: P = 0.01.
Thông tin tiền định trong trường hợp 1 còn là độ chính xác của phương pháp xét nghiệm mammography.  Thông thường, có hai chỉ số có thể sử dụng phản ảnh độ chính xác của một phương pháp xét nghiệm: độ nhạy (sensitivity) và độ đặc hiệu (specificity).  Thật ra, hai thuật ngữ tiếng Anh này không hẳn thích hợp, nhưng vì giới y khoa đã sử dụng quá lâu nên chúng ta tạm chấp nhận hai thuật ngữ đó.  Tôi sẽ giải thích hai chỉ số này như sau:
o                    Độ nhạy là xác suất có kết quả dương tính nếu cá nhân thật sự mắc bệnh.  Nói cách khác, độ nhạy trả lời câu hỏi: nếu 100 người mắc bệnh ung thư vú đều đi xét nghiệm mammography thì có bao nhiêu người có kết quả dương tính.  Nếu phương pháp mammography hoàn toàn chính xác, chúng ta kì vọng tất cả 100 người sẽ có kết quả dương tính.  Nhưng trong thực tế, không có phương pháp nào hoàn chỉnh, nên độ nhạy của mammography thường khoảng 90% hoặc thấp hơn (nhưng chúng ta sẽ lạc quan với 90%) [4].
o                    Độ đặc hiệu là xác suất có kết quả âm tính nếu cá nhân thật sự không mắc bệnh.  Thông thường độ đặc hiệu của mammography khoảng 80%.  Độ đặc hiệu 80% có thể hiểu như sau: nếu 100 người không mắc bệnh đều đi khám mammography thì sẽ có 80 người có kết quả âm tính.  Nói cách khác, sẽ có 20 người có kết quả dương tính, và đây là trường hợp dương tính giả (false positive).
Đối với trường hợp 2, thông tin tiền định là sự phân bố về nồng độ glucose trong cộng đồng.  Trong trường hợp 1, thông tin tiền định là tỉ lệ hiện hành mắc bệnh ung thư vú.  Nhưng trong trường hợp 2, thông tin tiền định là sự phân bố glucose trong cộng đồng, nhất là ở những người cùng giới tính và cùng độ tuổi.  Hai thông số để phản ảnh một phân bố là số trung bình và độ lệch chuẩn (hay phương sai).  Nghiên cứu của chúng tôi [chưa công bố] trong cộng đồng người Việt cho thấy ở nam 60 tuổi, nồng độ glucose trung bình là 105 mg/dL và phương sai là 860 mg/dL2.  Có thể hình dung sự phân bố của glucose trong cộng đồng qua biểu đồ sau đây.
Biểu đồ 1: Phân bố nồng độ glucose trong cộng đồng nam giới 60 tuổi, trung bình 105 mg/dL và phương sai 860 mg/dL2
Một thông tin tiền định khác là độ tin cậy của phương pháp đo lường glucose.  Chúng ta biết rằng nồng độ glucose trong máu dao động trong mỗi cá nhân ngay trong điều kiện bình thường (không có can thiệp sinh học).  Chẳng hạn như trường hợp dưới đây, khi bệnh nhân được đo glucose 5 lần liên tục trong 5 ngày, và kết quả như sau (mg/dL):
127,  124,  125,  120,  126
Nếu chỉ dựa vào kết quả ngày thứ nhất và ngày thứ năm, cá nhân này được phân vào nhóm tiểu đường (vì nồng độ glucose cao hơn hay bằng 126 mg/dL).  Nhưng nếu dựa vào kết quả ngày thứ hai, thứ ba và thứ tư thì cá nhân không được chẩn đoán tiểu đường.  Đây là một tình trạng bất định rất phổ biến trong lâm sàng và chẩn đoán.  Khác với sự bất định trong chẩn đoán ung thư vú (khi độ chính xác được định lượng bằng độ nhạy, độc đặc hiệu hay tỉ lệ dương tính giả), sự bất định trong các đo lường mang tính liên tục (continuous variable) như nồng độ glucose được định lượng bằng hệ số tin cậy mà thuật ngữ tiếng Anh là coefficient of reliability.
Hệ số tin cậy cũng giống như hệ số tương quan (coefficient of correlation).  Hệ số tương quan đo lường mức độ tương quan giữa hai biến số.  Để hiểu hệ số tin cậy, chúng ta cần đến khái niệm giá trị thật (true values) và giá trị quan sát (observed values hay measured values).  Chẳng hạn như trong trường hợp trên, chúng ta không biết nồng độ glucose thật của cá nhân đó là bao nhiêu, nhưng chúng ta chỉ biết các giá trị đo lường được dao động trong khoảng 120 đến 127 nmg/dL.  Tuy không biết giá trị thật là bao nhiêu, chúng ta có thể ước tính từ giá trị đo lường được, và ước số đơn giản nhất là giá trị trung bình. Hệ số tin cậy đo lường mức độ tương quan giữa giá trị quan sát được và giá trị thật.  Hệ số tin cậy dao động từ 0 (hoàn toàn không tin cậy) đến 1 (độ tin cậy tuyệt đối).
Để ước tính hệ số tin cậy, người ta thường làm những nghiên cứu ngắn hạn.  Trong đó, một nhóm cá nhân được lấy máu và đo trên 2 lần (thường là 3 lần).  Từ dữ liệu đó, có thể ước tính phương sai (variance) nồng độ glucose. Phương sai này thực chất gồm có 2 thành phần: phương sai do dao động trung bình trong mỗi cá nhân (viết tắt là W) và phương sai do dao độnggiữa các các nhân (B).  Hệ số tin cậy (viết tắt là R) được tính bằng cách lấy B chia cho tổng phương sai:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»R«/mi»«mo»=«/mo»«mfrac»«mi»B«/mi»«mrow»«mi»B«/mi»«mo»+«/mo»«mi»W«/mi»«/mrow»«/mfrac»«/math»
Hệ số tin cậy và đặc biệt là phương sai W là những thông tin tiền định rất quan trọng trong việc đi đến một chẩn đoán chính xác về lâu về dài.  Nghiên cứu trước đây của chúng tôi cho thấy phương sai W là 815 mg/dL2, và hệ số tin cậy là 0.86.
Tóm lại, thông tin tiền định của hai trường hợp có thể tóm lược trong bảng số liệu sau đây:

Thông tin tiền định
Trường hơp 1
Trường hợp 2
Về tần số mắc bệnh hay phân bố trong cộng động
Tần số mắc bệnh là 1%, hay P = 0.01
Phân bố glucose trong cộng đồng, với trung bình 105 mg/dL và phương sai 860 mg/dL2.
Độ chính xác và tin cậy của phương pháp xét nghiệm
Độ nhạy: 0.90
Độ đặc hiệu: 0.80
Dương tính giả: 0.20
Hệ số tin cậy: R = 0.86
Phương sai trung bình trong mỗi cá nhân W = 815


Dữ liệu thực tế
Dữ liệu thực tế, trong bối cảnh hai trường hợp trên, là kết quả xét nghiệm.  Đối với trường hợp 1 (nghi ngờ ung thư vú), kết quả xét nghiệm đơn giản là dương tính.
Đối với trường hợp 2 (tiểu đường) thì dữ liệu thực tế có thể mô tả bằng luật phân phối.  Chúng ta biết rằng nồng độ glucose tuân theo luật phân phối chuẩn (Normal distribution).  Luật phân phối chuẩn, như đề cập trên, được xác định bằng hai thông số: trung bình và phương sai. Luật phân phối có thể áp dụng để mô tả một biến số cho một nhóm đối tượng hay cho một cá nhân.
Trong trường hợp 2, chúng ta chỉ có một kết quả xét nghiệm glucose với giá trị 127 mg/dL.  Nhưng chúng ta biết rằng nếu nồng độ glucose của cá nhân này được đo lường nhiều lần thì chắc chắn nồng độ không phải là 127 nhưng có thể dao động theo luật phân phối chuẩn.  Do đó, chúng ta có thể phát biểu rằng đối với cá nhân 2, nồng độ glucose tuân theo luật phân phối chuẩn với trung bình 127 mg/dL và phương sai 815 mg/dL2 (dựa vào thông tin tiền định).  Các giá trị glucose của cá nhân này có thể thể hiện bằng biểu đồ dưới đây:

Biểu đồ 2: Phân bố nồng độ glucose của một cá nhân 60 tuổi, trung bình 127 mg/dL và phương sai 815 mg/dL2

Thông tin hậu định
Dựa vào hai thông tin tiền định và dữ liệu thực tế, chúng ta có thể trả lời câu hỏi đặt ra lúc ban đầu.  Phương pháp để có thông tin hậu định là ứng dụng Định lí Bayes như mô tả trong phần đầu.
Đối với trường hợp 1, cần nhắc lại rằng chúng ta muốn biết xác suất bệnh nhân mắc bệnh ung thư vú là bao nhiêu khi đã có kết quả dương tính từ xét nghiệm mammography.  Để hiểu công thức 1 tôi sẽ giải thích bằng cách giả định rằng chúng ta có một quần thể gồm 1000 phụ nữ trong độ tuổi 47.  Chúng ta biết rằng (qua thông tin tiền định) trong số 1000 người sẽ có 10 người mắc bệnh ung thư vú, và do đó 990 người không mắc bệnh.

Cũng qua thông tin tiền định, chúng ta biết rằng độ nhạy là 90%.  Do đó, trong số 10 người mắc bệnh, sẽ có 9 người (10 x 0.90) có kết quả dương tính (và 1 người có kết quả âm tính).

Ngoài ra, vì độ đặc hiệu là 80%.  Do đó, trong số 990 người không mắc bệnh, sẽ có 792  người (990 x 0.80) có kết quả âm tính (và 198 người có kết quả dương tính - ở đây thật ra là dương tính giả).

Như vậy, tổng số chúng ta có 9 + 198 = 207 người có kết quả dương tính.  Tuy nhiên, trong số này, chỉ có 9 người thật sự mắc bệnh ung thư vú, còn 198 người không mắc bệnh (vì do tỉ lệ dương tính giả).  Do đó, xác suất mà người phụ nữ mắc bệnh ung thư vú với điều kiện có kết quả dương tính là: 9 / 207 = 4.3%.
Thật ra, có thể ước tính dựa vào công thức [1] một cách nhanh gọn hơn.  Gọi độ nhạy là P(D | H); xác suất dương tính giả làP(D | NoH), NoH là không mắc bệnh; và tỉ lệ hiện hành là P(H), xác suất mắc bệnh với kết quả dương tính là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»P«/mi»«mfenced»«mrow»«mi»H«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»D«/mi»«/mrow»«/mfenced»«mo»=«/mo»«mfrac»«mrow»«mi»P«/mi»«mfenced»«mi»H«/mi»«/mfenced»«mo»§#215;«/mo»«mi»P«/mi»«mfenced»«mrow»«mi»D«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»H«/mi»«/mrow»«/mfenced»«/mrow»«mrow»«mi»P«/mi»«mfenced»«mi»H«/mi»«/mfenced»«mo»§#215;«/mo»«mi»P«/mi»«mfenced»«mrow»«mi»D«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»H«/mi»«/mrow»«/mfenced»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»1«/mn»«mo»-«/mo»«mi»P«/mi»«mfenced»«mi»H«/mi»«/mfenced»«mo»]«/mo»«mo»§#215;«/mo»«mi»P«/mi»«mfenced»«mrow»«mi»D«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»N«/mi»«mi»o«/mi»«mi»H«/mi»«/mrow»«/mfenced»«/mrow»«/mfrac»«/math»
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»P«/mi»«mfenced»«mrow»«mi»H«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»D«/mi»«/mrow»«/mfenced»«mo»=«/mo»«mfrac»«mrow»«mn»0«/mn»«mo».«/mo»«mn»01«/mn»«mo»§nbsp;«/mo»«mi»x«/mi»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»90«/mn»«/mrow»«mrow»«mo»(«/mo»«mn»0«/mn»«mo».«/mo»«mn»01«/mn»«mo»§nbsp;«/mo»«mi»x«/mi»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»90«/mn»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mo»(«/mo»«mn»0«/mn»«mo».«/mo»«mn»10«/mn»«mo»§nbsp;«/mo»«mi»x«/mi»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»20«/mn»«mo»)«/mo»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»043«/mn»«/math»
Có lẽ nhiều người sẽ ngạc nhiên tại sao xác suất mắc bệnh thấp.  Nhưng ở đây, cần nói thêm rằng phần lớn bác sĩ hiểu lầm rằng độ nhạy là xác suất mắc bệnh, nên nhiều bác sĩ cho rằng xác suất mắc bệnh là 90%.  Nhưng cách diễn giải đó sai.  Sai lầm là vì có sự nhầm lẫn giữa hai xác suất.  Gọi H là bệnh ung thư và D là kết quả xét nghiệm dương tính, độ nhạy được định nghĩa là:
P(D | H)
Còn xác suất mắc bệnh với điều kiện có kết quả dương tính là:
P(H | D)
Tuy cách viết chỉ khác nhau về thứ tự của H và D, nhưng ý nghĩa thì rất khác nhau!  Độ nhạy phản ảnh độ chính xác của phương pháp xét nghiệm mammography chứ không nói lên xác suất mắc bệnh.
Trong trường hợp 2, câu hỏi về thông tin hậu định có phần khác hơn trường hợp 1.  Chúng ta muốn biết với kết quả xét nghiệm glucose trong máu là 127 mg/dL, xác suất mà cá nhân mắc bệnh là bao nhiêu.  Vì 126 mg/dL là ngưỡng để chẩn đoán tiểu đường, nên câu hỏi có thể viết bằng ngôn ngữ xác suất như sau:
P(glucose > 126) = ?
Để trả lời câu hỏi đó, chúng ta cần xác định luật phân phối của glucose cho cá nhân.  Gọi số trung bình và độ lệch chuẩn của glucose trong cộng đồng lần lượt là mprior  sprior.  Tương tự, gọi số trung bình và độ lệch chuẩn của glucose của cá nhân làmdata và  sdata. Qua vài thao tác toán, có thể chứng minh rằng glucose trung bình và độ lệch chuẩn của cá nhân đó là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»m«/mi»«mrow»«mi»p«/mi»«mi»o«/mi»«mi»s«/mi»«mi»t«/mi»«mi»e«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«/msub»«mo»=«/mo»«mfrac»«mrow»«mfrac»«msub»«mi»m«/mi»«mrow»«mi»p«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«/msub»«msubsup»«mi»s«/mi»«mrow»«mi»p«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«mn»2«/mn»«/msubsup»«/mfrac»«mo»+«/mo»«mfrac»«msub»«mi»m«/mi»«mrow»«mi»d«/mi»«mi»a«/mi»«mi»t«/mi»«mi»a«/mi»«/mrow»«/msub»«msubsup»«mi»s«/mi»«mrow»«mi»d«/mi»«mi»a«/mi»«mi»t«/mi»«mi»a«/mi»«/mrow»«mn»2«/mn»«/msubsup»«/mfrac»«/mrow»«mrow»«mfrac»«mn»1«/mn»«msubsup»«mi»s«/mi»«mrow»«mi»p«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«mn»2«/mn»«/msubsup»«/mfrac»«mo»+«/mo»«mfrac»«mn»1«/mn»«msubsup»«mi»s«/mi»«mrow»«mi»d«/mi»«mi»a«/mi»«mi»t«/mi»«mi»a«/mi»«/mrow»«mn»2«/mn»«/msubsup»«/mfrac»«/mrow»«/mfrac»«/math»
 
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»s«/mi»«mrow»«mi»p«/mi»«mi»o«/mi»«mi»s«/mi»«mi»t«/mi»«mi»e«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«/msub»«mo»=«/mo»«mfrac»«mn»1«/mn»«msqrt»«mfenced»«mrow»«mfrac»«mn»1«/mn»«msubsup»«mi»s«/mi»«mrow»«mi»p«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«mn»2«/mn»«/msubsup»«/mfrac»«mo»+«/mo»«mfrac»«mn»1«/mn»«msubsup»«mi»s«/mi»«mrow»«mi»d«/mi»«mi»a«/mi»«mi»t«/mi»«mi»a«/mi»«/mrow»«mn»2«/mn»«/msubsup»«/mfrac»«/mrow»«/mfenced»«/msqrt»«/mfrac»«/math»
Quay lại trường hợp 2, xin nhắc lại, chúng ta biết rằng trong cộng đồng, nồng độ glucose tuân theo luật phân phối chuẩn với trung bình 105 mg/dL và phương sai 860 mg/dL2.  Chúng ta cũng biết nồng độ glucose của cá nhân tuân theo luật phân phối chuẩn với trung bình 127 mg/dL và phương sai 815 mg/dL2.  Từ hai thông tin này, chúng ta có thể xác định phân phối glucose của cá nhân đó sau khi điều chỉnh cho thông tin tiền định.
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»m«/mi»«mrow»«mi»p«/mi»«mi»o«/mi»«mi»s«/mi»«mi»t«/mi»«mi»e«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«/msub»«mo»=«/mo»«mfrac»«mrow»«mfrac»«mn»105«/mn»«mn»860«/mn»«/mfrac»«mo»+«/mo»«mfrac»«mn»127«/mn»«mn»815«/mn»«/mfrac»«/mrow»«mrow»«mfrac»«mn»1«/mn»«mn»860«/mn»«/mfrac»«mo»+«/mo»«mfrac»«mn»1«/mn»«mn»815«/mn»«/mfrac»«/mrow»«/mfrac»«mo»=«/mo»«mn»116«/mn»«/math»
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»s«/mi»«mrow»«mi»p«/mi»«mi»o«/mi»«mi»s«/mi»«mi»t«/mi»«mi»e«/mi»«mi»r«/mi»«mi»i«/mi»«mi»o«/mi»«mi»r«/mi»«/mrow»«/msub»«mo»=«/mo»«mfrac»«mn»1«/mn»«msqrt»«mrow»«mfrac»«mn»1«/mn»«mn»860«/mn»«/mfrac»«mo»+«/mo»«mfrac»«mn»1«/mn»«mn»815«/mn»«/mfrac»«/mrow»«/msqrt»«/mfrac»«mo»=«/mo»«mn»20«/mn»«mo».«/mo»«mn»5«/mn»«/math»
Nói cách khác, nồng độ glucose trung bình về lâu về dài (hay nồng độ thật) của cá nhân là 116 mg/dL, nhưng có thể dao động trong khoảng 75.8 đến 156.2 mg/dL với xác suất 95% (tức 116–1.96×20.5 đến 116+1.96×20.5).  Có thể hình dung phân bố glucose của cá nhân này như sau:
Biểu đồ 3: Phân bố nồng độ glucose của một cá nhân 60 tuổi, trung bình 116 mg/dL và độ lệch chuẩn 20.5 mg/dL. Diện tính dưới đường biểu diễn (màu đỏ) là xác suất cá nhân có nồng độ glucose cao hơn 126 ng/dL (tức xác suất cá nhân có thể chẩn đoán tiểu đường). Diện tích này là 0.312 (hay 31.2%)
Nhưng chúng ta muốn biết P(glucose > 126).  Bởi vì nồng độ glucose tuân theo luật phân phối chuẩn với trung bình 116 mg/dL và độ lệch chuẩn 20.5 mg/dL, nên có thể mô tả bằng công thức sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»f«/mi»«mfenced»«mrow»«mi»g«/mi»«mi»l«/mi»«mi»u«/mi»«mi mathvariant=¨normal¨»cos«/mi»«mi»e«/mi»«/mrow»«/mfenced»«mo»=«/mo»«mfrac»«mn»1«/mn»«mrow»«mn»20«/mn»«mo».«/mo»«mn»5«/mn»«msqrt»«mrow»«mn»2«/mn»«mi»§#960;«/mi»«/mrow»«/msqrt»«/mrow»«/mfrac»«msup»«mi»e«/mi»«mrow»«mo»-«/mo»«mfrac»«msup»«mfenced»«mrow»«mi»g«/mi»«mi»l«/mi»«mi»u«/mi»«mi mathvariant=¨normal¨»cos«/mi»«mi»e«/mi»«mo»-«/mo»«mn»116«/mn»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mrow»«mn»2«/mn»«mi»x«/mi»«msup»«mfenced»«mrow»«mn»20«/mn»«mo».«/mo»«mn»5«/mn»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«/mrow»«/msup»«/math»
Xác suất trên chính là diện tích dưới đường biểu diễn của hàm số glucose cho cá nhân đó. Theo đó:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»P«/mi»«mfenced»«mrow»«mi»g«/mi»«mi»l«/mi»«mi»u«/mi»«mi mathvariant=¨normal¨»cos«/mi»«mi»e«/mi»«mo»§gt;«/mo»«mn»126«/mn»«/mrow»«/mfenced»«mo»=«/mo»«msubsup»«mo»§#8747;«/mo»«mn»126«/mn»«mo»§#8734;«/mo»«/msubsup»«mi»f«/mi»«mfenced»«mrow»«mi»g«/mi»«mi»l«/mi»«mi»u«/mi»«mi mathvariant=¨normal¨»cos«/mi»«mi»e«/mi»«/mrow»«/mfenced»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»312«/mn»«/math»
Nếu dùng R:
1-pnorm(q=126,mean=116, sd=20.5)
Nói cách khác, mặc dù nồng độ glucose của cá nhân này nằm trong ngưỡng chẩn đoán tiểu đường (127 mg/dL), nhưng vì biết được độ tin cậy của phương pháp xét nghiệm và thông tin tiền định trong cộng đồng, xác suất mà bệnh nhân có nồng độ glucose trên 126 mg/dL thật ra chỉ 31.2%, chưa đủ thuyết phục để chẩn đoán cá nhân này mắc bệnh tiểu đường.  Chi tiết về lí thuyết và cách ứng dụng có thể xem qua vài nghiên cứu trước của người viết bài này [5,6] và đồng nghiệp khác [7-10].
Suy luận Bayes
Phương pháp phân tích thống kê đóng vai trò rất quan trọng trong nghiên cứu y khoa, đặc biệt là nghiên cứu lâm sàng.  Không có thống kê, nghiên cứu lâm sàng chỉ là những con số vô hồn và không có giá trị khoa học.  Trong thời gian khoảng 100 năm qua, khoa học thống kê đã phát triển được rất nhiều phương pháp phân tích có thể ứng dụng cho rất nhiều tình huống khác nhau trong nghiên cứu y khoa.  Những phương pháp này dựa vào triết lí phản nghiệm (falsificationism), mà theo đó nhà nghiên cứu tiến hành 3 bước.
o                    Bước thứ nhất, phát biểu giả thuyết vô hiệu H0;
o                    Bước thứ hai, thu thập dữ liệu D; 
o                    Bước thứ ba, ước tính xác suất D xảy ra nếu H0 là thật: P(D | H0).
Đó là qui trình chứng minh đảo ngược (proof by contradiction) hay còn gọi là phản chứng.  Qui trình này có thể áp dụng trong toán học, nhưng khi ứng dụng vào y khoa thì trở nên … vô duyên.  Trong y khoa chúng ta muốn biết với dữ liệu thu thập được, xác suất giả thuyết  H0 thật là bao nhiêu, chứ không ai lại đặt câu hỏi nếu giả thuyết H0 là đúng thì xác suất D xảy ra là bao nhiêu!  Tương tự, không ai ngớ ngẩn hỏi nếu tôi mắc bệnh thì xác suất kết quả xét nghiệm dương tính là bao nhiêu (vì nếu mắc bệnh thì phải điều trị, chứ không hỏi như thế).  Người ta hỏi: nếu kết quả xét nghiệm là dương tính, khả năng tôi mắc bệnh là bao nhiêu.  Phương pháp phân tích cổ điển không thể trả lời câu hỏi này (mà chỉ trả lời câu hỏi đảo ngược).
Trong y khoa, bất định là qui luật chứ không phải là điều bất bình thường.  Để xử lí sự bất định, chúng ta cần một phương pháp phân tích và suy luận logic.  Về mặt đánh giá bằng chứng trong điều kiện bất định, chỉ có phương pháp Bayes là phương pháp logic nhất.  Có thể nói rằng phương pháp suy luận Bayes không phải xa lạ gì với bác sĩ lâm sàng.  Theo Bayes, kiến thức chúng ta tiếp thu qua kiến thức đã biết và dữ liệu thực tế.  Tương tự, trong chẩn đoán bệnh, xác suất mắc bệnh tùy thuộc vào thông tin liên quan đến cá nhân và kết quả xét nghiệm.  Nếu hai cá nhân có những yếu tố nguy cơ giống nhau, nhưng cá nhân có kết quả dương tính sẽ có khả năng mắc bệnh cao hơn so với cá nhân có kết quả âm tính.  Nhìn theo góc độ này, suy luận Bayes chính là một phương pháp cá nhân hóa trong định lượng lâm sàng và chẩn đoán bệnh.  Do đó, phương pháp suy luận Bayes rất thích hợp cho các nhà lâm sàng.
Tóm lại, suy luận Bayes là một phương pháp suy luận dựa vào thông tin chúng ta đã thu thập trước đây cộng với dữ liệu thực tế để có được tri thức mới hoàn chỉnh hơn.  Có thể nói đó là một qui trình suy luận tích lũy.  Tri thức khoa học là tri thức được tích lũy theo thời gian, và phương pháp Bayes cung cấp cho chúng ta một phương tiện rất có ích cho sự phát triển khoa học.
Quay lại hai trường hợp nêu ra trong phần đầu bài viết. Đối với trường hợp 1, chúng ta có thể trả lời rằng kết quả xét nghiệm mammography là dương tính, và đó là một kết quả đáng quan tâm, nhưng cần phải diễn giải trong điều kiện bất định của máy mammogram.  Cứ 100 người có kết quả dương tính, thì có khoảng 4 người thật sự bị ung thư vú, nhưng bác sĩ không thể chắc chắn rằng cá nhân này sẽ mắc bệnh.  Xác suất 4% có lẽ thấp, nhưng vẫn thể hiện cao gấp 4 lần so với một người phụ nữ “trung bình” cùng tuổi.  Thật ra, trong thực tế, kết quả mammography chỉ là một bước (có thể quan trọng) trong qui trình chẩn đoán và xét nghiệm để xác định khả năng mắc bệnh.
Đối với trường hợp 2, mặc dù kết quả xét nghiệm cho thấy nồng độ glucose trong máu là 127 (tức ngưỡng tiểu đường), nhưng vì phương pháp xét nghiệm có độ tin cậy chưa cao, nên kết quả tự nó cũng mang tính bất định.  Sau khi xem xét độ dao động trong mỗi cá nhân và kết gợp với thông tin trong cộng đồng, có thể nói rằng khả năng cá nhân này thật sự bị tiểu đường chỉ 31%, thấp hơn ngưỡng 95% khá xa.  Trước kết quả và đánh giá này, có lẽ một xét nghiệm khác trong một thời điểm khác sẽ cung cấp thông tin chắc chắn hơn.
Phương pháp suy luận và phân tích dựa vào trường phái Bayes đã và đang trở nên phổ biến trong nghiên cứu y khoa. Ngày nay, hầu như bất cứ lĩnh vực nghiên cứu nào – nhất là chẩn đoán – đều cần đến phương pháp Bayes.  Trong tình trạng bất định đo lường, ngay cả với những phương pháp đo lường có độ chính xác cao, suy luận Bayes chứng tỏ là một phương tiện rất có ích.  Hi vọng rằng bài này đã cung cấp cho bạn đọc vài ý niệm và cách ứng dụng phương pháp suy luận Bayes trong chẩn đoán lâm sàng.
Tài liệu tham khảo và chú thích
[1] Osler W. Trích trong Clinical ethics: a practical approach to ethical decisions in clinical medicine‎ (trang 17) của Albert R. Jonsen et al. Nhà xuất bản McGraw-Hill Professional 2002.
[2] Bayes, Thomas; Price, Mr. (1763). An Essay towards solving a Problem in the Doctrine of Chances.  Philosophical Transactions of the Royal Society of London 53 (0): 370–418.  Có thể xem bản gốc của bài báo quan trọng này tại địa chỉ:
http://www.stat.rice.edu/~blairc/seminar/Files/danTalk.pdf
[3]  Gail MH, Brinton LA, Byar DP, Corle DK, Green SB, Chairer C, Mulvihill JJ,  Projecting individualized probabilities of developing breast cancer for white females who are being examined annually.  J Natl Cancer Inst 1989; 81:1879-1886.
[4] Eddy DM. Probabilistic reasoning in clinical medicine: Problems and opportunities. In D. Kahneman, P. Slovic & A. Tversky (Eds.), Judgment under uncertainty: Heuristics and biases (pp. 249-267). Cambridge, England: Cambridge University Press, 1982.
[5] Nguyen TV, Nelson AE, Howe CJ, Seibel MJ, Baxter RC, Handelsman DJ, et al. Within-subject variability and analytic imprecision of insulinlike growth factor axis and collagen markers: implications for clinical diagnosis and doping tests. Clin Chem 2008;54:1268 –76.
[6] Nguyen TV, Pocock NA, Eisman JA.  On the interpretation of bone mineral density measurements and its change. Special Article: J Clin Densitometry 2000; 3:107-19.
[7] Dunson DB. Commentary: Practical Advantages of Bayesian Analysis of Epidemiologic Data. Am J Epidemiol2001;153:1222–6.
[8] Spiegelhalter DJ, Myles JP, Jones DR, et al. An introduction to Bayesian methods in health technology assessment. BMJ1999;319:508–12
[9] Lilford RJ, Braunholtz D. Who’s afraid of Thomas Bayes? J Epidemiol Community Health 2000;54:731–9.
[10] Berry DA.  Bayesian clinical trials. Nature Reviews Drug Discovery. 2006;5(1):27-36.

Chú thích kĩ thuật
Mã R để vẽ biểu đồ 2
mean=105; sd=sqrt(860); lb=mean-1.96*sd; ub=mean+1.96*sd
crit=126
x = seq(-4, 4, length=10000)*sd + mean 
hx = dnorm(x, mean, sd) 
plot(x, hx,, xlab="Glucose (mg/dL", ylab="Density") 
lines(x, hx) 
Mã R để vẽ biểu đồ 2
mean=127; sd=sqrt(815); lb=mean-1.96*sd; ub=mean+1.96*sd
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»P«/mi»«mfenced»«mrow»«mi»H«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»D«/mi»«/mrow»«/mfenced»«mo»=«/mo»«mfrac»«mrow»«mi»P«/mi»«mo»(«/mo»«mi»D«/mi»«mo»§nbsp;«/mo»«mo»|«/mo»«mo»§nbsp;«/mo»«mi»H«/mi»«mo»)«/mo»«mo»§nbsp;«/mo»«mi»x«/mi»«mo»§nbsp;«/mo»«mi»P«/mi»«mo»(«/mo»«mi»H«/mi»«mo»)«/mo»«/mrow»«mrow»«mi»P«/mi»«mo»(«/mo»«mi»D«/mi»«mo»)«/mo»«/mrow»«/mfrac»«/math»crit=126
x = seq(-4, 4, length=10000)*sd + mean 
hx = dnorm(x, mean, sd) 
plot(x, hx,, xlab="Glucose (mg/dL", ylab="Density") 
lines(x, hx) 
Mã R để vẽ biểu đồ 3
mean=116; sd=20.5; lb=mean-1.96*sd; ub=mean+1.96*sd
crit=126
x = seq(-4, 4, length=10000)*sd + mean 
hx = dnorm(x, mean, sd) 
plot(x, hx,, xlab="Glucose (mg/dL", ylab="Density") 
i = x > crit 
lines(x, hx) 
polygon(c(crit, x[i], ub), c(0,hx[i],0), col="red")

Thứ Bảy, 25 tháng 6, 2011

Phân tích hồi qui tuyến tính đơn biến


Phân tích hồi qui tuyến tính đơn biến thực chất là một khai triển từ mô hình phân tích tương quan (correlation analysis) mà tôi đã giải thích trong phần trước. Phân tích tương quan cung cấp cho chúng ta hệ số tương quan (coefficient of correlation), phản ảnh mức độ liên hệ hay tương quan giữa hai biến. Phân tích hồi qui tuyến tính cung cấp cho chúng ta một mô hình để tiên lượng một biến số lâm sàng từ một yếu tố khác. Vì là “mô hình” (model) cho nên phải có tham số (parameter). Do đó, trong phân tích hồi qui tuyến tính, chúng ta còn phải ước tính các tham số của mô hình tiên lượng.
Mô hình hồi qui tuyến tính có lẽ là một trong những phương pháp phân tích thống kê phổ biến nhất, được áp dụng nhiều nhất (và cũng bị lạm dụng nhiều nhất) trong nghiên cứu y học. Mô hình này có một lịch sử khá lâu đời. Năm 1885, nhà khoa học gốc Anh, Francis Galton (một trong những nhà khoa học tiên phong trong di truyền học) giới thiệu khái niệm "regression" (hồi qui) trong một nghiên cứu mà trong đó ông chứng minh rằng chiều cao của những người con không có xu hướng tương quan với chiều cao của cha hay mẹ, mà có xu hướng tương quan với chiều cao trung bình của cha và mẹ. Ông gọi xu hướng này là hồi qui. Nhưng thật ra, Galton không phải là người đầu tiên phát triển, nhưng là người đầu tiên ứng dụng, mô hình hồi qui tuyến tính. Nhà toán học người Pháp thuộc loại hạng “huyền thoại” tên là Adrien Marie Legendre mới là người đầu tiên phát triển và công bố công trình nghiên cứu về hồi qui tuyến tính vào năm 1805 (nhưng lúc đó ông không dùng danh từ "regression"). Nhưng người có ý tưởng nguyên thủy về hồi qui tuyến tính là Carl Friedrich Gauss (một nhà toán học thuộc vào hạng huyền thoại khác), người từng đề cập đến khái niệm hồi qui vào đầu thế kỉ 19.
1. Tóm lược lí thuyết
Mô hình hồi qui tuyến tính (từ nay sẽ viết tắt là HQTT) phát biểu rằng: Gọi là đo lường của đối tượng i (i = 1, 2, 3, …, n) của một biến phụ thuộc, và là đo lường của một biến độc lập cũng của đối tượng i, mối liên hệ tuyến tính giữa hai biến có thể mô tả bằng phương trình với hai thông số ab như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»§#945;«/mi»«mo»+«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»1«/mn»«mo»]«/mo»«/math»
Trong đó, ab là hai tham số của mô hình hồi qui tuyến tính cần ước tính từ số liệu quan sát được, và «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» là phần dư, tức phần không thể tiên lượng bằng đo lường của biến số độc lập. Mô hình trên chỉ hợp lí khi các giả định sau đây đúng:
(i) Giá trị của x không chịu ảnh hưởng sai số đo lường (random error);
(ii) «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» tuân theo luật phân phối chuẩn với trung bình 0 và phương sai;
(iii) «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» không có tương quan gì với x; và
(iv) các giá trị nối tiếp của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» (chẳng hạn như «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mn»1«/mn»«/msub»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«msub»«mi»§#949;«/mi»«mn»2«/mn»«/msub»«/math») độc lập với nhau.
Với các giả định trên, và bởi vì hai tham số «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» là bất biến, cho nên, cho một đo lường của x chúng ta có thể ước tính trị số kì vọng (hay nói rõ hơn là số trung bình) của y như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«mi»E«/mi»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«mo»=«/mo»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»2«/mn»«mo»]«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»V«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»p«/mi»«mi»h«/mi»«mi»§#432;«/mi»«mi»§#417;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»a«/mi»«mi»i«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#7911;«/mi»«mi»a«/mi»«mo»§nbsp;«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»:«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»§#945;«/mi»«mo»+«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«/mtd»«/mtr»«mtr»«mtd»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»§#945;«/mi»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«/mtd»«/mtr»«mtr»«mtd»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«/mtd»«/mtr»«mtr»«mtd»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»=«/mo»«mo»§nbsp;«/mo»«msup»«mi»§#963;«/mi»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»3«/mn»«mo»]«/mo»«/mtd»«/mtr»«/mtable»«/math»
Vấn đề đặt ra là cho một loạt số liệu (x1,y1) , (x2,y2), . . . , (xn,yn), hai tham số «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» nên ước tính như thế nào. Phương pháp Phương pháp bình phương nhỏ nhất (còn gọi là least squares method) là phương pháp tốt nhất để ước tính hai tham số đó. Theo phương pháp này, chúng ta cần tìm hai ước số a  b (tương đương với «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» ) sao cho tổng số bình phương giữa giá trị quan sát (yi) và giá trị tiên đoán («math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math») là thấp nhất, nói cách khác, chúng ta tối thiểu hóa:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»Q«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced close=¨]¨ open=¨[¨»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mfenced»«mrow»«mi»a«/mi»«mo»+«/mo»«mi»b«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/mrow»«/mfenced»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
Hóa ra, muốn tối thiểu hóa Q chúng ta chỉ cần giải hệ phương trình đơn giản sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»n«/mi»«mi»a«/mi»«mo»+«/mo»«mi»b«/mi»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/mtd»«/mtr»«mtr»«mtd»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»a«/mi»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mi»b«/mi»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msubsup»«mi»x«/mi»«mi»i«/mi»«mn»2«/mn»«/msubsup»«/mtd»«/mtr»«mtr»«mtd»«mi»V«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»a«/mi»«mi»u«/mi»«mo»§nbsp;«/mo»«mi»k«/mi»«mi»h«/mi»«mi»i«/mi»«mo»§nbsp;«/mo»«mi»g«/mi»«mi»i«/mi»«mi»§#7843;«/mi»«mi»i«/mi»«mo»§nbsp;«/mo»«mi»h«/mi»«mi»§#7879;«/mi»«mo»§nbsp;«/mo»«mi»p«/mi»«mi»h«/mi»«mi»§#432;«/mi»«mi»§#417;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»r«/mi»«mi»§#236;«/mi»«mi»n«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mi»n«/mi»«mi»§#224;«/mi»«mi»y«/mi»«mo»,«/mo»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»h«/mi»«mi»§#250;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»a«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»§#7869;«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#243;«/mi»«mo»§nbsp;«/mo»«mi»§#432;«/mi»«mi»§#7899;«/mi»«mi»c«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»§#7889;«/mi»«mo»:«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»b«/mi»«mo»=«/mo»«mfrac»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mfenced»«mrow»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«/mrow»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mi»c«/mi»«mi»o«/mi»«mi»v«/mi»«mo»(«/mo»«mi»x«/mi»«mo»,«/mo»«mi»y«/mi»«mo»)«/mo»«/mrow»«mrow»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»x«/mi»«mo»)«/mo»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»4«/mn»«mo»]«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»v«/mi»«mi»§#224;«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mi»a«/mi»«mo»=«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mo»-«/mo»«mo»§nbsp;«/mo»«mi»b«/mi»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»5«/mn»«mo»]«/mo»«/mtd»«/mtr»«/mtable»«/math»
Chú ý rằng, trong các phương trình trên, «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«/math» là số trung bình của biến số x  y. Xin nhắc lại rằng chúng ta không biết được giá trị của a  b, mà chỉ có thể ước tính chúng, và ước số của hai tham số này chính là «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» . Thuật ngữ thống kê gọi a  intercept, và b  gradient hay slope. Như chúng ta thấy qua phương trình trên, intercept chính là giá trị của y khi x = 0.
Công thức [4] cho thấy ước số b chỉ đơn giản bằng hiệp biến của x  y chia cho phương sai của y. Tuy các công thức này mới nhìn qua có vẻ rắc rối, nhưng trong thực tế thì rất đơn giản, bạn đọc chỉ cần một máy tính cầm tay (calculator) hay tốt hơn nữa phần mềm Excel cũng có thể tính rất dễ dàng.
Ví dụ 1 (tiếp tục) – cân nặng và vòng eo: Trong phần trước (phân tích tương quan), chúng ta có số liệu về cân nặng và vòng eo của 15 đối tượng như sau (in lại để dễ theo dõi):
Bảng 1. Cân nặng và vòng eo của 15 đối tượng người Việt
Trọng lượng (weight; kg)
Vòng eo (waist; cm)
51.0
71.0
66.0
89.0
47.0
64.0
54.0
74.0
64.0
87.0
75.0
93.0
54.0
66.0
52.0
74.0
53.0
75.0
52.0
72.0
48.0
70.0
46.0
66.0
63.0
81.0
40.0
57.0
90.0
94.0

Gọi cân nặng là x và vòng eo là y. Với cách gọi này, chúng ta có ý muốn sử dụng cân nặng của để tiên đoán vòng eo của một đối tượng. Xin nhắc lại, trong bài trước, chúng ta đã có những kết quả tính toán sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«mi»C«/mi»«mi»§#226;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«mi»n«/mi»«mi»§#7863;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»r«/mi»«mi»u«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»§#236;«/mi»«mi»n«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mo»=«/mo»«mn»57«/mn»«mo».«/mo»«mn»0«/mn»«mo»§nbsp;«/mo»«mi»k«/mi»«mi»g«/mi»«mo»,«/mo»«mo»§nbsp;«/mo»«mi»§#273;«/mi»«mi»§#7897;«/mi»«mo»§nbsp;«/mo»«mi»l«/mi»«mi»§#7879;«/mi»«mi»c«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»h«/mi»«mi»u«/mi»«mi»§#7849;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«msub»«mi»s«/mi»«mi»x«/mi»«/msub»«mo»=«/mo»«mn»12«/mn»«mo».«/mo»«mn»8«/mn»«mo»§nbsp;«/mo»«mi»k«/mi»«mi»g«/mi»«/mtd»«/mtr»«mtr»«mtd»«mi»V«/mi»«mi»§#242;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»e«/mi»«mi»o«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»r«/mi»«mi»u«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»§#236;«/mi»«mi»n«/mi»«mi»h«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»=«/mo»«mn»75«/mn»«mo».«/mo»«mn»5«/mn»«mo»,«/mo»«mo»§nbsp;«/mo»«mi»§#273;«/mi»«mi»§#7897;«/mi»«mo»§nbsp;«/mo»«mi»l«/mi»«mi»§#7879;«/mi»«mi»c«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»h«/mi»«mi»u«/mi»«mi»§#7849;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«msub»«mi»s«/mi»«mi»y«/mi»«/msub»«mo»=«/mo»«mn»11«/mn»«mo».«/mo»«mn»1«/mn»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»m«/mi»«mo».«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»H«/mi»«mi»i«/mi»«mi»§#7879;«/mi»«mi»p«/mi»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»i«/mi»«mi»§#7871;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#7911;«/mi»«mi»a«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#226;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«mi»n«/mi»«mi»§#7863;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#242;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»e«/mi»«mi»o«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»o«/mi»«mi»v«/mi»«mo»(«/mo»«mi»x«/mi»«mo»,«/mo»«mi»y«/mi»«mo»)«/mo»«mo»=«/mo»«mn»130«/mn»«mo».«/mo»«mn»8«/mn»«/mtd»«/mtr»«/mtable»«/math»
Với n = 15 đối tượng, và dựa vào công thức [4] và [5] chúng ta có thể ước tính tham số b  a như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«mi»b«/mi»«mo»=«/mo»«mfrac»«mrow»«mi»c«/mi»«mi»o«/mi»«mi»v«/mi»«mo»(«/mo»«mi»x«/mi»«mo»,«/mo»«mi»y«/mi»«mo»)«/mo»«/mrow»«mrow»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»x«/mi»«mo»)«/mo»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mn»130«/mn»«mo».«/mo»«mn»8«/mn»«/mrow»«mrow»«mo»(«/mo»«mn»12«/mn»«mo».«/mo»«mn»8«/mn»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»80«/mn»«/mtd»«/mtr»«mtr»«mtd»«mi»v«/mi»«mi»§#224;«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mi»a«/mi»«mo»=«/mo»«mn»75«/mn»«mo».«/mo»«mn»5«/mn»«mo»-«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»57«/mn»«mo»=«/mo»«mn»30«/mn»«/mtd»«/mtr»«/mtable»«/math»
Đến đây thì chúng ta đã có một công thức để tiên đoán vòng eo dựa vào trọng lượng của một đối tượng qua phương trình sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/math»
Chú ý rằng trong phương trình trên, biến số y có dấu mũ trên để nhắc nhở rằng đây là giá trị tiên đoán, để phân biệt với giá trị đo lường (thực tế) là yi.
Ý nghĩa của phương trình này là gì? Ở đây, giá trị a = 30 không có ý nghĩa thực tế gì đáng kể, nhưng b = 0.80 có nghĩa là mỗi kg cân nặng tương quan với 0.8 cm vòng eo. Chẳng hạn như nếu chúng ta hỏi biết một bệnh nhân cân nặng là 60 kg, thì qua phương trình trên, có thể tiên đoán rằng vòng eo của bệnh nhân là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»60«/mn»«mo»=«/mo»«mn»78«/mn»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»m«/mi»«/math»
nhưng nếu một bệnh nhân khác với cân nặng 62 kg, thì chúng ta có thể tiên đoán vòng eo của bệnh nhân là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«mo»=«/mo»«mn»30«/mn»«mo»+«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»61«/mn»«mo»=«/mo»«mn»79«/mn»«mo».«/mo»«mn»6«/mn»«mi»c«/mi»«mi»m«/mi»«/math»
Bây giờ, chúng ta thử xem phương trình trên tiên đoán vòng eo chính xác ra sao, bằng cách sử dụng phương trình trên để ước tính vòng eo cho từng đối tượng trong Bảng 1 như sau:
Bảng 2. Tiên đoán vòng eo dựa vào cân nặng cho 15 đối tượng

Số ID
(i)
Trọng lượng (xi)
Vòng eo thực tế
(yi)
Vòng eo tiên đoán qua mô hình
(«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«/math»)
Khác biệt giữa giá trị thực tế và tiên đoán
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»
1
51.0
71.0
70.8
0.2
2
66.0
89.0
82.8
6.2
3
47.0
64.0
67.6
-3.6
4
54.0
74.0
73.2
0.8
5
64.0
87.0
81.2
5.8
6
75.0
93.0
90.0
3.0
7
54.0
66.0
73.2
-7.2
8
52.0
74.0
71.6
2.4
9
53.0
75.0
72.4
2.6
10
52.0
72.0
71.6
0.4
11
48.0
70.0
68.4
1.6
12
46.0
66.0
66.8
-0.8
13
63.0
81.0
80.4
0.6
14
40.0
57.0
62.0
-5.0
15
90.0
94.0
102.0
-8.0
Cột số 4 cho thấy giá trị vòng eo được tiên đoán qua phương trình «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»+«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/math», và cột số 5 cung cấp cho chúng ta độ chính xác của tiên đoán (lấy vòng eo đo lường trừ cho vòng eo tiên đoán). Như có thể thấy qua bảng này, phương trình tiên đoán khá chính xác vòng eo. Chẳng hạn như với đối tượng 1, vòng eo thực tế là 71 cm, nhưng mô hình tiên đoán là 70.8 cm. Điều này có nghĩa gì? Nó có nghĩa là giá trị tiên đoán 70.8 cm chính là vòng eo trung bình của tất cả những người với cân nặng 51 kg.
Tuy nhiên nhìn qua bảng trên, chúng ta cũng thấy ở một số đối tượng, phương trình tiên đoán không mấy tốt. Chẳng hạn như đối tượng 2, phương trình tiên đoán thấp hơn thực tế đến 6.2 cm, nhưng với đối tượng 15, phương trình tiên đoán cao hơn thực tế đến 8 cm! Chúng ta sẽ quay lại để thẩm định chất lượng và độ chính xác của mô hình này trong một phần tiếp theo.
Ngoài ra, cách tốt hơn là vẽ biểu đồ so sánh giữa giá trị đo lường vòng eo và giá trị tiên đoán như Biểu đồ 1 dưới đây thể hiện. Biểu đồ này cho thấy, mô hình trên tiên đoán khá chính xác vòng eo ở những người có trọng lượng dưới 60 kg, nhưng ở những người có trọng lượng cao hơn ngưỡng này, thì giá trị tiên đoán không mấy chính xác.

2. Kiểm định giả thuyết về a  b
Quay lại với mô hình «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»§#945;«/mi»«mo»+«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» , chúng ta có thể rút ra vài nhận xét như sau: Nếu«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«mo»=«/mo»«mn»0«/mn»«/math», thì phương trình đơn giản thành «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»§#945;«/mi»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math», tức là không có mới tương quan nào giữa x  y; nhưng nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«mo»§#8800;«/mo»«mn»0«/mn»«/math» (tức có thể âm hay dương) thì mối liên hệ giữa x  y hiện hữu. Do đó, kiểm định mô hình hồi qui tuyến tính tập trung vào kiểm định giá thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«mo»=«/mo»«mn»0«/mn»«/math». Để kiểm định giả thuyết này, chúng ta cần tính toán phương sai của b (vì nên nhớ rằng b là ước số của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math»).
Chúng ta biết rằng «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math» là số trung bình của vòng eo, và phương sai của vòng eo, trước khi biết cân nặng, có thể ước tính như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mfrac»«mn»1«/mn»«mrow»«mi»n«/mi»«mo»-«/mo»«mn»1«/mn»«/mrow»«/mfrac»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
Công thức trên còn được gọi là phương sai vô điều kiện, Nhưng trong mô hình [1], như vừa đề cập trên, «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»+«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»60«/mn»«/math» chính là vòng eo trung bình với điều kiện xi. Chính vì thế mà phương sai của y (kí hiệu s2) với điều kiện biết cân nặng được ước tính bằng cách thay thế «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»§#7857;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«mfrac»«mn»1«/mn»«mrow»«mi»n«/mi»«mo»-«/mo»«mn»2«/mn»«/mrow»«/mfrac»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»6«/mn»«mo»]«/mo»«/math»
(Chú ý rằng mẫu số là n – 2, chứ không phải n – 1, vì đây là phương sai được ước tính với 2 tham số a  b, cho nên nphải trừ cho 2).
Gọi ei là độ khác biệt giữa vòng eo thực tế và vòng eo tiên đoán:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»e«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»
Trong thuật ngữ thống kê học, ei còn được gọi là “residual”. Phương sai trong phương trình [6] có thể viết lại như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mfrac»«msubsup»«mi»e«/mi»«mi»i«/mi»«mn»2«/mn»«/msubsup»«mrow»«mi»n«/mi»«mo»-«/mo»«mn»2«/mn»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»7«/mn»«mo»]«/mo»«/math»
s2 chính là ước số của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»§#963;«/mi»«mn»2«/mn»«/msup»«/math» trong mô hình [1]
Sau vài thao tác đại số, có thể chứng minh rằng phương sai của b  a có thể viết như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»b«/mi»«mo»)«/mo»«mo»=«/mo»«mfrac»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»8«/mn»«mo»]«/mo»«/math»
và: «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»a«/mi»«mo»)«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mo»(«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«mo».«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»b«/mi»«mo»)«/mo»«mo»=«/mo»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mfenced»«mrow»«mfrac»«mn»1«/mn»«mi»n«/mi»«/mfrac»«mo»+«/mo»«mfrac»«msup»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mn»2«/mn»«/msup»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«/mrow»«/mfenced»«/math»
Khi n (số đối tượng tương đối lớn), b tuân theo luật phân phối chuẩn với số trung bình là «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» và phương sai như trình bày trong [8]. Do đó, kiểm định giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math»= 0 có thể dựa vào tỉ số Tb sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»T«/mi»«mi»a«/mi»«/msub»«mo»=«/mo»«mfrac»«mrow»«mi»b«/mi»«msub»«mi»s«/mi»«mi»x«/mi»«/msub»«/mrow»«mi»s«/mi»«/mfrac»«/math»
(Chú ý, sx chính là độ lệch chuẩn của x). Nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0 thì Tb tuân theo luật phân phối t với bậc tự do là n – 2.
Ngoài ra, kiểm định giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«/math» = 0 cũng có thể tính toán qua tỉ số Ta như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»T«/mi»«mi»a«/mi»«/msub»«mo»=«/mo»«mfrac»«mi»a«/mi»«mrow»«mi»s«/mi»«mo»*«/mo»«msqrt»«mrow»«mfenced»«mfrac»«mn»1«/mn»«mi»n«/mi»«/mfrac»«/mfenced»«mo»+«/mo»«mfenced»«mfrac»«msup»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mn»2«/mn»«/msup»«msubsup»«mi»s«/mi»«mi»x«/mi»«mn»2«/mn»«/msubsup»«/mfrac»«/mfenced»«/mrow»«/msqrt»«/mrow»«/mfrac»«/math»
Nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«/math» = 0 thì t tuân theo luật phân phối t với bậc tự do là n – 2.
Ví dụ 1 (tiếp tục): Chúng ta tiếp tục sử dụng số liệu của ví dụ 1 để minh họa cho các tính toán trên. Để ước tính phương sai s2 theo công thức [6], chúng ta cần tính toán bình phương của khác biệt giữa yi và «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math» và tổng số như sau:
Bảng 3. Tính toán phương sai của y

Số ID
(i)
Trọng lượng (xi )
Vòng eo thực tế
( yi)
Vòng eo tiên đoán qua mô hình
(«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»)
Khác biệt giữa giá trị thực tế và tiên đoán
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»

«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msubsup»«mi»e«/mi»«mi»i«/mi»«mn»2«/mn»«/msubsup»«mo»=«/mo»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
1
51.0
71.0
70.8
0.2
0.04
2
66.0
89.0
82.8
6.2
38.44
3
47.0
64.0
67.6
-3.6
12.96
4
54.0
74.0
73.2
0.8
0.64
5
64.0
87.0
81.2
5.8
33.64
6
75.0
93.0
90.0
3.0
9.00
7
54.0
66.0
73.2
-7.2
51.84
8
52.0
74.0
71.6
2.4
5.76
9
53.0
75.0
72.4
2.6
6.76
10
52.0
72.0
71.6
0.4
0.16
11
48.0
70.0
68.4
1.6
2.56
12
46.0
66.0
66.8
-0.8
0.64
13
63.0
81.0
80.4
0.6
0.36
14
40.0
57.0
62.0
-5.0
25.00
15
90.0
94.0
102.0
-8.0
64.00

«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/math»= 57.0,
sx= 12.8
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math»=75.5
sy=11.1


Tổng cộng: 251.7

Bảng trên cho thấy s2= 251.7 / 13 = 19.36. Do đó, phương sai của b là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»b«/mi»«mo»)«/mo»«mo»=«/mo»«mfrac»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mn»19«/mn»«mo».«/mo»«mn»36«/mn»«/mrow»«mrow»«mn»12«/mn»«mo».«/mo»«msup»«mn»8«/mn»«mn»2«/mn»«/msup»«mo».«/mo»«mo»(«/mo»«mn»15«/mn»«mo»-«/mo»«mn»1«/mn»«mo»)«/mo»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»00844«/mn»«/math»
và độ lệch chuẩn của b là:«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msqrt»«mrow»«mn»0«/mn»«mo».«/mo»«mn»00844«/mn»«/mrow»«/msqrt»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»0918«/mn»«/math» . Do đó, kiểm định giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0 là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»T«/mi»«mi»b«/mi»«/msub»«mo»=«/mo»«mfrac»«mi»b«/mi»«msqrt»«mrow»«mn»0«/mn»«mo».«/mo»«mn»00844«/mn»«/mrow»«/msqrt»«/mfrac»«mo»=«/mo»«mn»8«/mn»«mo».«/mo»«mn»69«/mn»«/math»
Nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0 thì Tb dao động từ -2 đến +2, nhưng ở đây, chúng ta thấy Tb = 8.69, tức cao hơn 4 lần so với giá trị kì vọng, cho nên chúng ta có thể kết luận rằng mối liên hệ giữa vòng eo và cân nặng có ý nghĩa thống kê.
3. Phân tích phương sai
Một trong những mục đích của phân tích hồi qui tuyến tính là tìm hiểu xem biến độc lập có thể giải thích bao nhiêu phần trăm độ biến thiên của biến phụ thuộc. Trong ví dụ này, cụ thể là chúng ta muốn biết bao nhiêu phần trăm của độ biến thiên (hay khác biệt) giữa các cá nhân về vòng eo có thể giải thích bằng cân nặng. Cụm từ căn bản ở đây là “biến thiên” (thuật ngữ thống kê học là variation). Chú ý rằng mỗi cá nhân có 3 giá trị: vòng eo thực tế yi, vòng eo tiên đoán bằng cân nặng «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math» , và vòng eo trung bình của quần thể «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math». Mối liên hệ giữa ba giá trị này có thể mô tả như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mo»=«/mo»«mo»(«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«mo»+«/mo»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»9«/mn»«mo»]«/mo»«/math»
Nói cách khác, độ khác biệt giữa vòng eo của một cá nhân và số trung bình là tổng số khác biệt của: (a) giữa giá trị tiên đoán và số trung bình («math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«/math»), và (b) giữa giá trị thực tế và giá trị tiên đoán «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»)«/mo»«/math».
Do đó, một chỉ số có thể đo lường độ biến thiên của một biến là tổng bình phương của biến đó. Nói cách khác, nếu yi là vòng eo của từng cá nhân i  «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math» là vòng eo trung bình, thì tổng bình phương là (kí hiệu SST):
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»10«/mn»«mo»]«/mo»«/math»
Trong mô hình [1], chúng ta có là giá trị tiên đoán của yi sau khi “điều chỉnh” cho cân nặng (xi), cho nên, cùng một logic như trên, có thể nói rằng tổng biến thiên của vòng eo mà mô hình [1] có thể giải thích được là (kí hiệu SSR):
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»11«/mn»«mo»]«/mo»«/math»
Và phần còn lại, tức phần biến thiên của vòng eo không thể giải thích bằng mô hình [1] là (kí hiệu SSE):
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»E«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»12«/mn»«mo»]«/mo»«/math»
Do đó, qua mối liên hệ [9], chúng ta có thể chứng minh rằng:

SST = SSR + SSE
hay: «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»+«/mo»«mo»§nbsp;«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»13«/mn»«mo»]«/mo»«/math»
Chúng ta thấy để ước tính SST, chúng ta phải “tiêu” ra một tham số (số trung bình), cho nên bậc tự do (degrees of freedom) của SST là n – 1. Do đó, số trung bình bình phương (mean squares) là MST = SST / (n – 1). Để tính SSE, chúng ta phải cần đến hai tham số (a  b), cho nên bậc tự do của SSE là n – 2; do đó, số trung bình bình phương là MSE = SSE/ (n – 2). Các chỉ số này có thể tóm lược trong một bảng phân tích phương sai (analysis of variance) như sau:
Bảng 4. Phân tích phương sai cho mô hình hồi qui tuyến tính
Nguồn biến thiên
Bậc tự do (degrees of freedom)
Tổng bình phương (sum of squares)
Trung bình bình phương (mean squares)
Hồi qui (regression)
1
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
MSR = SSR / 1
Phần dư (residual)
n – 2
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»E«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»
MSE = SSE / (n – 2)
Tổng số biến thiên
n – 1
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»


Kiểm định F
Để kiểm định ý nghĩa thống kê của giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0, chúng ta đã làm quen với tỉ số Tb. Nhưng còn một kiểm định tương đương khác là kiểm định F, với công thức sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»F«/mi»«mo»=«/mo»«mfrac»«mrow»«mi»M«/mi»«mi»S«/mi»«mi»R«/mi»«/mrow»«mrow»«mi»M«/mi»«mi»S«/mi»«mi»E«/mi»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»14«/mn»«mo»]«/mo»«/math»
Thật ra, F như định nghĩa trong công thức [15] chính là bình phương của Tb.
Hệ số xác định (coefficient of determination)
Bởi vì tổng số biến thiên là SST, và trong số này, biến thiên có thể giải thích qua mô hình hồi qui tuyến tính [1] là SSR, cho nên chúng ta có thể ước tính số phần trăm mà mô hình có thể giải thích tổng biến thiên của y. Hệ số này được gọi là hệ số xác định và kí hiệu là R2:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»R«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«mfrac»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«/mrow»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»15«/mn»«mo»]«/mo»«/math»
Nhìn qua mối liên hệ [13], chúng ta dễ dàng thấy R2 có giá trị từ 0 đến 1. Nếu R2 = 0, mô hình hồi qui tuyến tính coi như vô dụng, vì không giải thích phần trăm nào biến thiên của y. Nếu R2= 1 hay gần 1, mô hình hồi qui tuyến tính có thể tiên đoán chính xác giá trị của y.
Tuy nhiên cần phải nhấn mạnh rằng một mô hình với R2 cao không có nghĩa là rằng mô hình tốt. Thật vậy, R2 có thể cao nếu b cao hay biến độc lập có range (dãy số) lớn. Ngoài ra, R2 có thể cao khi mô hình tuyến tính được áp dụng cho một mối liên hệ phi tuyến tính.
Ví dụ 1 (tiếp tục): Chúng ta tiếp tục sử dụng số liệu của ví dụ 1 để minh họa cho các tính toán trên.

Bảng 5. Chi tiết phân tích phương sai của mô hình hồi qui tuyến tính

Số ID
(i)
yi
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»
1
71.0
70.8
20.25
0.04
2
89.0
82.8
182.25
38.44
3
64.0
67.6
132.25
12.96
4
74.0
73.2
2.25
0.64
5
87.0
81.2
132.25
33.64
6
93.0
90.0
306.25
9.00
7
66.0
73.2
90.25
51.84
8
74.0
71.6
2.25
5.76
9
75.0
72.4
0.25
6.76
10
72.0
71.6
12.25
0.16
11
70.0
68.4
30.25
2.56
12
66.0
66.8
90.25
0.64
13
81.0
80.4
30.25
0.36
14
57.0
62.0
342.25
25.00
15
94.0
102.0
342.25
64.00
Tổng cộng:


1715.75
251.7
Qua tính toán trình bày trong bảng trên, chúng ta có SST = 1715.75, và SSE = 251.7. Do đó, SSR = SST – SSE =1715.75 – 251.7 = 1463.95. Bảng 6 sau đây tóm lược các chỉ số trên:

Bảng 6. Phân tích phương sai (ví dụ 1)
Nguồn biến thiên
Bậc tự do (degrees of freedom)
Tổng bình phương (sum of squares)
Trung bình bình phương (mean squares)
Hồi qui (regression)
1
SSR = 1463.95
1463.95
Phần dư (residual)
13
SSE = 251.7
19.37
Tổng số biến thiên
14
SST = 1715.75


Hệ số xác định bội, theo công thức [13], có thể ước tính là: «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»R«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«mfrac»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«/mrow»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mn»1463«/mn»«mo».«/mo»«mn»95«/mn»«/mrow»«mrow»«mn»1715«/mn»«mo».«/mo»«mn»75«/mn»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»853«/mn»«/math» . Nói cách khác, mô hình tuyến tính với cân nặng là biến độc lập có thể giải thích khoảng 85% tổng biến thiên (hay những khác biệt về) vòng eo giữa các cá nhân.
4. Phân tích phần dư và kiểm tra giả định
Như đề cập trên, phần dư (residual) là độ khác biệt giữa giá trị thực tế và giá trị tiên đoán của biếnphụ thuộc:«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»e«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«/math» . Phần dư rất quan trọng cho việc thẩm định tính hợp lí và độ chính xác của mô hình tiên đoán. Xin nhắc lại rằng mô hình hồi qui tuyến tính mà chúng ta áp dụng trong Ví dụ 1 chỉ có giá trị khoa học nếu mô hình này đáp ứng những giả định sau đây:
1. Mối liên hệ giữa cân nặng và vòng eo (biến độc lập và biến phụ thuộc, hay x  y) phải là mối liên hệ tuyến tính, tức tuân thủ theo một đường thẳng;
2. Phương sai của y không thay đổi tùy theo giá trị của x; hay nói cách khác, phần dư ei không biến chuyển một cách có hệ thống với xi;
3. Biến phụ thuộc y (hay ei) tuân theo luật phân phối chuẩn; hay một cách tương đương;
4. Các giá trị của ei không liên quan nhau.
Để kiểm định những giả định trên, một số biểu đồ sau đây có thể áp dụng:
o                                Biểu đồ ei  «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math» để tìm xem có các giá trị “outlier” (tức những giá trị mà mô hình không tiên đoán chính xác), và xem mô hình có vi phạm giả định 1 và 2 hay không.
o                                Biểu đồ so sánh giá trị quan sát của ei và giá trị kì vọng (dựa vào luật phân phối chuẩn) của ei để kiểm tra xem giả định 3 có đáp ứng hay không.
o                                Biểu đồ ei  x để kiểm tra xem có cần hoán chuyển x hay không.
Tuy nhiên, phương sai của ei không cố định. Do đó, các nhà nghiên cứu khuyến cáo chúng ta nên sử dụng phần dư chuẩn hóa (thuật ngữ thống kê là standardised residuals). Phần dư chuẩn hóa (kí hiệu ri) được định nghĩa như sau: lấy phần dư ei chia cho độ lệch chuẩn của mô hình:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»r«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mfrac»«msub»«mi»e«/mi»«mi»i«/mi»«/msub»«mrow»«mi»M«/mi»«mi»S«/mi»«mi»E«/mi»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»16«/mn»«mo»]«/mo»«/math»
Với cách hoán chuyển này, ri sẽ có giá trị trung bình là 0 và phương sai bằng 1. Chúng ta có thể sử dụng ri để kiểm tra các giả định của mô hình hồi qui tuyến tính.

(Còn tiếp)

Chú thích kĩ thuật:
Các mã R sau đây đã được sử dụng cho phân tích vừa trình bày.
# Mô phỏng cho biểu đồ 1d
zn1 <- rnorm(100)
zn2 <- rnorm(100)
r = 0.80
# mô phỏng x với trung bình 5 và độ lệch chuẩn 1.5
x <- 5 + 1.5*zn1
# mô phỏng y với trung bình 10 và độ lệch chuẩn 2 và r=0.80
y <- 10 + r*2.0*zn1 + 2.0*sqrt(1-r^2)*zn2
# vẽ biểu đồ
plot(y ~ x, pch=16)
# Mô phỏng cho biểu đồ 1e
zn1 <- rnorm(100)
zn2 <- rnorm(100)
r = -0.80
# mô phỏng x với trung bình 5 và độ lệch chuẩn 1.5
x <- 5 + 1.5*zn1
# mô phỏng y với trung bình 10 và độ lệch chuẩn 2 và r=0.80
y <- 10 + r*2.0*zn1 + 2.0*sqrt(1-r^2)*zn2
# vẽ biểu đồ
plot(y ~ x, pch=16)
# Mô phỏng cho biểu đồ 1f
zn1 <- rnorm(100)
zn2 <- rnorm(100)
r = 0.001
# mô phỏng x với trung bình 5 và độ lệch chuẩn 1.5
x <- 5 + 1.5*zn1
# mô phỏng y với trung bình 10 và độ lệch chuẩn 2 và r=0.001
y <- 10 + r*2.0*zn1 + 2.0*sqrt(1-r^2)*zn2
# vẽ biểu đồ
plot(y ~ x, pch=16)
# nhập số liệu trọng lượng và vòng eo
weight <- c(51,66,47,54,64,75,54,52,53,52,48,46,63,40,90)
waist <- c(71,89,64,74,87,93,66,74,75,72,70,66,81,57,94)
# trung bình
mean(weight)
mean(waist)
# độ lệch chuẩn
sd(weight)
sd(waist)
# hiệp biến và r
cov(weight, waist)
cov(weight, waist) / (sd(weight)*sd(waist))
# hay sử dụng hàm cor trong R
cor(weight, waist)
# vẽ biểu đồ hồi qui tuyến tính
model <- lm(waist ~ weight)
plot(waist ~ weight, pch=16, xlab="Weight", ylab="Waist circumference")
abline(model)
par(mfrow=c(2,2))
plot(model)
predicted <- 29.9582+0.7996*weight
residuals <- waist-predicted
plot(residuals~weight, pch=16)
height <- c(169,153,153,166,165,176,154,151,149,152,152,147,167,150,165)
hip <- c(87,98,85,84,100,98,90,94,85,88,92,88,93,67,106)