Thứ Bảy, 25 tháng 6, 2011

Phân tích hồi qui tuyến tính đơn biến


Phân tích hồi qui tuyến tính đơn biến thực chất là một khai triển từ mô hình phân tích tương quan (correlation analysis) mà tôi đã giải thích trong phần trước. Phân tích tương quan cung cấp cho chúng ta hệ số tương quan (coefficient of correlation), phản ảnh mức độ liên hệ hay tương quan giữa hai biến. Phân tích hồi qui tuyến tính cung cấp cho chúng ta một mô hình để tiên lượng một biến số lâm sàng từ một yếu tố khác. Vì là “mô hình” (model) cho nên phải có tham số (parameter). Do đó, trong phân tích hồi qui tuyến tính, chúng ta còn phải ước tính các tham số của mô hình tiên lượng.
Mô hình hồi qui tuyến tính có lẽ là một trong những phương pháp phân tích thống kê phổ biến nhất, được áp dụng nhiều nhất (và cũng bị lạm dụng nhiều nhất) trong nghiên cứu y học. Mô hình này có một lịch sử khá lâu đời. Năm 1885, nhà khoa học gốc Anh, Francis Galton (một trong những nhà khoa học tiên phong trong di truyền học) giới thiệu khái niệm "regression" (hồi qui) trong một nghiên cứu mà trong đó ông chứng minh rằng chiều cao của những người con không có xu hướng tương quan với chiều cao của cha hay mẹ, mà có xu hướng tương quan với chiều cao trung bình của cha và mẹ. Ông gọi xu hướng này là hồi qui. Nhưng thật ra, Galton không phải là người đầu tiên phát triển, nhưng là người đầu tiên ứng dụng, mô hình hồi qui tuyến tính. Nhà toán học người Pháp thuộc loại hạng “huyền thoại” tên là Adrien Marie Legendre mới là người đầu tiên phát triển và công bố công trình nghiên cứu về hồi qui tuyến tính vào năm 1805 (nhưng lúc đó ông không dùng danh từ "regression"). Nhưng người có ý tưởng nguyên thủy về hồi qui tuyến tính là Carl Friedrich Gauss (một nhà toán học thuộc vào hạng huyền thoại khác), người từng đề cập đến khái niệm hồi qui vào đầu thế kỉ 19.
1. Tóm lược lí thuyết
Mô hình hồi qui tuyến tính (từ nay sẽ viết tắt là HQTT) phát biểu rằng: Gọi là đo lường của đối tượng i (i = 1, 2, 3, …, n) của một biến phụ thuộc, và là đo lường của một biến độc lập cũng của đối tượng i, mối liên hệ tuyến tính giữa hai biến có thể mô tả bằng phương trình với hai thông số ab như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»§#945;«/mi»«mo»+«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»1«/mn»«mo»]«/mo»«/math»
Trong đó, ab là hai tham số của mô hình hồi qui tuyến tính cần ước tính từ số liệu quan sát được, và «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» là phần dư, tức phần không thể tiên lượng bằng đo lường của biến số độc lập. Mô hình trên chỉ hợp lí khi các giả định sau đây đúng:
(i) Giá trị của x không chịu ảnh hưởng sai số đo lường (random error);
(ii) «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» tuân theo luật phân phối chuẩn với trung bình 0 và phương sai;
(iii) «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» không có tương quan gì với x; và
(iv) các giá trị nối tiếp của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» (chẳng hạn như «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»§#949;«/mi»«mn»1«/mn»«/msub»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«msub»«mi»§#949;«/mi»«mn»2«/mn»«/msub»«/math») độc lập với nhau.
Với các giả định trên, và bởi vì hai tham số «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» là bất biến, cho nên, cho một đo lường của x chúng ta có thể ước tính trị số kì vọng (hay nói rõ hơn là số trung bình) của y như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«mi»E«/mi»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«mo»=«/mo»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»2«/mn»«mo»]«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»V«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»p«/mi»«mi»h«/mi»«mi»§#432;«/mi»«mi»§#417;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»a«/mi»«mi»i«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#7911;«/mi»«mi»a«/mi»«mo»§nbsp;«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»:«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»§#945;«/mi»«mo»+«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«/mtd»«/mtr»«mtr»«mtd»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»§#945;«/mi»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«/mtd»«/mtr»«mtr»«mtd»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«mo»)«/mo»«/mtd»«/mtr»«mtr»«mtd»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»=«/mo»«mo»§nbsp;«/mo»«msup»«mi»§#963;«/mi»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»3«/mn»«mo»]«/mo»«/mtd»«/mtr»«/mtable»«/math»
Vấn đề đặt ra là cho một loạt số liệu (x1,y1) , (x2,y2), . . . , (xn,yn), hai tham số «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» nên ước tính như thế nào. Phương pháp Phương pháp bình phương nhỏ nhất (còn gọi là least squares method) là phương pháp tốt nhất để ước tính hai tham số đó. Theo phương pháp này, chúng ta cần tìm hai ước số a  b (tương đương với «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» ) sao cho tổng số bình phương giữa giá trị quan sát (yi) và giá trị tiên đoán («math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math») là thấp nhất, nói cách khác, chúng ta tối thiểu hóa:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»Q«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced close=¨]¨ open=¨[¨»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mfenced»«mrow»«mi»a«/mi»«mo»+«/mo»«mi»b«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/mrow»«/mfenced»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
Hóa ra, muốn tối thiểu hóa Q chúng ta chỉ cần giải hệ phương trình đơn giản sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»n«/mi»«mi»a«/mi»«mo»+«/mo»«mi»b«/mi»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/mtd»«/mtr»«mtr»«mtd»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»a«/mi»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mi»b«/mi»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msubsup»«mi»x«/mi»«mi»i«/mi»«mn»2«/mn»«/msubsup»«/mtd»«/mtr»«mtr»«mtd»«mi»V«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»a«/mi»«mi»u«/mi»«mo»§nbsp;«/mo»«mi»k«/mi»«mi»h«/mi»«mi»i«/mi»«mo»§nbsp;«/mo»«mi»g«/mi»«mi»i«/mi»«mi»§#7843;«/mi»«mi»i«/mi»«mo»§nbsp;«/mo»«mi»h«/mi»«mi»§#7879;«/mi»«mo»§nbsp;«/mo»«mi»p«/mi»«mi»h«/mi»«mi»§#432;«/mi»«mi»§#417;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»r«/mi»«mi»§#236;«/mi»«mi»n«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mi»n«/mi»«mi»§#224;«/mi»«mi»y«/mi»«mo»,«/mo»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»h«/mi»«mi»§#250;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»a«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»§#7869;«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#243;«/mi»«mo»§nbsp;«/mo»«mi»§#432;«/mi»«mi»§#7899;«/mi»«mi»c«/mi»«mo»§nbsp;«/mo»«mi»s«/mi»«mi»§#7889;«/mi»«mo»:«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»b«/mi»«mo»=«/mo»«mfrac»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mfenced»«mrow»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«/mrow»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mi»c«/mi»«mi»o«/mi»«mi»v«/mi»«mo»(«/mo»«mi»x«/mi»«mo»,«/mo»«mi»y«/mi»«mo»)«/mo»«/mrow»«mrow»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»x«/mi»«mo»)«/mo»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»4«/mn»«mo»]«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»v«/mi»«mi»§#224;«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mi»a«/mi»«mo»=«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mo»-«/mo»«mo»§nbsp;«/mo»«mi»b«/mi»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»5«/mn»«mo»]«/mo»«/mtd»«/mtr»«/mtable»«/math»
Chú ý rằng, trong các phương trình trên, «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«/math» là số trung bình của biến số x  y. Xin nhắc lại rằng chúng ta không biết được giá trị của a  b, mà chỉ có thể ước tính chúng, và ước số của hai tham số này chính là «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»§#946;«/mi»«/math» . Thuật ngữ thống kê gọi a  intercept, và b  gradient hay slope. Như chúng ta thấy qua phương trình trên, intercept chính là giá trị của y khi x = 0.
Công thức [4] cho thấy ước số b chỉ đơn giản bằng hiệp biến của x  y chia cho phương sai của y. Tuy các công thức này mới nhìn qua có vẻ rắc rối, nhưng trong thực tế thì rất đơn giản, bạn đọc chỉ cần một máy tính cầm tay (calculator) hay tốt hơn nữa phần mềm Excel cũng có thể tính rất dễ dàng.
Ví dụ 1 (tiếp tục) – cân nặng và vòng eo: Trong phần trước (phân tích tương quan), chúng ta có số liệu về cân nặng và vòng eo của 15 đối tượng như sau (in lại để dễ theo dõi):
Bảng 1. Cân nặng và vòng eo của 15 đối tượng người Việt
Trọng lượng (weight; kg)
Vòng eo (waist; cm)
51.0
71.0
66.0
89.0
47.0
64.0
54.0
74.0
64.0
87.0
75.0
93.0
54.0
66.0
52.0
74.0
53.0
75.0
52.0
72.0
48.0
70.0
46.0
66.0
63.0
81.0
40.0
57.0
90.0
94.0

Gọi cân nặng là x và vòng eo là y. Với cách gọi này, chúng ta có ý muốn sử dụng cân nặng của để tiên đoán vòng eo của một đối tượng. Xin nhắc lại, trong bài trước, chúng ta đã có những kết quả tính toán sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«mi»C«/mi»«mi»§#226;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«mi»n«/mi»«mi»§#7863;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»r«/mi»«mi»u«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»§#236;«/mi»«mi»n«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mo»=«/mo»«mn»57«/mn»«mo».«/mo»«mn»0«/mn»«mo»§nbsp;«/mo»«mi»k«/mi»«mi»g«/mi»«mo»,«/mo»«mo»§nbsp;«/mo»«mi»§#273;«/mi»«mi»§#7897;«/mi»«mo»§nbsp;«/mo»«mi»l«/mi»«mi»§#7879;«/mi»«mi»c«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»h«/mi»«mi»u«/mi»«mi»§#7849;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«msub»«mi»s«/mi»«mi»x«/mi»«/msub»«mo»=«/mo»«mn»12«/mn»«mo».«/mo»«mn»8«/mn»«mo»§nbsp;«/mo»«mi»k«/mi»«mi»g«/mi»«/mtd»«/mtr»«mtr»«mtd»«mi»V«/mi»«mi»§#242;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»e«/mi»«mi»o«/mi»«mo»§nbsp;«/mo»«mi»t«/mi»«mi»r«/mi»«mi»u«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»§#236;«/mi»«mi»n«/mi»«mi»h«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»=«/mo»«mn»75«/mn»«mo».«/mo»«mn»5«/mn»«mo»,«/mo»«mo»§nbsp;«/mo»«mi»§#273;«/mi»«mi»§#7897;«/mi»«mo»§nbsp;«/mo»«mi»l«/mi»«mi»§#7879;«/mi»«mi»c«/mi»«mi»h«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»h«/mi»«mi»u«/mi»«mi»§#7849;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«msub»«mi»s«/mi»«mi»y«/mi»«/msub»«mo»=«/mo»«mn»11«/mn»«mo».«/mo»«mn»1«/mn»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»m«/mi»«mo».«/mo»«/mtd»«/mtr»«mtr»«mtd»«mi»H«/mi»«mi»i«/mi»«mi»§#7879;«/mi»«mi»p«/mi»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»i«/mi»«mi»§#7871;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#7911;«/mi»«mi»a«/mi»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»§#226;«/mi»«mi»n«/mi»«mo»§nbsp;«/mo»«mi»n«/mi»«mi»§#7863;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#224;«/mi»«mo»§nbsp;«/mo»«mi»v«/mi»«mi»§#242;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mi»e«/mi»«mi»o«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»o«/mi»«mi»v«/mi»«mo»(«/mo»«mi»x«/mi»«mo»,«/mo»«mi»y«/mi»«mo»)«/mo»«mo»=«/mo»«mn»130«/mn»«mo».«/mo»«mn»8«/mn»«/mtd»«/mtr»«/mtable»«/math»
Với n = 15 đối tượng, và dựa vào công thức [4] và [5] chúng ta có thể ước tính tham số b  a như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mtable columnalign=¨left¨ rowspacing=¨0¨»«mtr»«mtd»«mi»b«/mi»«mo»=«/mo»«mfrac»«mrow»«mi»c«/mi»«mi»o«/mi»«mi»v«/mi»«mo»(«/mo»«mi»x«/mi»«mo»,«/mo»«mi»y«/mi»«mo»)«/mo»«/mrow»«mrow»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»x«/mi»«mo»)«/mo»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mn»130«/mn»«mo».«/mo»«mn»8«/mn»«/mrow»«mrow»«mo»(«/mo»«mn»12«/mn»«mo».«/mo»«mn»8«/mn»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»80«/mn»«/mtd»«/mtr»«mtr»«mtd»«mi»v«/mi»«mi»§#224;«/mi»«mo»:«/mo»«mo»§nbsp;«/mo»«mi»a«/mi»«mo»=«/mo»«mn»75«/mn»«mo».«/mo»«mn»5«/mn»«mo»-«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»57«/mn»«mo»=«/mo»«mn»30«/mn»«/mtd»«/mtr»«/mtable»«/math»
Đến đây thì chúng ta đã có một công thức để tiên đoán vòng eo dựa vào trọng lượng của một đối tượng qua phương trình sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/math»
Chú ý rằng trong phương trình trên, biến số y có dấu mũ trên để nhắc nhở rằng đây là giá trị tiên đoán, để phân biệt với giá trị đo lường (thực tế) là yi.
Ý nghĩa của phương trình này là gì? Ở đây, giá trị a = 30 không có ý nghĩa thực tế gì đáng kể, nhưng b = 0.80 có nghĩa là mỗi kg cân nặng tương quan với 0.8 cm vòng eo. Chẳng hạn như nếu chúng ta hỏi biết một bệnh nhân cân nặng là 60 kg, thì qua phương trình trên, có thể tiên đoán rằng vòng eo của bệnh nhân là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»60«/mn»«mo»=«/mo»«mn»78«/mn»«mo»§nbsp;«/mo»«mi»c«/mi»«mi»m«/mi»«/math»
nhưng nếu một bệnh nhân khác với cân nặng 62 kg, thì chúng ta có thể tiên đoán vòng eo của bệnh nhân là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«mo»=«/mo»«mn»30«/mn»«mo»+«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»61«/mn»«mo»=«/mo»«mn»79«/mn»«mo».«/mo»«mn»6«/mn»«mi»c«/mi»«mi»m«/mi»«/math»
Bây giờ, chúng ta thử xem phương trình trên tiên đoán vòng eo chính xác ra sao, bằng cách sử dụng phương trình trên để ước tính vòng eo cho từng đối tượng trong Bảng 1 như sau:
Bảng 2. Tiên đoán vòng eo dựa vào cân nặng cho 15 đối tượng

Số ID
(i)
Trọng lượng (xi)
Vòng eo thực tế
(yi)
Vòng eo tiên đoán qua mô hình
(«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«/math»)
Khác biệt giữa giá trị thực tế và tiên đoán
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»
1
51.0
71.0
70.8
0.2
2
66.0
89.0
82.8
6.2
3
47.0
64.0
67.6
-3.6
4
54.0
74.0
73.2
0.8
5
64.0
87.0
81.2
5.8
6
75.0
93.0
90.0
3.0
7
54.0
66.0
73.2
-7.2
8
52.0
74.0
71.6
2.4
9
53.0
75.0
72.4
2.6
10
52.0
72.0
71.6
0.4
11
48.0
70.0
68.4
1.6
12
46.0
66.0
66.8
-0.8
13
63.0
81.0
80.4
0.6
14
40.0
57.0
62.0
-5.0
15
90.0
94.0
102.0
-8.0
Cột số 4 cho thấy giá trị vòng eo được tiên đoán qua phương trình «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»+«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«/math», và cột số 5 cung cấp cho chúng ta độ chính xác của tiên đoán (lấy vòng eo đo lường trừ cho vòng eo tiên đoán). Như có thể thấy qua bảng này, phương trình tiên đoán khá chính xác vòng eo. Chẳng hạn như với đối tượng 1, vòng eo thực tế là 71 cm, nhưng mô hình tiên đoán là 70.8 cm. Điều này có nghĩa gì? Nó có nghĩa là giá trị tiên đoán 70.8 cm chính là vòng eo trung bình của tất cả những người với cân nặng 51 kg.
Tuy nhiên nhìn qua bảng trên, chúng ta cũng thấy ở một số đối tượng, phương trình tiên đoán không mấy tốt. Chẳng hạn như đối tượng 2, phương trình tiên đoán thấp hơn thực tế đến 6.2 cm, nhưng với đối tượng 15, phương trình tiên đoán cao hơn thực tế đến 8 cm! Chúng ta sẽ quay lại để thẩm định chất lượng và độ chính xác của mô hình này trong một phần tiếp theo.
Ngoài ra, cách tốt hơn là vẽ biểu đồ so sánh giữa giá trị đo lường vòng eo và giá trị tiên đoán như Biểu đồ 1 dưới đây thể hiện. Biểu đồ này cho thấy, mô hình trên tiên đoán khá chính xác vòng eo ở những người có trọng lượng dưới 60 kg, nhưng ở những người có trọng lượng cao hơn ngưỡng này, thì giá trị tiên đoán không mấy chính xác.

2. Kiểm định giả thuyết về a  b
Quay lại với mô hình «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»§#945;«/mi»«mo»+«/mo»«mi»§#946;«/mi»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math» , chúng ta có thể rút ra vài nhận xét như sau: Nếu«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«mo»=«/mo»«mn»0«/mn»«/math», thì phương trình đơn giản thành «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mi»§#945;«/mi»«mo»+«/mo»«msub»«mi»§#949;«/mi»«mi»i«/mi»«/msub»«/math», tức là không có mới tương quan nào giữa x  y; nhưng nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«mo»§#8800;«/mo»«mn»0«/mn»«/math» (tức có thể âm hay dương) thì mối liên hệ giữa x  y hiện hữu. Do đó, kiểm định mô hình hồi qui tuyến tính tập trung vào kiểm định giá thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«mo»=«/mo»«mn»0«/mn»«/math». Để kiểm định giả thuyết này, chúng ta cần tính toán phương sai của b (vì nên nhớ rằng b là ước số của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math»).
Chúng ta biết rằng «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math» là số trung bình của vòng eo, và phương sai của vòng eo, trước khi biết cân nặng, có thể ước tính như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mfrac»«mn»1«/mn»«mrow»«mi»n«/mi»«mo»-«/mo»«mn»1«/mn»«/mrow»«/mfrac»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
Công thức trên còn được gọi là phương sai vô điều kiện, Nhưng trong mô hình [1], như vừa đề cập trên, «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»=«/mo»«mn»30«/mn»«mo»+«/mo»«mn»0«/mn»«mo».«/mo»«mn»8«/mn»«mo»*«/mo»«mn»60«/mn»«/math» chính là vòng eo trung bình với điều kiện xi. Chính vì thế mà phương sai của y (kí hiệu s2) với điều kiện biết cân nặng được ước tính bằng cách thay thế «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»§nbsp;«/mo»«mi»b«/mi»«mi»§#7857;«/mi»«mi»n«/mi»«mi»g«/mi»«mo»§nbsp;«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«mfrac»«mn»1«/mn»«mrow»«mi»n«/mi»«mo»-«/mo»«mn»2«/mn»«/mrow»«/mfrac»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»6«/mn»«mo»]«/mo»«/math»
(Chú ý rằng mẫu số là n – 2, chứ không phải n – 1, vì đây là phương sai được ước tính với 2 tham số a  b, cho nên nphải trừ cho 2).
Gọi ei là độ khác biệt giữa vòng eo thực tế và vòng eo tiên đoán:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»e«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»
Trong thuật ngữ thống kê học, ei còn được gọi là “residual”. Phương sai trong phương trình [6] có thể viết lại như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mfrac»«msubsup»«mi»e«/mi»«mi»i«/mi»«mn»2«/mn»«/msubsup»«mrow»«mi»n«/mi»«mo»-«/mo»«mn»2«/mn»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»7«/mn»«mo»]«/mo»«/math»
s2 chính là ước số của «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»§#963;«/mi»«mn»2«/mn»«/msup»«/math» trong mô hình [1]
Sau vài thao tác đại số, có thể chứng minh rằng phương sai của b  a có thể viết như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»b«/mi»«mo»)«/mo»«mo»=«/mo»«mfrac»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»8«/mn»«mo»]«/mo»«/math»
và: «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»a«/mi»«mo»)«/mo»«mo»=«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»+«/mo»«mo»§nbsp;«/mo»«mo»(«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«mo».«/mo»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»b«/mi»«mo»)«/mo»«mo»=«/mo»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mfenced»«mrow»«mfrac»«mn»1«/mn»«mi»n«/mi»«/mfrac»«mo»+«/mo»«mfrac»«msup»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mn»2«/mn»«/msup»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«/mrow»«/mfenced»«/math»
Khi n (số đối tượng tương đối lớn), b tuân theo luật phân phối chuẩn với số trung bình là «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» và phương sai như trình bày trong [8]. Do đó, kiểm định giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math»= 0 có thể dựa vào tỉ số Tb sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»T«/mi»«mi»a«/mi»«/msub»«mo»=«/mo»«mfrac»«mrow»«mi»b«/mi»«msub»«mi»s«/mi»«mi»x«/mi»«/msub»«/mrow»«mi»s«/mi»«/mfrac»«/math»
(Chú ý, sx chính là độ lệch chuẩn của x). Nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0 thì Tb tuân theo luật phân phối t với bậc tự do là n – 2.
Ngoài ra, kiểm định giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«/math» = 0 cũng có thể tính toán qua tỉ số Ta như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»T«/mi»«mi»a«/mi»«/msub»«mo»=«/mo»«mfrac»«mi»a«/mi»«mrow»«mi»s«/mi»«mo»*«/mo»«msqrt»«mrow»«mfenced»«mfrac»«mn»1«/mn»«mi»n«/mi»«/mfrac»«/mfenced»«mo»+«/mo»«mfenced»«mfrac»«msup»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«mn»2«/mn»«/msup»«msubsup»«mi»s«/mi»«mi»x«/mi»«mn»2«/mn»«/msubsup»«/mfrac»«/mfenced»«/mrow»«/msqrt»«/mrow»«/mfrac»«/math»
Nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#945;«/mi»«/math» = 0 thì t tuân theo luật phân phối t với bậc tự do là n – 2.
Ví dụ 1 (tiếp tục): Chúng ta tiếp tục sử dụng số liệu của ví dụ 1 để minh họa cho các tính toán trên. Để ước tính phương sai s2 theo công thức [6], chúng ta cần tính toán bình phương của khác biệt giữa yi và «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math» và tổng số như sau:
Bảng 3. Tính toán phương sai của y

Số ID
(i)
Trọng lượng (xi )
Vòng eo thực tế
( yi)
Vòng eo tiên đoán qua mô hình
(«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»)
Khác biệt giữa giá trị thực tế và tiên đoán
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»

«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msubsup»«mi»e«/mi»«mi»i«/mi»«mn»2«/mn»«/msubsup»«mo»=«/mo»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
1
51.0
71.0
70.8
0.2
0.04
2
66.0
89.0
82.8
6.2
38.44
3
47.0
64.0
67.6
-3.6
12.96
4
54.0
74.0
73.2
0.8
0.64
5
64.0
87.0
81.2
5.8
33.64
6
75.0
93.0
90.0
3.0
9.00
7
54.0
66.0
73.2
-7.2
51.84
8
52.0
74.0
71.6
2.4
5.76
9
53.0
75.0
72.4
2.6
6.76
10
52.0
72.0
71.6
0.4
0.16
11
48.0
70.0
68.4
1.6
2.56
12
46.0
66.0
66.8
-0.8
0.64
13
63.0
81.0
80.4
0.6
0.36
14
40.0
57.0
62.0
-5.0
25.00
15
90.0
94.0
102.0
-8.0
64.00

«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/math»= 57.0,
sx= 12.8
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math»=75.5
sy=11.1


Tổng cộng: 251.7

Bảng trên cho thấy s2= 251.7 / 13 = 19.36. Do đó, phương sai của b là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»v«/mi»«mi»a«/mi»«mi»r«/mi»«mo»(«/mo»«mi»b«/mi»«mo»)«/mo»«mo»=«/mo»«mfrac»«msup»«mi»s«/mi»«mn»2«/mn»«/msup»«mrow»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»x«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»x«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mn»19«/mn»«mo».«/mo»«mn»36«/mn»«/mrow»«mrow»«mn»12«/mn»«mo».«/mo»«msup»«mn»8«/mn»«mn»2«/mn»«/msup»«mo».«/mo»«mo»(«/mo»«mn»15«/mn»«mo»-«/mo»«mn»1«/mn»«mo»)«/mo»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»00844«/mn»«/math»
và độ lệch chuẩn của b là:«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msqrt»«mrow»«mn»0«/mn»«mo».«/mo»«mn»00844«/mn»«/mrow»«/msqrt»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»0918«/mn»«/math» . Do đó, kiểm định giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0 là:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»T«/mi»«mi»b«/mi»«/msub»«mo»=«/mo»«mfrac»«mi»b«/mi»«msqrt»«mrow»«mn»0«/mn»«mo».«/mo»«mn»00844«/mn»«/mrow»«/msqrt»«/mfrac»«mo»=«/mo»«mn»8«/mn»«mo».«/mo»«mn»69«/mn»«/math»
Nếu «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0 thì Tb dao động từ -2 đến +2, nhưng ở đây, chúng ta thấy Tb = 8.69, tức cao hơn 4 lần so với giá trị kì vọng, cho nên chúng ta có thể kết luận rằng mối liên hệ giữa vòng eo và cân nặng có ý nghĩa thống kê.
3. Phân tích phương sai
Một trong những mục đích của phân tích hồi qui tuyến tính là tìm hiểu xem biến độc lập có thể giải thích bao nhiêu phần trăm độ biến thiên của biến phụ thuộc. Trong ví dụ này, cụ thể là chúng ta muốn biết bao nhiêu phần trăm của độ biến thiên (hay khác biệt) giữa các cá nhân về vòng eo có thể giải thích bằng cân nặng. Cụm từ căn bản ở đây là “biến thiên” (thuật ngữ thống kê học là variation). Chú ý rằng mỗi cá nhân có 3 giá trị: vòng eo thực tế yi, vòng eo tiên đoán bằng cân nặng «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math» , và vòng eo trung bình của quần thể «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math». Mối liên hệ giữa ba giá trị này có thể mô tả như sau:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mo»=«/mo»«mo»(«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«mo»+«/mo»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mo»)«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»9«/mn»«mo»]«/mo»«/math»
Nói cách khác, độ khác biệt giữa vòng eo của một cá nhân và số trung bình là tổng số khác biệt của: (a) giữa giá trị tiên đoán và số trung bình («math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«/math»), và (b) giữa giá trị thực tế và giá trị tiên đoán «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»)«/mo»«/math».
Do đó, một chỉ số có thể đo lường độ biến thiên của một biến là tổng bình phương của biến đó. Nói cách khác, nếu yi là vòng eo của từng cá nhân i  «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/math» là vòng eo trung bình, thì tổng bình phương là (kí hiệu SST):
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»10«/mn»«mo»]«/mo»«/math»
Trong mô hình [1], chúng ta có là giá trị tiên đoán của yi sau khi “điều chỉnh” cho cân nặng (xi), cho nên, cùng một logic như trên, có thể nói rằng tổng biến thiên của vòng eo mà mô hình [1] có thể giải thích được là (kí hiệu SSR):
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»11«/mn»«mo»]«/mo»«/math»
Và phần còn lại, tức phần biến thiên của vòng eo không thể giải thích bằng mô hình [1] là (kí hiệu SSE):
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»E«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»12«/mn»«mo»]«/mo»«/math»
Do đó, qua mối liên hệ [9], chúng ta có thể chứng minh rằng:

SST = SSR + SSE
hay: «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«mo»)«/mo»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»+«/mo»«mo»§nbsp;«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»13«/mn»«mo»]«/mo»«/math»
Chúng ta thấy để ước tính SST, chúng ta phải “tiêu” ra một tham số (số trung bình), cho nên bậc tự do (degrees of freedom) của SST là n – 1. Do đó, số trung bình bình phương (mean squares) là MST = SST / (n – 1). Để tính SSE, chúng ta phải cần đến hai tham số (a  b), cho nên bậc tự do của SSE là n – 2; do đó, số trung bình bình phương là MSE = SSE/ (n – 2). Các chỉ số này có thể tóm lược trong một bảng phân tích phương sai (analysis of variance) như sau:
Bảng 4. Phân tích phương sai cho mô hình hồi qui tuyến tính
Nguồn biến thiên
Bậc tự do (degrees of freedom)
Tổng bình phương (sum of squares)
Trung bình bình phương (mean squares)
Hồi qui (regression)
1
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«msup»«mfenced»«mrow»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«/mrow»«/mfenced»«mn»2«/mn»«/msup»«/math»
MSR = SSR / 1
Phần dư (residual)
n – 2
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»E«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»
MSE = SSE / (n – 2)
Tổng số biến thiên
n – 1
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«mo»=«/mo»«munderover»«mo»§#8721;«/mo»«mrow»«mi»i«/mi»«mo»=«/mo»«mn»1«/mn»«/mrow»«mi»n«/mi»«/munderover»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»


Kiểm định F
Để kiểm định ý nghĩa thống kê của giả thuyết «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»§#946;«/mi»«/math» = 0, chúng ta đã làm quen với tỉ số Tb. Nhưng còn một kiểm định tương đương khác là kiểm định F, với công thức sau đây:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mi»F«/mi»«mo»=«/mo»«mfrac»«mrow»«mi»M«/mi»«mi»S«/mi»«mi»R«/mi»«/mrow»«mrow»«mi»M«/mi»«mi»S«/mi»«mi»E«/mi»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»14«/mn»«mo»]«/mo»«/math»
Thật ra, F như định nghĩa trong công thức [15] chính là bình phương của Tb.
Hệ số xác định (coefficient of determination)
Bởi vì tổng số biến thiên là SST, và trong số này, biến thiên có thể giải thích qua mô hình hồi qui tuyến tính [1] là SSR, cho nên chúng ta có thể ước tính số phần trăm mà mô hình có thể giải thích tổng biến thiên của y. Hệ số này được gọi là hệ số xác định và kí hiệu là R2:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»R«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«mfrac»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«/mrow»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»15«/mn»«mo»]«/mo»«/math»
Nhìn qua mối liên hệ [13], chúng ta dễ dàng thấy R2 có giá trị từ 0 đến 1. Nếu R2 = 0, mô hình hồi qui tuyến tính coi như vô dụng, vì không giải thích phần trăm nào biến thiên của y. Nếu R2= 1 hay gần 1, mô hình hồi qui tuyến tính có thể tiên đoán chính xác giá trị của y.
Tuy nhiên cần phải nhấn mạnh rằng một mô hình với R2 cao không có nghĩa là rằng mô hình tốt. Thật vậy, R2 có thể cao nếu b cao hay biến độc lập có range (dãy số) lớn. Ngoài ra, R2 có thể cao khi mô hình tuyến tính được áp dụng cho một mối liên hệ phi tuyến tính.
Ví dụ 1 (tiếp tục): Chúng ta tiếp tục sử dụng số liệu của ví dụ 1 để minh họa cho các tính toán trên.

Bảng 5. Chi tiết phân tích phương sai của mô hình hồi qui tuyến tính

Số ID
(i)
yi
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math»
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«mi»y«/mi»«mo»§#175;«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mo»(«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«msup»«mo»)«/mo»«mn»2«/mn»«/msup»«/math»
1
71.0
70.8
20.25
0.04
2
89.0
82.8
182.25
38.44
3
64.0
67.6
132.25
12.96
4
74.0
73.2
2.25
0.64
5
87.0
81.2
132.25
33.64
6
93.0
90.0
306.25
9.00
7
66.0
73.2
90.25
51.84
8
74.0
71.6
2.25
5.76
9
75.0
72.4
0.25
6.76
10
72.0
71.6
12.25
0.16
11
70.0
68.4
30.25
2.56
12
66.0
66.8
90.25
0.64
13
81.0
80.4
30.25
0.36
14
57.0
62.0
342.25
25.00
15
94.0
102.0
342.25
64.00
Tổng cộng:


1715.75
251.7
Qua tính toán trình bày trong bảng trên, chúng ta có SST = 1715.75, và SSE = 251.7. Do đó, SSR = SST – SSE =1715.75 – 251.7 = 1463.95. Bảng 6 sau đây tóm lược các chỉ số trên:

Bảng 6. Phân tích phương sai (ví dụ 1)
Nguồn biến thiên
Bậc tự do (degrees of freedom)
Tổng bình phương (sum of squares)
Trung bình bình phương (mean squares)
Hồi qui (regression)
1
SSR = 1463.95
1463.95
Phần dư (residual)
13
SSE = 251.7
19.37
Tổng số biến thiên
14
SST = 1715.75


Hệ số xác định bội, theo công thức [13], có thể ước tính là: «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msup»«mi»R«/mi»«mn»2«/mn»«/msup»«mo»=«/mo»«mfrac»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»R«/mi»«/mrow»«mrow»«mi»S«/mi»«mi»S«/mi»«mi»T«/mi»«/mrow»«/mfrac»«mo»=«/mo»«mfrac»«mrow»«mn»1463«/mn»«mo».«/mo»«mn»95«/mn»«/mrow»«mrow»«mn»1715«/mn»«mo».«/mo»«mn»75«/mn»«/mrow»«/mfrac»«mo»=«/mo»«mn»0«/mn»«mo».«/mo»«mn»853«/mn»«/math» . Nói cách khác, mô hình tuyến tính với cân nặng là biến độc lập có thể giải thích khoảng 85% tổng biến thiên (hay những khác biệt về) vòng eo giữa các cá nhân.
4. Phân tích phần dư và kiểm tra giả định
Như đề cập trên, phần dư (residual) là độ khác biệt giữa giá trị thực tế và giá trị tiên đoán của biếnphụ thuộc:«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»e«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»-«/mo»«msub»«mover»«mi»y«/mi»«mo»^«/mo»«/mover»«mi»i«/mi»«/msub»«/math» . Phần dư rất quan trọng cho việc thẩm định tính hợp lí và độ chính xác của mô hình tiên đoán. Xin nhắc lại rằng mô hình hồi qui tuyến tính mà chúng ta áp dụng trong Ví dụ 1 chỉ có giá trị khoa học nếu mô hình này đáp ứng những giả định sau đây:
1. Mối liên hệ giữa cân nặng và vòng eo (biến độc lập và biến phụ thuộc, hay x  y) phải là mối liên hệ tuyến tính, tức tuân thủ theo một đường thẳng;
2. Phương sai của y không thay đổi tùy theo giá trị của x; hay nói cách khác, phần dư ei không biến chuyển một cách có hệ thống với xi;
3. Biến phụ thuộc y (hay ei) tuân theo luật phân phối chuẩn; hay một cách tương đương;
4. Các giá trị của ei không liên quan nhau.
Để kiểm định những giả định trên, một số biểu đồ sau đây có thể áp dụng:
o                                Biểu đồ ei  «math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«mover»«msub»«mi»y«/mi»«mi»i«/mi»«/msub»«mo»^«/mo»«/mover»«/math» để tìm xem có các giá trị “outlier” (tức những giá trị mà mô hình không tiên đoán chính xác), và xem mô hình có vi phạm giả định 1 và 2 hay không.
o                                Biểu đồ so sánh giá trị quan sát của ei và giá trị kì vọng (dựa vào luật phân phối chuẩn) của ei để kiểm tra xem giả định 3 có đáp ứng hay không.
o                                Biểu đồ ei  x để kiểm tra xem có cần hoán chuyển x hay không.
Tuy nhiên, phương sai của ei không cố định. Do đó, các nhà nghiên cứu khuyến cáo chúng ta nên sử dụng phần dư chuẩn hóa (thuật ngữ thống kê là standardised residuals). Phần dư chuẩn hóa (kí hiệu ri) được định nghĩa như sau: lấy phần dư ei chia cho độ lệch chuẩn của mô hình:
«math xmlns=¨http://www.w3.org/1998/Math/MathML¨»«msub»«mi»r«/mi»«mi»i«/mi»«/msub»«mo»=«/mo»«mfrac»«msub»«mi»e«/mi»«mi»i«/mi»«/msub»«mrow»«mi»M«/mi»«mi»S«/mi»«mi»E«/mi»«/mrow»«/mfrac»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»§nbsp;«/mo»«mo»[«/mo»«mn»16«/mn»«mo»]«/mo»«/math»
Với cách hoán chuyển này, ri sẽ có giá trị trung bình là 0 và phương sai bằng 1. Chúng ta có thể sử dụng ri để kiểm tra các giả định của mô hình hồi qui tuyến tính.

(Còn tiếp)

Chú thích kĩ thuật:
Các mã R sau đây đã được sử dụng cho phân tích vừa trình bày.
# Mô phỏng cho biểu đồ 1d
zn1 <- rnorm(100)
zn2 <- rnorm(100)
r = 0.80
# mô phỏng x với trung bình 5 và độ lệch chuẩn 1.5
x <- 5 + 1.5*zn1
# mô phỏng y với trung bình 10 và độ lệch chuẩn 2 và r=0.80
y <- 10 + r*2.0*zn1 + 2.0*sqrt(1-r^2)*zn2
# vẽ biểu đồ
plot(y ~ x, pch=16)
# Mô phỏng cho biểu đồ 1e
zn1 <- rnorm(100)
zn2 <- rnorm(100)
r = -0.80
# mô phỏng x với trung bình 5 và độ lệch chuẩn 1.5
x <- 5 + 1.5*zn1
# mô phỏng y với trung bình 10 và độ lệch chuẩn 2 và r=0.80
y <- 10 + r*2.0*zn1 + 2.0*sqrt(1-r^2)*zn2
# vẽ biểu đồ
plot(y ~ x, pch=16)
# Mô phỏng cho biểu đồ 1f
zn1 <- rnorm(100)
zn2 <- rnorm(100)
r = 0.001
# mô phỏng x với trung bình 5 và độ lệch chuẩn 1.5
x <- 5 + 1.5*zn1
# mô phỏng y với trung bình 10 và độ lệch chuẩn 2 và r=0.001
y <- 10 + r*2.0*zn1 + 2.0*sqrt(1-r^2)*zn2
# vẽ biểu đồ
plot(y ~ x, pch=16)
# nhập số liệu trọng lượng và vòng eo
weight <- c(51,66,47,54,64,75,54,52,53,52,48,46,63,40,90)
waist <- c(71,89,64,74,87,93,66,74,75,72,70,66,81,57,94)
# trung bình
mean(weight)
mean(waist)
# độ lệch chuẩn
sd(weight)
sd(waist)
# hiệp biến và r
cov(weight, waist)
cov(weight, waist) / (sd(weight)*sd(waist))
# hay sử dụng hàm cor trong R
cor(weight, waist)
# vẽ biểu đồ hồi qui tuyến tính
model <- lm(waist ~ weight)
plot(waist ~ weight, pch=16, xlab="Weight", ylab="Waist circumference")
abline(model)
par(mfrow=c(2,2))
plot(model)
predicted <- 29.9582+0.7996*weight
residuals <- waist-predicted
plot(residuals~weight, pch=16)
height <- c(169,153,153,166,165,176,154,151,149,152,152,147,167,150,165)
hip <- c(87,98,85,84,100,98,90,94,85,88,92,88,93,67,106)

Không có nhận xét nào:

Đăng nhận xét