Ước lượng nhị thức hồi quy Binary Logistic trong SPSS, đây là một phương pháp hồi quy thông dụng, được dùng rộng rãi trong các ngành dịch tễ, y tế, kinh tế, tài chính, xã hội, quản trị, nông nghiệp …Với nhiều ưu điểm là dự đoán được xác suất khi yếu tố đầu vào xảy ra.
Hồi quy Binary Logistic
Ước lượng nhị thức là gì ?
Hồi quy logistic nhị thức (thường được gọi đơn giản là hồi quy logistic), dự đoán xác suất một quan sát rơi vào một trong hai loại của biến phụ thuộc phân đôi dựa trên một hoặc nhiều biến độc lập có thể liên tục hoặc phân loại. Mặt khác, nếu biến phụ thuộc của bạn là số đếm, hãy xem hướng dẫn hồi quy Poisson của chúng tôi . Ngoài ra, nếu bạn có nhiều hơn hai loại biến phụ thuộc, hãy xem hướng dẫn hồi quy logistic đa thức của chúng tôi .
Ví dụ đơn giản áp dụng hồi quy nhị thức
Ví dụ: bạn có thể sử dụng hồi quy logistic nhị thức để hiểu liệu có thể dự đoán thành tích kỳ thi dựa trên thời gian ôn tập, mức độ lo lắng của bài kiểm tra và sự tham gia của bài giảng hay không (ví dụ: trong đó biến phụ thuộc là “thành tích thi”, được đo trên thang phân đôi – “đạt” hoặc “fail” – và bạn có ba biến độc lập: “thời gian ôn tập”, “lo lắng khi kiểm tra” và “tham dự bài giảng”). Ngoài ra, bạn có thể sử dụng hồi quy logistic nhị thức để biết liệu việc sử dụng ma túy có thể được dự đoán dựa trên tiền án hình sự trước đây, việc sử dụng ma túy giữa bạn bè, thu nhập, tuổi và giới tính (tức là, trong đó biến phụ thuộc là “sử dụng ma túy”, được đo trên thang phân đôi – “có” hoặc “không” – và bạn có năm biến số độc lập: “tiền án hình sự”, “
Hướng dẫn “bắt đầu nhanh” này chỉ cho bạn cách thực hiện hồi quy logistic nhị thức bằng cách sử dụng phần mềm SPSS, cũng như diễn giải và báo cáo kết quả từ thử nghiệm này. Tuy nhiên, trước khi chúng tôi giới thiệu cho bạn quy trình này, bạn cần hiểu các giả định khác nhau mà dữ liệu của bạn phải đáp ứng để hồi quy logistic nhị thức cung cấp cho bạn kết quả hợp lệ. Chúng tôi thảo luận về những giả định này tiếp theo.
Các giả định của hồi quy binary logistic
Khi bạn chọn phân tích dữ liệu của mình bằng hồi quy logistic nhị thức, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu bạn muốn phân tích thực sự có thể được phân tích bằng cách sử dụng hồi quy logistic nhị thức. Bạn cần làm điều này vì chỉ thích hợp sử dụng hồi quy logistic nhị thức nếu dữ liệu của bạn “vượt qua” bảy giả định cần thiết cho hồi quy logistic nhị thức để cung cấp cho bạn một kết quả hợp lệ. Trên thực tế, việc kiểm tra bảy giả định này chỉ làm tăng thêm một chút thời gian cho phân tích của bạn, yêu cầu bạn nhấp thêm một vài nút trong Thống kê SPSS khi thực hiện phân tích, cũng như suy nghĩ thêm một chút về dữ liệu của bạn, nhưng nó là không phải là một nhiệm vụ khó khăn.
Trước khi chúng tôi giới thiệu cho bạn một số giả định này, đừng ngạc nhiên nếu khi phân tích dữ liệu của riêng bạn bằng phần mềm SPSS, một hoặc nhiều giả định này bị vi phạm (tức là không được đáp ứng). Điều này không có gì lạ khi làm việc với dữ liệu trong thế giới thực hơn là các ví dụ trong sách giáo khoa, thường chỉ cho bạn thấy cách thực hiện hồi quy logistic nhị thức khi mọi thứ diễn ra tốt đẹp! Tuy nhiên, đừng lo lắng. Ngay cả khi dữ liệu của bạn không đạt được các giả định nhất định, thường có một giải pháp để khắc phục điều này. Đầu tiên, chúng ta hãy xem xét một số giả định sau:
Biến phụ thuộc là nhị phân
Giả định số 1: Biến phụ thuộc của bạn nên được đo lường trên thang đo phân đôi . Ví dụ về các biến phân đôi bao gồm giới tính (hai nhóm: “nam” và “nữ”), sự hiện diện của bệnh tim (hai nhóm: “có” và “không”), kiểu tính cách (hai nhóm: “hướng nội” hoặc “hướng ngoại”) , thành phần cơ thể (hai nhóm: “béo phì” hoặc “không béo phì”), v.v. Tuy nhiên, nếu biến phụ thuộc của bạn không được đo lường trên thang đo phân đôi mà là thang đo liên tục , bạn sẽ cần thực hiện hồi quy bội , trong khi nếu biến phụ thuộc của bạn được đo lường trên thang đo thứ tự.
Phải có biến độc lập
Giả định số 2: Bạn có một hoặc nhiều biến độc lập , có thể là liên tục (tức là biến khoảng hoặc tỷ lệ ) hoặc phân loại (tức là biến thứ tự hoặc danh nghĩa ). Ví dụ về các biến liên tục bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100), cân nặng (đo bằng kg), v.v. Ví dụ về biến thứ tựbao gồm các mục Likert (ví dụ: thang điểm 7 từ “rất đồng ý” đến “hoàn toàn không đồng ý”), trong số các cách xếp hạng danh mục khác (ví dụ: thang điểm 3 giải thích mức độ mà khách hàng thích một sản phẩm, từ ” Không nhiều lắm “thành” Có, rất nhiều “). Ví dụ về các biến danh nghĩa bao gồm giới tính (ví dụ: 2 nhóm: nam và nữ), dân tộc (ví dụ: 3 nhóm: Da trắng, Mỹ gốc Phi và Tây Ban Nha), nghề nghiệp (ví dụ: 5 nhóm: bác sĩ phẫu thuật, bác sĩ, y tá, nha sĩ, nhà trị liệu), và kể từ đó trở đi. Bạn có thể tìm hiểu thêm về các biến trong bài viết của chúng tôi: Các loại biến .
Quan sát phải độc lập
Giả định số 3: Bạn nên có sự độc lập của các quan sát và biến phụ thuộc phải có các danh mục loại trừ lẫn nhau và đầy đủ .
Quan hệ tuyến tính
Giả thiết số 4: Cần có mối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép biến đổi logit của biến phụ thuộc . Trong hướng dẫn hồi quy logistic nhị thức nâng cao của chúng tôi, chúng tôi chỉ cho bạn cách: (a) sử dụng quy trình Box-Tidwell (1962) để kiểm tra độ tuyến tính; và (b) diễn giải kết quả Thống kê SPSS từ thử nghiệm này và báo cáo kết quả.
Bạn có thể kiểm tra giả định số 4 bằng cách sử dụng phần mềm SPSS. Các giả định # 1, # 2 và # 3 nên được kiểm tra trước, trước khi chuyển sang giả định # 4. Chúng tôi khuyên bạn nên thử nghiệm các giả định này theo thứ tự này vì nó đại diện cho một thứ tự mà nếu vi phạm giả định là không thể sửa được, bạn sẽ không thể sử dụng hồi quy logistic nhị thức nữa (mặc dù bạn có thể chạy một thử nghiệm thống kê khác trên dữ liệu thay thế).
Chỉ cần nhớ rằng nếu bạn không chạy thử nghiệm thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy hồi quy logistic nhị thức có thể không hợp lệ. Đây là lý do tại sao chúng tôi dành một số phần của hướng dẫn hồi quy logistic nhị thức nâng cao của chúng tôi để giúp bạn làm đúng điều này. Bạn có thể tìm hiểu về toàn bộ nội dung nâng cao của chúng tôi trên Tính năng của chúng tôi :hoặc cụ thể hơn, tìm hiểu cách chúng tôi trợ giúp kiểm tra các giả định trên trang Tính năng: Giả định của chúng tôi .
Hướng dẫn hồi quy logit trên SPSS
Kích hoạt chương trình
Để kích hoạt chương trình hồi quy binary logistic chúng ta thực hiện theo đường dẫn sau:
Analyze > Regression > Binary Logistic…
Và ta chọn như hình sau:
Dependent: Ta cho biến phụ thuộc vào
Covariates: Cho tất cả biến độc lập vào.
Trong tab Option ta cấu hình như hình trên.
Luận giải output hồi quy
Phương sai giải thích
Để hiểu mô hình có thể giải thích được bao nhiêu biến thiên trong biến phụ thuộc (tương đương với R 2 trong hồi quy bội), bạn có thể tham khảo bảng dưới đây, ” Tóm tắt mô hình “:
Để hiểu mô hình có thể giải thích được bao nhiêu biến thiên trong biến phụ thuộc (tương đương với R 2 trong hồi quy bội), bạn có thể tham khảo bảng dưới đây, ” Tóm tắt mô hình “:
Bảng này chứa các giá trị Cox & Snell R Square và Nagelkerke R Square , cả hai đều là phương pháp tính toán biến thể được giải thích. Những giá trị này đôi khi được gọi là giá trị R 2 giả (và sẽ có giá trị thấp hơn trong hồi quy bội). Tuy nhiên, chúng được giải thích theo cách tương tự, nhưng thận trọng hơn. Do đó, sự thay đổi được giải thích trong biến phụ thuộc dựa trên mô hình của chúng tôi nằm trong khoảng từ 8,0% đến 12,1%, tùy thuộc vào việc bạn tham chiếu phương pháp Cox & Snell R 2 hay Nagelkerke R 2 tương ứng. Nagelkerke R 2 là bản sửa đổi của Cox & Snell R 2, giá trị thứ hai không thể đạt được giá trị 1. Vì lý do này, tốt hơn nên báo cáo giá trị Nagelkerke R 2 .
Bảng này chứa các giá trị Cox & Snell R Square và Nagelkerke R Square , cả hai đều là phương pháp tính toán biến thể được giải thích. Những giá trị này đôi khi được gọi là giá trị R 2 giả (và sẽ có giá trị thấp hơn trong hồi quy bội). Tuy nhiên, chúng được giải thích theo cách tương tự, nhưng thận trọng hơn. Do đó, sự thay đổi được giải thích trong biến phụ thuộc dựa trên mô hình của chúng tôi nằm trong khoảng từ 24,0% đến 33,0%, tùy thuộc vào việc bạn tham chiếu phương pháp Cox & Snell R 2 hay Nagelkerke R 2 tương ứng. Nagelkerke R 2 là bản sửa đổi của Cox & Snell R 2, giá trị thứ hai không thể đạt được giá trị 1. Vì lý do này, tốt hơn nên báo cáo giá trị Nagelkerke R 2 .
Phân tích dự đoán
Hồi quy logistic nhị thức ước tính xác suất xảy ra một sự kiện (trong trường hợp này là mắc bệnh tim). Nếu xác suất ước tính của sự kiện xảy ra lớn hơn hoặc bằng 0,5 (tốt hơn cơ hội chẵn), SPSS Statistics phân loại sự kiện là đã xảy ra (ví dụ: đang mắc bệnh tim). Nếu xác suất nhỏ hơn 0,5, Thống kê SPSS phân loại sự kiện là không xảy ra (ví dụ: không có bệnh tim). Rất phổ biến khi sử dụng hồi quy logistic nhị thức để dự đoán liệu các trường hợp có thể được phân loại chính xác (tức là được dự đoán) từ các biến độc lập hay không. Do đó, cần phải có một phương pháp để đánh giá hiệu quả của phân loại dự đoán so với phân loại thực tế. Có nhiều phương pháp để đánh giá điều này với mức độ hữu ích của chúng thường phụ thuộc vào bản chất của nghiên cứu được thực hiện. Tuy nhiên, Bảng phân loại “, như hình dưới đây:
Đầu tiên, hãy chú ý rằng bảng có một chỉ số con nói rằng, “Giá trị cắt là .500”. Điều này có nghĩa là nếu xác suất của một trường hợp được xếp vào danh mục “có” lớn hơn .500, thì trường hợp cụ thể đó được xếp vào danh mục “có”. Nếu không, trường hợp được xếp vào loại “không” (như đã đề cập trước đây). Mặc dù bảng phân loại có vẻ rất đơn giản, nhưng nó thực sự cung cấp rất nhiều thông tin quan trọng về kết quả hồi quy logistic nhị thức của bạn, bao gồm:
- A. Tỷ lệ phần trăm độ chính xác trong phân loại (PAC) , phản ánh tỷ lệ phần trăm các trường hợp có thể được phân loại chính xác là bệnh tim “không” với các biến độc lập được thêm vào (không chỉ là mô hình tổng thể).
- B. Độ nhạy , là tỷ lệ phần trăm các trường hợp có đặc điểm quan sát được (ví dụ: “có” đối với bệnh tim) được mô hình dự đoán chính xác (tức là dương tính thực sự).
- C. Độ đặc hiệu , là tỷ lệ phần trăm các trường hợp không có đặc điểm quan sát được (ví dụ: “không” đối với bệnh tim) và cũng được dự đoán chính xác là không có đặc điểm quan sát được (tức là âm tính thực sự).
- D. Giá trị dự đoán dương , là tỷ lệ phần trăm các trường hợp dự đoán đúng “có” đặc điểm quan sát được so với tổng số trường hợp dự đoán có đặc điểm đó.
- E. Giá trị dự đoán âm , là tỷ lệ phần trăm các trường hợp dự đoán đúng “không có” đặc trưng quan sát được so với tổng số trường hợp được dự đoán là không có đặc trưng đó.
Kiểm định sự phù hợp của mô hình
Hosmer and Lemeshow Test
Step Chi-square df Sig.
1 12.763 8 .120
- H0: Mô hình phù hợp với thị trường
- H1: Mô hình không phù hợp với thị trường
Ta có P-value > 0.05 => Các biến trong mô hình phù hợp với nghiên cứu.
Kết quả hồi quy
Ta chú ý vào 2 cột:
- B: Là kết quả hồi quy ( Ta để diễn giải kết quả hồi quy, thì chúng ta có nhiều phương pháp, tuỳ thuộc vào kết quả output đầu ra)
- Sig: Ý nghĩa thống kê ( Nếu Sig < 0.05 = > Biến có tác động ( Có ý nghĩa thống kê)
Hồi quy binary logistic
Nếu quý doanh nghiệp hay nghiên cứu viên gặp khó khăn trong việc ứng dụng mô hình ước lượng nhị thức hồi quy logistic đừng ngần ngại hãy liên hệ ngay với chúng tôi, để được tư vấn và hỗ trợ kịp thời nhất.
Pingback: [ĐẾM] Hồi quy POISSON Biến giới hạn SPSS - Phân tích kinh doanh chuyên nghiệp