Hồi quy tuyến tính đa biến kiểm định sai phạm trên SPSS, đây là một trong những mô hình hồi quy cơ bản và được sử dụng nhiều nhất, áp dụng cho nhiều lĩnh vực; Chúng tôi sẽ hướng dẫn các bạn thực hiện hồi quy bội này trên phần mềm SPSS, chúng tôi chọn phần mềm này vì nó thông dụng với các bạn sinh viên, ngoài ra các bạn cũng dễ dàng thực hiện hồi quy với các phần mềm khác như R, Python, NCSS, Minitab, Eviews, hồi quy trên Stata … Nói chúng là rất nhiều phần mềm từ miễn phí đến trả phí có thể làm được: Ngay cả phần mềm thông dụng như excel cũng làm được.
Hồi quy tuyến tính đa biến
Các tên gọi của hồi quy tuyến tính
Ngoài tên gọi là hồi quy tuyến tính ra chúng ta thường gọi với những tên khác như hồi quy bội, hồi quy đa biến, hồi quy bình phương nhỏ nhất, hồi quy ols … hay đơn giản gọi là hồi quy tức là hồi quy tuyến tính, tên tiếng anh thường gọi là Linear Regression ( Hồi quy tuyến tính) , Ordinary Least Squares regression ( Hồi quy bình phương nhỏ nhất) , multiple regression ( Hồi quy bội).
Hồi quy bội là gì ?
Hồi quy bội là một phần mở rộng của hồi quy tuyến tính đơn giản. Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá trị của hai hoặc nhiều biến khác. Biến chúng ta muốn dự đoán được gọi là biến phụ thuộc (hoặc đôi khi là biến kết quả, mục tiêu hoặc tiêu chí). Các biến chúng ta đang sử dụng để dự đoán giá trị của biến phụ thuộc được gọi là các biến độc lập (hoặc đôi khi là biến dự báo, biến giải thích hoặc biến hồi quy).
Các giả định của hồi quy
Để sử dụng hồi quy bội thì chúng ta phải kiểm định các giả định của mô hình hồi quy tuyến tính, tuỳ từng loại sai phạm của hồi quy mà chúng ta sẽ có cách khắc phục khác nhau, nhưng nói chung lại nếu mô hình hồi quy tuyến tính của các bạn không phạm sai phạm nào là tốt nhất. Trong thực tế hồi quy ols có 10 khuyết tật, nhưng trong bài này chúng tôi chỉ liệt kê ra 7 cái thôi.
Giả định số 1: Biến phụ thuộc liên tục
Biến phụ thuộc của bạn nên được đo lường trên thang đo liên tục (tức là, nó là một biến khoảng hoặc biến tỷ lệ ). Ví dụ về các biến đáp ứng tiêu chí này bao gồm thời gian ôn tập (đo bằng giờ), trí thông minh (đo bằng điểm IQ), thành tích thi (đo từ 0 đến 100), cân nặng (đo bằng kg), v.v. Bạn có thể tìm hiểu thêm về các biến khoảng và tỷ lệ trong bài viết của chúng tôi: Các loại biến .
Nếu biến phụ thuộc của bạn được đo lường trên thang đo thứ tự , bạn sẽ cần thực hiện hồi quy thứ tự thay vì hồi quy bội số. Ví dụ về biến thứ tự bao gồm các mục Likert (ví dụ: thang điểm 7 từ “hoàn toàn đồng ý” đến “hoàn toàn không đồng ý”), trong số các cách xếp hạng danh mục khác (ví dụ: thang điểm 3 giải thích mức độ thích một sản phẩm của khách hàng, từ ” Không nhiều lắm “thành” Có, rất nhiều “).
Giả định số 2: Một hay nhiều biến độc lập
Bạn có hai hoặc nhiều biến độc lập , có thể là liên tục (tức là biến khoảng hoặc tỷ lệ ) hoặc phân loại (tức là biến thứ tự hoặc danh nghĩa ). Đối với các ví dụ về biến liên tục và biến thứ tự , hãy xem gạch đầu dòng ở trên. Ví dụ về các biến danh nghĩa bao gồm giới tính (ví dụ: 2 nhóm: nam và nữ), dân tộc (ví dụ: 3 nhóm: Da trắng, Mỹ gốc Phi và Tây Ban Nha), mức độ hoạt động thể chất (ví dụ: 4 nhóm: ít vận động, thấp, trung bình và cao), nghề nghiệp (ví dụ: 5 nhóm: bác sĩ phẫu thuật, bác sĩ, y tá, nha sĩ, nhà trị liệu), v.v.
Một lần nữa, bạn có thể tìm hiểu thêm về các biến trong bài viết của chúng tôi: Các loại biến . Nếu một trong các biến độc lập của bạn phân đôi và được coi là một biến kiểm duyệt, bạn có thể cần chạy phân tích người kiểm duyệt Dichotomous .
Giả định # 3: Tương quan chuỗi
Bạn nên có sự độc lập của các quan sát (tức là độc lập với các phần dư ), bạn có thể dễ dàng kiểm tra bằng cách sử dụng thống kê Durbin-Watson, một bài kiểm tra đơn giản để chạy bằng SPSS Statistics. Chúng tôi giải thích cách diễn giải kết quả của thống kê Durbin-Watson, cũng như hiển thị cho bạn quy trình Thống kê SPSS bắt buộc, trong hướng dẫn hồi quy bội nâng cao của chúng tôi.
Giả định số 4: Mối quan hệ tuyến tính
Cần có mối quan hệ tuyến tính giữa:
- biến phụ thuộc và từng biến độc lập của bạn, và
- biến phụ thuộc và các biến độc lập gọi chung .
Mặc dù có một số cách để kiểm tra các mối quan hệ tuyến tính này, chúng tôi khuyên bạn nên tạo biểu đồ phân tán và biểu đồ hồi quy một phần sử dụng Thống kê SPSS, và sau đó kiểm tra trực quan các biểu đồ phân tán và biểu đồ hồi quy từng phần này để kiểm tra độ tuyến tính. Nếu mối quan hệ được hiển thị trong biểu đồ phân tán và biểu đồ hồi quy một phần không phải là tuyến tính, bạn sẽ phải chạy phân tích hồi quy phi tuyến tính hoặc “chuyển đổi” dữ liệu của mình, bạn có thể thực hiện điều này bằng cách sử dụng Thống kê SPSS.
Trong hướng dẫn hồi quy bội nâng cao của chúng tôi, chúng tôi chỉ cho bạn cách:
- tạo biểu đồ phân tán và biểu đồ hồi quy từng phần để kiểm tra tính tuyến tính khi thực hiện hồi quy nhiều lần bằng cách sử dụng Thống kê SPSS;
- diễn giải các kết quả biểu đồ phân tán và biểu đồ hồi quy một phần khác nhau; và
- biến đổi dữ liệu của bạn bằng cách sử dụng Thống kê SPSS nếu bạn không có mối quan hệ tuyến tính giữa các biến của mình.
Giả định số 5: Phương sai thay đổi
Dữ liệu của bạn cần phải thể hiện tính đồng biến, là nơi mà các phương sai dọc theo đường phù hợp nhất vẫn tương tự khi bạn di chuyển dọc theo đường. Chúng tôi giải thích thêm về ý nghĩa của điều này và cách đánh giá tính đồng biến của dữ liệu của bạn trong hướng dẫn hồi quy bội số nâng cao của chúng tôi. Khi bạn phân tích dữ liệu của chính mình, bạn sẽ cần phải vẽ biểu đồ phần dư được được chuẩn hóa dựa trên các giá trị dự đoán chưa được chuẩn hóa. Trong hướng dẫn hồi quy bội số nâng cao của chúng tôi, chúng tôi giải thích:
- cách kiểm tra tính đồng biến đổi bằng cách sử dụng Thống kê SPSS;
- một số điều bạn sẽ cần xem xét khi giải thích dữ liệu của mình; và
- các cách có thể để tiếp tục phân tích nếu dữ liệu của bạn không đáp ứng được giả định này.
Giả định số 6: Đa cộng tuyến
Dữ liệu của bạn không được hiển thị đa cộng tuyến , điều này xảy ra khi bạn có hai hoặc nhiều biến độc lập có tương quan cao với nhau. Điều này dẫn đến các vấn đề về việc hiểu biến độc lập nào góp phần vào phương sai được giải thích trong biến phụ thuộc, cũng như các vấn đề kỹ thuật trong việc tính toán mô hình hồi quy bội số. Do đó, trong hướng dẫn hồi quy bội số nâng cao của chúng tôi, chúng tôi chỉ cho bạn:
- Cách sử dụng Thống kê SPSS để phát hiện đa cộng tuyến thông qua việc kiểm tra các hệ số tương quan và giá trị Dung sai / VIF; và
- Cách diễn giải các hệ số tương quan này và giá trị Dung sai / VIF để bạn có thể xác định xem dữ liệu của mình có đáp ứng hay vi phạm giả định này hay không.
Giả định số 7: Quan sát ngoại vi
Không được có điểm ngoại lệ đáng kể , điểm đòn bẩy cao hoặc điểm có ảnh hưởng lớn . Điểm ngoại lệ, đòn bẩy và điểm ảnh hưởng là các thuật ngữ khác nhau được sử dụng để biểu thị các quan sát trong tập dữ liệu của bạn, theo một cách nào đó không bình thường khi bạn muốn thực hiện phân tích hồi quy bội số. Các cách phân loại khác nhau về các điểm bất thường này phản ánh tác động khác nhau của chúng trên đường hồi quy.
Một quan sát có thể được phân loại là nhiều hơn một loại điểm bất thường. Tuy nhiên, tất cả những điểm này có thể có ảnh hưởng rất tiêu cực đến phương trình hồi quy được sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên các biến độc lập. Điều này có thể thay đổi kết quả mà Thống kê SPSS tạo ra và làm giảm độ chính xác dự đoán của kết quả cũng như ý nghĩa thống kê.
May mắn thay, khi sử dụng Thống kê SPSS để chạy nhiều hồi quy trên dữ liệu của mình, bạn có thể phát hiện các điểm ngoại lệ có thể xảy ra, điểm đòn bẩy cao và các điểm có ảnh hưởng lớn. Trong hướng dẫn hồi quy nhiều lần nâng cao của chúng tôi, chúng tôi:
- chỉ cho bạn cách phát hiện các ngoại lệ bằng cách sử dụng “chẩn đoán phân biệt” và “phần dư đã xóa do sinh viên hóa”, bạn có thể thực hiện điều này bằng cách sử dụng Thống kê SPSS, và thảo luận về một số lựa chọn bạn có để đối phó với các trường hợp ngoại lệ;
- kiểm tra các điểm đòn bẩy bằng cách sử dụng Thống kê SPSS và thảo luận những gì bạn nên làm nếu có; và
- kiểm tra các điểm có ảnh hưởng trong Thống kê SPSS bằng cách sử dụng thước đo ảnh hưởng được gọi là Khoảng cách của Cook, trước khi trình bày một số cách tiếp cận thực tế trong Thống kê SPSS để đối phó với bất kỳ điểm ảnh hưởng nào mà bạn có thể có.
Giả định # 8: Phân phối chuẩn
Cuối cùng, bạn cần kiểm tra xem các phần dư (lỗi) có được phân phối gần đúng phân phối chuẩn hay không . Hai phương pháp phổ biến để kiểm tra giả định này bao gồm sử dụng:
- Biểu đồ (với đường cong chuẩn xếp chồng) và Đồ thị PP chuẩn; hoặc
- Một Lô QQ Bình thường của các phần còn lại được sinh viên hóa. Một lần nữa, trong hướng dẫn hồi quy bội số nâng cao của chúng tôi,
chúng tôi:
- Chỉ cho bạn cách kiểm tra giả định này bằng cách sử dụng Thống kê SPSS, cho dù bạn sử dụng biểu đồ (với đường cong chuẩn xếp chồng) và Lô PP Bình thường, hoặc Lô QQ Bình thường;
- Giải thích cách diễn giải các sơ đồ này; và
- Cung cấp một giải pháp khả thi nếu dữ liệu của bạn không đáp ứng được giả định này.
Hồi quy tuyến tính trên SPSS
Để kích hoạt chương trình hồi quy tuyến tính, chúng ta thực hiện theo đường dẫn sau:
Analyze > Regression> Linear
- Mục Dependent bạn điền 1 biến phụ thuộc vào
- Mục Independent bạn điền 1 hay nhiều biến độc lập vào
Trong tab Statistic, bạn check như hình trên, nhưng chú ý 2 điểm
- Collinearily diagnostics : Kiểm tra đa cộng tuyến – Giả định 6
- Durbin – Watson : Kiểm tra tự tương quan – Giả định 3
Kết quả
Kết quả hồi quy
Kiểm tra giả định
Giả định 1: Bạn chỉ cần đưa biến là liên tục vào
Giả định 2: Bạn chỉ cần > 1 biến độc lập
Giả định 3: Kiêm tra tự tương quan
Ta có, P-value của kiểm định Durbin-Wáton < 0.05 => Mô hình bị tự tương quan. ( Cần khắc phục)
Giả định 4: Mối quan hệ tuyến tính.
Trong bảng Kết quả hồi quy ta có P-value ( Cột Sig. < 0.05 ) của nhiều biến không có ý nghĩa thống kê, đây là việc xấu chúng ta cần khắc phục
Giả định 5: Phương sai thay đổi.
Trong kiểm định này, thì việc SPSS kiểm tra tương đối phức tạp, nên chúng tôi sẽ đề cập vào dịp khác.
Giả định 6: Đa cộng tuyến
Ta kiểm tra cột VIF trong bảng kết quả hồi quy.
Nếu VIF > 5 = > Biến đó bị đa cộng tuyến.
=> Dữ liệu không bị đa cộng tuyến
Giả định 7: Dữ liệu ngoại vi
Đây là kỹ thuật xử lý dữ liệu
Để kiêm tra việc này trên SPSS cũng tương đối phức tạp, và nó cũng là điều kiện không tuyên quyết.
Mở rộng giả định hồi quy tuyến tính
Tuỳ từng trường hợp ứng dụng hồi quy ols mà chúng ta có những kiểm định không thật sự cần thiết, cũng có những kiểm định luôn luôn cần thiết ( Đa cộng tuyến, Phương sai thay đổi, Quan hệ tuyến tính).
Trong mô hình hồi quy này, nếu có sai phạm thì các bạn cũng có thể khắc phục sai phạm này.
Pingback: Phân tích dữ liệu đa hợp CoDA - Compositional Data Analysis | Dịch vụ phân tích và xử lý số liệu
Pingback: Ước lượng nhị thức hồi quy Binary Logistic trong SPSS - Phân tích nghiệp vụ
Pingback: Hồi quy tuyến tính đa biến kiểm định sai phạm trên SPSS - Phân tích kinh doanh chuyên nghiệp
Pingback: Ước lượng nhị thức hồi quy Binary Logistic trong SPSS - Phân tích kinh doanh chuyên nghiệp
Pingback: Phân tích dữ liệu đa hợp CoDA – Compositional Data Analysis - Phân tích kinh doanh chuyên nghiệp
Pingback: [ALL] Hồi quy tuyến tính - mà bạn cần biết - Phân tích nghiệp vụ
Pingback: [ALL] Hồi quy tuyến tính – mà bạn cần biết - Phân tích kinh doanh chuyên nghiệp
Pingback: DIFF: Sai phân dữ liệu trong nghiên cứu khoa học kinh tế lượng - Phân tích nghiệp vụ