3 cách kiểm tra dữ liệu có phân phối chuẩn trong phân tích định lượng, đó là nhìn từ đồ thị và kiểm định. Giả định dữ liệu có phân phối chuẩn là một giả định quan trọng trong nghiên cứu định lượng, trong bài viết này chúng tôi cố gắng truyền đạt một cách dễ hiểu nhất đến các bạn. Chúng tôi tiếp tự sử dụng phần mềm Grelt để phân tích dữ liệu.
Dữ liệu có phân phối chuẩn
Phân tích định lượng là gì ?
Phân tích định lượng (quantitative analysis) là quá trình sử dụng các phương pháp số học và thống kê để đo lường và phân tích các thông tin dựa trên các đại lượng đo lường được, như trọng lượng, thể tích, thời gian, nhiệt độ, áp suất, tỷ lệ phần trăm, v.v. Kết quả của phân tích định lượng thường được biểu thị dưới dạng số hoặc biểu đồ, cho phép các nhà nghiên cứu và nhà quản lý đưa ra quyết định dựa trên cơ sở của những số liệu cụ thể.
Các phương pháp phân tích định lượng thường được sử dụng trong nhiều lĩnh vực, bao gồm khoa học, kinh tế học, tài chính, y tế, công nghệ, v.v. Các phương pháp này có thể bao gồm các phương pháp thống kê như kiểm định giả thuyết, phân tích phương sai, hồi quy tuyến tính, v.v.
Việc sử dụng phân tích định lượng cho phép các nhà nghiên cứu và quản lý đưa ra các kết luận và quyết định dựa trên những dữ liệu cụ thể và khách quan, giúp tăng tính chính xác và độ tin cậy của kết quả.
Các mục phân tích định lượng thông dụng
👋Phân tích định lượng | 👩🎓10 Điểm |
👨🍼Cung cấp số liệu | 🧑💻Nhanh |
✍️Khảo sát thị trường | 🎒Chất lượng |
🕵️♂️Phân tích nghiệp vụ | 👠Uy Tín |
🙌Phân tích kinh doanh | 🧑🎓Điểm 10 |
Các mục phân tích định lượng thông dụng bao gồm:
- Phân tích thống kê mô tả (descriptive statistics analysis): Là phương pháp mô tả và tổng hợp dữ liệu số bằng cách sử dụng các chỉ số thống kê như trung bình, độ lệch chuẩn, phương sai, min, max, median, mode,…
- Phân tích hồi quy (regression analysis): Là phương pháp đo lường và phân tích mối quan hệ giữa một biến phụ thuộc (dependent variable) và một hoặc nhiều biến độc lập (independent variables), giúp dự đoán giá trị của biến phụ thuộc dựa trên các giá trị của biến độc lập.
- Phân tích biến số (variance analysis): Là phương pháp phân tích sự khác biệt giữa các mẫu hoặc nhóm mẫu và đánh giá sự ảnh hưởng của các yếu tố đối với biến phụ thuộc.
- Phân tích đường cong (curve fitting analysis): Là phương pháp dùng để xác định một hàm số (curve) phù hợp với dữ liệu, giúp mô hình hóa dữ liệu và dự đoán giá trị của các biến.
- Phân tích nhân tố (factor analysis): Là phương pháp giúp phân tích mối liên hệ giữa các biến và tìm ra các nhân tố chung (factors) có ảnh hưởng đến các biến.
- Phân tích chuỗi thời gian (time series analysis): Là phương pháp phân tích và dự đoán các dữ liệu theo thời gian, giúp dự đoán xu hướng và mô hình hóa các chuỗi thời gian.
- Phân tích định lượng trong y học (quantitative analysis in medical research): Là phương pháp phân tích các dữ liệu liên quan đến sức khỏe và y tế, giúp đánh giá hiệu quả của các phương pháp điều trị và đưa ra quyết định cho việc chăm sóc sức khỏe.
Các phương pháp trên là các phương pháp phân tích định lượng thông dụng và rất quan trọng trong việc phân tích dữ liệu và đưa ra quyết định trong nhiều lĩnh vực.
Dữ liệu có phân phối chuẩn là gì ?
Phân phối chuẩn (normal distribution) là một phân phối xác suất đặc biệt, trong đó các giá trị dữ liệu được phân bố đối xứng xung quanh trung bình và có độ lệch chuẩn xác định. Dữ liệu có phân phối chuẩn thường được sử dụng trong các phương pháp thống kê định lượng như kiểm định giả thuyết, hồi quy tuyến tính, phân tích phương sai, v.v.
Để xác định xem dữ liệu có phân phối chuẩn hay không, chúng ta có thể sử dụng các phương pháp kiểm định như:
- Kiểm định Shapiro-Wilk: là một phương pháp kiểm định giúp xác định xem một tập dữ liệu có phân phối chuẩn hay không. Nếu giá trị p > 0,05 thì ta chấp nhận rằng dữ liệu có phân phối chuẩn.
- Kiểm định Kolmogorov-Smirnov: là một phương pháp kiểm định giúp xác định xem một tập dữ liệu có phân phối chuẩn hay không. Nếu giá trị p > 0,05 thì ta chấp nhận rằng dữ liệu có phân phối chuẩn.
- Đồ thị histogram: Nếu dữ liệu có dạng hình chuông, đối xứng, thì có thể nói rằng dữ liệu có phân phối chuẩn.
- Đồ thị qqplot: Đồ thị này so sánh phân phối thực tế của dữ liệu với phân phối chuẩn, nếu các điểm trên đường chéo thì có thể kết luận rằng dữ liệu có phân phối chuẩn.
Việc xác định dữ liệu có phân phối chuẩn hay không rất quan trọng trong phân tích dữ liệu, vì nó ảnh hưởng đến việc lựa chọn phương pháp thống kê phù hợp và giúp đảm bảo tính chính xác và độ tin cậy của kết quả.
Tại sao nó lại quan trọng trong phân tích định lượng ?
Việc xác định phân phối của dữ liệu là rất quan trọng trong phân tích định lượng vì nó có ảnh hưởng trực tiếp đến việc lựa chọn phương pháp thống kê và đưa ra kết luận.
Nếu dữ liệu có phân phối chuẩn, các phương pháp thống kê định lượng như kiểm định giả thuyết, hồi quy tuyến tính, phân tích phương sai, v.v. có thể được sử dụng để phân tích và đưa ra kết luận với độ tin cậy cao.
Nếu dữ liệu không có phân phối chuẩn, ta có thể sử dụng các phương pháp thống kê phi tham số (non-parametric) để phân tích, nhưng các phương pháp này thường ít mạnh mẽ hơn và độ chính xác thấp hơn so với các phương pháp thống kê định lượng.
Ngoài ra, nếu không xác định được phân phối của dữ liệu, ta có thể sai lệch trong kết quả phân tích và đưa ra quyết định không chính xác. Do đó, việc xác định phân phối của dữ liệu là rất quan trọng để đảm bảo tính chính xác và độ tin cậy của kết quả phân tích và đưa ra quyết định đúng đắn.
Những mô hình thường phải kiểm định phân phối chuẩn của dữ liệu
Giả định về phân phối chuẩn thường được áp dụng trong nhiều phương pháp phân tích định lượng như:
- Kiểm định giả thuyết (hypothesis testing): giả định phân phối chuẩn thường được sử dụng để kiểm tra tính đáng tin cậy của kết quả kiểm định giả thuyết.
- Hồi quy tuyến tính (linear regression): giả định phân phối chuẩn thường được sử dụng để đảm bảo tính chính xác và độ tin cậy của các ước lượng hồi quy.
- Phân tích phương sai (analysis of variance – ANOVA): giả định phân phối chuẩn thường được sử dụng để đảm bảo tính đúng đắn của kết quả phân tích và đưa ra kết luận chính xác về sự khác biệt giữa các nhóm.
- Phân tích dữ liệu chuỗi thời gian (time series analysis): giả định phân phối chuẩn thường được sử dụng để đảm bảo tính chính xác và độ tin cậy của các dự đoán và kết quả phân tích.
Tuy nhiên, cũng cần lưu ý rằng trong một số trường hợp, giả định phân phối chuẩn không được thỏa mãn và việc sử dụng các phương pháp khác như phương pháp phi tham số (non-parametric) có thể được áp dụng thay thế. Việc lựa chọn phương pháp phân tích đúng và phù hợp với giả định của dữ liệu là rất quan trọng để đảm bảo tính chính xác và độ tin cậy của kết quả phân tích.
3 cách kiểm tra dữ liệu có phân phối chuẩn
3 cách kiểm định dữ liệu có phân phối chuẩn hay không chúng tôi thực thiện trên phần mềm Grelt (Đây là phần mềm miễn phí)
Đồ thị Q-Q plot
Thực đơn: Variable > Normal Q-Q plot
Với đồ thì qq-plot ta thấy có quan sát “bám quanh” trục tuyến tính là dữ liệu có phân phối chuẩn, khi nó rời xa nhiều khi nó mới không có phân phối chuẩn.
Đồ thị qqplot (quantile-quantile plot) là một công cụ thường được sử dụng để kiểm tra giả định về phân phối chuẩn của dữ liệu. Đồ thị này so sánh giá trị thực tế của dữ liệu với giá trị mong đợi nếu dữ liệu tuân theo phân phối chuẩn. Dưới đây là ưu và nhược điểm của việc sử dụng đồ thị qqplot để kiểm tra phân phối chuẩn:
Ưu điểm:
- Cho phép kiểm tra phân phối chuẩn của dữ liệu một cách đồng thời cho nhiều mẫu dữ liệu.
- Dễ hiểu và dễ sử dụng, không cần kiến thức chuyên môn sâu về thống kê.
- Cho phép đánh giá tốt độ lệch của dữ liệu so với phân phối chuẩn, có thể phát hiện được các ngoại lệ (outlier) và các đuôi (tail) của dữ liệu.
Nhược điểm:
- Không cho phép kiểm tra các phân phối khác ngoài phân phối chuẩn.
- Không đưa ra thông tin về độ lệch của dữ liệu nếu phân phối không chuẩn.
- Có thể bị sai lệch khi kích thước mẫu nhỏ.
Tóm lại, đồ thị qqplot là một công cụ hữu ích để kiểm tra phân phối chuẩn của dữ liệu. Tuy nhiên, nó không phải là phương pháp duy nhất và cần được kết hợp với các phương pháp khác để đưa ra đánh giá chính xác về phân phối của dữ liệu.
Đồ thị Histogram
Ta nhìn đồ thị dạng giống “cái chuông” là có phân phối chuẩn. (Cái này có nhiều hình ngay cả tôi cũng không nhận ra là nó có phân phối chuẩn hay không nữa :d, tôi giới thiệu cho hết, các bạn nên dùng kiểm định cho nhanh, không mất nhiều thời gian.)
Histogram là một biểu đồ thường được sử dụng để mô tả phân bố của một tập dữ liệu. Nó cũng được sử dụng để kiểm tra giả định về phân phối chuẩn của dữ liệu. Dưới đây là ưu và nhược điểm của việc sử dụng histogram để kiểm tra phân phối chuẩn:
Ưu điểm:
- Cho phép kiểm tra phân phối chuẩn của dữ liệu một cách trực quan và dễ hiểu.
- Cho phép đánh giá tốt độ lệch của dữ liệu so với phân phối chuẩn.
- Cho phép phát hiện được các ngoại lệ và các đuôi của dữ liệu.
Nhược điểm:
- Không cho phép kiểm tra các phân phối khác ngoài phân phối chuẩn.
- Không đưa ra thông tin về độ lệch của dữ liệu nếu phân phối không chuẩn.
- Phụ thuộc vào kích thước mẫu, cách chọn khoảng giá trị và độ rộng của mỗi khoảng giá trị.
Tóm lại, histogram là một công cụ hữu ích để kiểm tra phân phối chuẩn của dữ liệu. Tuy nhiên, nó không phải là phương pháp duy nhất và cần được kết hợp với các phương pháp khác để đưa ra đánh giá chính xác về phân phối của dữ liệu.
Các kiểm định
Thực đơn: Variable > Normality test
Kiểm định là một phương pháp thống kê được sử dụng để xác định xem liệu dữ liệu có tuân theo phân phối chuẩn hay không. Dưới đây là ưu và nhược điểm của cách sử dụng kiểm định để xác định dữ liệu có phân phối chuẩn hay không:
Ưu điểm:
- Có thể xác định một cách chính xác liệu dữ liệu có phân phối chuẩn hay không.
- Cho phép đánh giá tốt độ lệch của dữ liệu so với phân phối chuẩn.
- Có nhiều phương pháp kiểm định khác nhau để sử dụng tùy thuộc vào điều kiện của dữ liệu.
Nhược điểm:
- Yêu cầu các giả định về tính độc lập và tính đồng nhất của dữ liệu.
- Chỉ cho kết quả cho một mẫu cụ thể, không thể tổng quát hóa cho tất cả các mẫu.
- Không cung cấp thông tin về mức độ lệch của dữ liệu nếu phân phối không chuẩn.
Tóm lại, kiểm định là một công cụ hữu ích để xác định xem liệu dữ liệu có phân phối chuẩn hay không. Tuy nhiên, nó cũng có nhược điểm của mình, và cần được sử dụng cẩn thận và kết hợp với các phương pháp khác để đưa ra đánh giá chính xác về phân phối của dữ liệu.
Một số kiểm định
Dưới đây là một số kiểm định phân phối chuẩn phổ biến được sử dụng trong phân tích dữ liệu:
- Kiểm định Shapiro-Wilk: kiểm tra tính phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối chuẩn và phân phối thực tế của dữ liệu.
- Kiểm định Kolmogorov-Smirnov: kiểm tra tính phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối chuẩn và phân phối thực tế của dữ liệu.
- Kiểm định Anderson-Darling: kiểm tra tính phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối chuẩn và phân phối thực tế của dữ liệu, dựa trên các hệ số đặc biệt.
- Kiểm định Lilliefors: tương tự như kiểm định Kolmogorov-Smirnov, nhưng được sử dụng cho các kích thước mẫu nhỏ.
- Kiểm định chi bình phương (chi-squared): kiểm tra sự phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối thực tế và phân phối chuẩn.
- Kiểm định Ryan-Joiner: kiểm tra sự phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối thực tế và phân phối chuẩn, nhưng được sử dụng cho các dữ liệu có đuôi phân phối dài.
- Kiểm định D’Agostino-Pearson: kiểm tra tính phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối chuẩn và phân phối thực tế của dữ liệu.
- Kiểm định Jarque-Bera: kiểm tra tính phân phối chuẩn của dữ liệu bằng cách so sánh giữa phân phối chuẩn và phân phối thực tế của dữ liệu, dựa trên các thông số về độ lệch và độ nhọn của phân phối.
Tuy nhiên, cần lưu ý rằng không có một kiểm định nào là tuyệt đối chính xác và phù hợp với tất cả các trường hợp. Do đó, việc lựa chọn kiểm định thích hợp phải dựa trên tính chất của dữ liệu và mục đích của phân tích.
Ví dụ:
Doornik-Hansen test = 2.51362, with p-value 0.28456
Shapiro-Wilk W = 0.969284, with p-value 0.170929
Lilliefors test = 0.113282, with p-value ~= 0.07
Jarque-Bera test = 2.05131, with p-value 0.358562
Giả định:
- H0: Dữ liệu có phân phối chuẩn
- H1: Dữ liệu có phân phối không chuẩn
Pingback: 3 cách kiểm tra dữ liệu có phân phối chuẩn trong phân tích định lượng - Phân tích kinh doanh chuyên nghiệp
Pingback: Q#1: Khảo khát dữ liệu doanh nghiệp: in tem nhãn mác decal dán - Phân tích nghiệp vụ