Thuật ngữ ‘học máy’ hay học máy là thuật toán học máy thường được thay thế cho Trí tuệ nhân tạo , nhưng học máy thực sự là một lĩnh vực / loại phụ của AI. Học máy cũng thường được gọi là phân tích dự đoán hoặc mô hình dự đoán.
Được đặt ra bởi nhà khoa học máy tính người Mỹ Arthur Samuel vào năm 1959, thuật ngữ ‘máy học – Machine Learing‘ được định nghĩa là “khả năng máy tính học hỏi mà không cần được lập trình rõ ràng”.
CÁC LOẠI THUẬT TOÁN HỌC MÁY
Về cơ bản, học máy sử dụng các thuật toán được lập trình để nhận và phân tích dữ liệu đầu vào để dự đoán giá trị đầu ra trong phạm vi chấp nhận được. Khi dữ liệu mới được cung cấp cho các thuật toán này, chúng học và tối ưu hóa hoạt động của mình để cải thiện hiệu suất, phát triển ‘trí thông minh’ theo thời gian.
Có bốn loại thuật toán học máy: có giám sát, bán giám sát, không giám sát và tăng cường.
Học tập có giám sát
Trong học tập có giám sát, máy được dạy bằng ví dụ. Người vận hành cung cấp cho thuật toán học máy một tập dữ liệu đã biết bao gồm các đầu vào và đầu ra mong muốn và thuật toán phải tìm ra phương pháp để xác định cách đi đến các đầu vào và đầu ra đó. Trong khi người vận hành biết câu trả lời chính xác cho vấn đề, thuật toán xác định các mẫu trong dữ liệu, học hỏi từ các quan sát và đưa ra dự đoán. Thuật toán đưa ra các dự đoán và được sửa chữa bởi người vận hành – và quá trình này tiếp tục cho đến khi thuật toán đạt được mức độ chính xác / hiệu suất cao.
Dưới cái ô của mùa thu học tập có giám sát: Phân loại, Hồi quy và Dự báo.
- Phân loại (Classification) : Trong các nhiệm vụ phân loại, chương trình học máy phải rút ra kết luận từ các giá trị quan sát và xác định
các quan sát mới thuộc loại nào. Ví dụ: khi lọc email là ‘spam’ hoặc ‘không phải spam’, chương trình phải xem xét dữ liệu quan sát hiện có và lọc email cho phù hợp. - Hồi quy (Regression) : Trong các nhiệm vụ hồi quy, chương trình học máy phải ước lượng – và hiểu – các mối quan hệ giữa các biến. Phân tích hồi quy tập trung vào một biến phụ thuộc và một loạt các biến thay đổi khác – làm cho nó trở nên đặc biệt hữu ích cho việc dự đoán và dự báo.
- Dự báo (Prediction) : Dự báo là quá trình đưa ra dự đoán về tương lai dựa trên dữ liệu trong quá khứ và hiện tại, và được sử dụng phổ biến để phân tích xu hướng.
Học tập bán giám sát
Học bán giám sát tương tự như học có giám sát, nhưng thay vào đó sử dụng cả dữ liệu được gắn nhãn và không được gắn nhãn. Dữ liệu được gắn nhãn về cơ bản là thông tin có các thẻ có ý nghĩa để thuật toán có thể hiểu dữ liệu, trong khi dữ liệu không được gắn nhãn thiếu thông tin đó. Bằng cách sử dụng
sự kết hợp này, các thuật toán học máy có thể học cách gắn nhãn dữ liệu không được gắn nhãn.
Học tập không giám sát
Ở đây, thuật toán học máy nghiên cứu dữ liệu để xác định các mẫu. Không có phím trả lời hoặc người điều hành để cung cấp hướng dẫn. Thay vào đó, máy xác định các mối tương quan và mối quan hệ bằng cách phân tích dữ liệu có sẵn. Trong quá trình học tập không có giám sát, thuật toán học máy được để lại để diễn giải các tập dữ liệu lớn và giải quyết dữ liệu đó cho phù hợp. Thuật toán cố gắng tổ chức dữ liệu đó theo một cách nào đó để mô tả cấu trúc của nó. Điều này có nghĩa là nhóm dữ liệu thành các cụm hoặc sắp xếp dữ liệu theo cách có tổ chức hơn.
Khi đánh giá nhiều dữ liệu hơn, khả năng đưa ra quyết định đối với dữ liệu đó dần dần được cải thiện và trở nên tinh tế hơn.
Dưới cái ô của việc học không giám sát, sa ngã:
- Phân cụm : Phân cụm liên quan đến việc nhóm các tập hợp dữ liệu tương tự nhau (dựa trên các tiêu chí đã xác định). Nó hữu ích để phân đoạn dữ liệu thành nhiều nhóm và thực hiện phân tích trên từng tập dữ liệu để tìm ra các mẫu.
- Giảm thứ nguyên : Giảm thứ nguyên làm giảm số lượng biến được xem xét để tìm thông tin chính xác được yêu cầu.
Học tăng cường
Học tăng cường tập trung vào các quy trình học tập trung, trong đó thuật toán học máy được cung cấp với một tập hợp các hành động, tham số và giá trị kết thúc. Bằng cách xác định các quy tắc, thuật toán học máy sau đó sẽ cố gắng khám phá các tùy chọn và khả năng khác nhau, theo dõi và đánh giá từng kết quả để xác định kết quả nào là tối ưu. Học tập củng cố dạy cách thử và sai của máy. Nó học hỏi từ những kinh nghiệm trong quá khứ và bắt đầu điều chỉnh cách tiếp cận của mình theo tình huống để đạt được kết quả tốt nhất có thể.
Bạn có thể sử dụng những thuật toán học máy nào?
Việc lựa chọn thuật toán học máy phù hợp phụ thuộc vào một số yếu tố, bao gồm, nhưng không giới hạn ở: kích thước, chất lượng và tính đa dạng của dữ liệu, cũng như câu trả lời mà doanh nghiệp muốn thu được từ dữ liệu đó. Các cân nhắc bổ sung bao gồm độ chính xác, thời gian đào tạo, tham số, điểm dữ liệu và nhiều hơn nữa. Do đó, việc lựa chọn thuật toán phù hợp là sự kết hợp của nhu cầu kinh doanh, đặc điểm kỹ thuật, thử nghiệm và thời gian có sẵn. Ngay cả những nhà khoa học dữ liệu giàu kinh nghiệm nhất cũng không thể cho bạn biết thuật toán nào sẽ hoạt động tốt nhất trước khi thử nghiệm với những người khác. Tuy nhiên, chúng tôi đã biên soạn một thuật toán máy học ‘cheat sheet’ sẽ giúp bạn tìm ra giải thuật thích hợp nhất cho những thử thách cụ thể của bạn.
Các thuật toán học máy phổ biến và thông dụng nhất là gì?
Naïve Bayes Classifier Algorithm
Thuật toán phân loại Naïve Bayes (Học có giám sát – Phân loại)
Trình phân loại Naïve Bayes dựa trên định lý Bayes và phân loại mọi giá trị độc lập với bất kỳ giá trị nào khác. Nó cho phép chúng tôi dự đoán một lớp / danh mục, dựa trên một tập hợp các tính năng nhất định, sử dụng xác suất.
Mặc dù đơn giản, trình phân loại hoạt động tốt một cách đáng ngạc nhiên và thường được sử dụng do thực tế nó hoạt động tốt hơn các phương pháp phân loại phức tạp hơn.
K Means Clustering Algorithm
K Means Clustering Algorithm (Unsupervised Learning – Clustering) Thuật toán K Means Clustering là một loại học không giám sát, được sử dụng để phân loại dữ liệu không được gắn nhãn, tức là dữ liệu không có danh mục hoặc nhóm xác định. Thuật toán hoạt động bằng cách tìm các nhóm trong dữ liệu, với số lượng nhóm được đại diện bởi biến K. Sau đó, nó hoạt động lặp đi lặp lại để gán mỗi điểm dữ liệu cho một trong K nhóm dựa trên các tính năng được cung cấp.
Support Vector Machine Algorithm
Hỗ trợ thuật toán máy vectơ (Học có giám sát – Phân loại) Các thuật toán máy vectơ hỗ trợ là mô hình học có giám sát phân tích dữ liệu được sử dụng để phân loại và phân tích hồi quy. Về cơ bản, chúng lọc dữ liệu thành các danh mục, điều này đạt được bằng cách cung cấp một tập hợp các ví dụ đào tạo, mỗi tập hợp được đánh dấu là thuộc một hoặc danh mục khác trong hai danh mục. Sau đó, thuật toán sẽ hoạt động để xây dựng một mô hình gán các giá trị mới cho danh mục này hoặc danh mục khác.
Linear Regression
Hồi quy tuyến tính (Supervised Learning / Regression) Hồi quy tuyến tính là loại hồi quy cơ bản nhất. Hồi quy tuyến tính đơn giản cho phép chúng ta hiểu các mối quan hệ giữa hai biến liên tục.
Logistic Regression
Hồi quy logistic (Học có giám sát – Phân loại) Hồi quy logistic tập trung vào việc ước tính xác suất của một sự kiện xảy ra dựa trên dữ liệu được cung cấp trước đó. Nó được sử dụng để bao hàm một biến phụ thuộc nhị phân, ở đó chỉ có hai giá trị, 0 và 1, đại diện cho kết quả.
Artificial Neural Networks
Mạng nơron nhân tạo (Học tăng cường) Mạng nơron nhân tạo (ANN) bao gồm các ‘đơn vị’ được sắp xếp thành một loạt các lớp, mỗi lớp kết nối với các lớp ở hai bên. ANN được truyền cảm hứng từ các hệ thống sinh học, chẳng hạn như não và cách chúng xử lý thông tin. ANN về cơ bản là một số lượng lớn các phần tử xử lý được kết nối với nhau, hoạt động đồng bộ để giải quyết các vấn đề cụ thể.
ANN cũng học bằng ví dụ và thông qua kinh nghiệm, và chúng cực kỳ hữu ích để lập mô hình các mối quan hệ phi tuyến tính trong dữ liệu chiều cao hoặc trong đó mối quan hệ giữa các biến đầu vào khó hiểu.
Decision Trees
Cây quyết định (Học được giám sát – Phân loại / Hồi quy) Cây quyết định là một cấu trúc cây giống như biểu đồ luồng sử dụng phương pháp phân nhánh để minh họa mọi kết quả có thể có của một quyết định. Mỗi nút trong cây đại diện cho một thử nghiệm trên một biến cụ thể – và mỗi nhánh là kết quả của thử nghiệm đó.
Random Forests
Rừng ngẫu nhiên (Học được giám sát – Phân loại / Hồi quy) Rừng ngẫu nhiên hay ‘rừng quyết định ngẫu nhiên’ là một phương pháp học tập tổng hợp, kết hợp nhiều thuật toán để tạo ra kết quả tốt hơn cho việc phân loại, hồi quy và các nhiệm vụ khác. Mỗi người phân loại cá nhân đều yếu, nhưng khi kết hợp với những người khác, có thể tạo ra kết quả xuất sắc. Thuật toán bắt đầu với ‘cây quyết định’ (đồ thị dạng cây hoặc mô hình các quyết định) và đầu vào được nhập ở trên cùng. Sau đó, nó đi xuống cây, với dữ liệu được phân đoạn thành các tập nhỏ hơn và nhỏ hơn, dựa trên các biến cụ thể.
Nearest Neighbours
Những người láng giềng gần nhất (Học được giám sát) Thuật toán K-Nearest-Neighbor ước tính khả năng một điểm dữ liệu trở thành thành viên của nhóm này hay nhóm khác. Về cơ bản, nó xem xét các điểm dữ liệu xung quanh một điểm dữ liệu để xác định xem nó thực sự thuộc nhóm nào. Ví dụ: nếu một điểm nằm trên lưới và thuật toán đang cố gắng xác định xem điểm dữ liệu đó thuộc nhóm nào (Nhóm A hoặc Nhóm Ví dụ: B) nó sẽ xem xét các điểm dữ liệu gần nó để xem phần lớn các điểm nằm trong nhóm nào.
Rõ ràng, có rất nhiều điều cần xem xét khi chọn các thuật toán học máy phù hợp cho phân tích doanh nghiệp của bạn. Tuy nhiên, bạn không cần phải là nhà khoa học dữ liệu hoặc chuyên gia thống kê để sử dụng các mô hình này cho doanh nghiệp của mình. Tại SAS, các sản phẩm và giải pháp của chúng tôi sử dụng tuyển chọn toàn diện các thuật toán máy học, giúp bạn phát triển một quy trình có thể liên tục mang lại giá trị từ dữ liệu của bạn.
Pingback: Ứng dụng thuật toán phân loại Naïve Bayes | Dịch vụ phân tích và xử lý số liệu
Pingback: Phân biệt trung vị (median) phân vị (quartile) trung bình (mean) - Phân tích nghiệp vụ