
1. Định nghĩa và Động cơ
Machine Learning (ML) là ngành nghiên cứu các thuật toán cho phép máy tính cải thiện hiệu suất thực hiện một nhiệm vụ nào đó dựa trên kinh nghiệm (dữ liệu).
Định nghĩa của Tom M. Mitchell (1997):
Một chương trình máy tính được gọi là học được từ kinh nghiệm E đối với một lớp tác vụ T và thước đo hiệu suất P, nếu hiệu suất của nó trên các tác vụ trong T, đo bằng P, cải thiện nhờ vào kinh nghiệm E.
Ba thành phần chính trong định nghĩa:
- T (Task) – Bài toán cần giải quyết (ví dụ: phân loại ảnh, dự đoán giá)
- E (Experience) – Dữ liệu học (dataset)
- P (Performance) – Cách đánh giá hiệu quả (độ chính xác, sai số, AUC,…)
Machine Learning về bản chất là một phương pháp suy diễn mô hình từ dữ liệu, không cần lập trình quy tắc cụ thể.
2. Các loại học máy chính
2.1 Học có giám sát (Supervised Learning)
- Dữ liệu có nhãn: (xi,yi)(xi,yi)
- Mục tiêu: học hàm f:X→Yf:X→Y sao cho dự đoán y^=f(x)y^=f(x) gần đúng với nhãn yy
- Áp dụng cho bài toán:
- Hồi quy (regression): y∈Ry∈R
- Phân loại (classification): y∈{0,1,…,k}y∈{0,1,…,k}
Mục tiêu tối ưu hóa:minf∈FE(x,y)∼D[ℓ(f(x),y)]f∈FminE(x,y)∼D[ℓ(f(x),y)]
Trong đó:
- ℓℓ là hàm mất mát (loss function)
- DD là phân phối dữ liệu
- FF là không gian các hàm mô hình (model class)
2.2 Học không giám sát (Unsupervised Learning)
- Dữ liệu không có nhãn: {xi}{xi}
- Mục tiêu: tìm ra cấu trúc ẩn hoặc phân phối xác suất sinh ra dữ liệu
- Bài toán: phân cụm (clustering), giảm chiều (PCA), phát hiện bất thường

2.3 Học tăng cường (Reinforcement Learning)
- Môi trường tương tác qua lại giữa agent và environment
- Agent thực hiện hành động aa, nhận được phần thưởng rr, và chuyển sang trạng thái mới s′s′
- Mục tiêu: tối đa hoá tổng phần thưởng kỳ vọng trong dài hạn
3. So sánh: Lập trình truyền thống vs. Machine Learning
Đặc điểm | Lập trình truyền thống | Machine Learning |
---|---|---|
Luật | Được lập trình tường minh | Học từ dữ liệu |
Dữ liệu | Chỉ là đầu vào | Là “giáo trình” để máy học |
Khả năng mở rộng | Kém nếu vấn đề phức tạp | Tốt nếu dữ liệu đủ |
Khả năng thích nghi | Không thích nghi được | Có thể cải thiện theo thời gian |
4. Quy trình tổng quát của một hệ thống Machine Learning
- Thu thập dữ liệu
- Tiền xử lý dữ liệu (xử lý thiếu dữ liệu, mã hoá, chuẩn hoá,…)
- Khám phá và phân tích dữ liệu (EDA)
- Chia dữ liệu thành tập huấn luyện / kiểm tra
- Chọn mô hình và huấn luyện
- Đánh giá mô hình
- Triển khai và giám sát
5. Cơ sở toán học nền tảng
Muốn hiểu sâu Machine Learning, bạn cần nắm:
- Đại số tuyến tính: vector, ma trận, chuẩn, tích vô hướng
- Giải tích: đạo hàm, gradient descent
- Xác suất & Thống kê: phân phối, kỳ vọng, Bayes
- Tối ưu hóa: hàm mục tiêu, ràng buộc, regularization
6. Các mô hình học máy phổ biến
Mô hình | Loại | Mô tả ngắn |
---|---|---|
Linear Regression | Hồi quy | Dự đoán biến liên tục |
Logistic Regression | Phân loại | Dự đoán nhị phân |
Decision Tree / Random Forest | Cả hai | Mô hình cây quyết định |
SVM | Phân loại | Tối đa hóa margin |
K-Means | Phân cụm | Gom nhóm dữ liệu không nhãn |
PCA | Giảm chiều | Biến đổi dữ liệu sang không gian mới |
Neural Network | Cả hai | Học phi tuyến với nhiều tầng |
7. Tổng kết
Machine Learning là một ngành học sâu rộng, kết hợp chặt chẽ giữa thống kê, tối ưu, xác suất và lập trình. Để học tốt, bạn cần song song cả lý thuyết lẫn thực hành.
Bài hôm nay là nền tảng để hiểu các bài tiếp theo. Ở bài 2, chúng ta sẽ đi vào một bước cực kỳ quan trọng: Xử lý dữ liệu và chuẩn bị đầu vào cho mô hình – vì mô hình tốt mà dữ liệu dở thì kết quả vẫn… thất bại.
Sign up