Bài 1: Giới thiệu về Machine Learning

1. Định nghĩa và Động cơ

Machine Learning (ML) là ngành nghiên cứu các thuật toán cho phép máy tính cải thiện hiệu suất thực hiện một nhiệm vụ nào đó dựa trên kinh nghiệm (dữ liệu).

Định nghĩa của Tom M. Mitchell (1997):

Một chương trình máy tính được gọi là học được từ kinh nghiệm E đối với một lớp tác vụ T và thước đo hiệu suất P, nếu hiệu suất của nó trên các tác vụ trong T, đo bằng P, cải thiện nhờ vào kinh nghiệm E.

Ba thành phần chính trong định nghĩa:

T (Task) – Bài toán cần giải quyết (ví dụ: phân loại ảnh, dự đoán giá)
E (Experience) – Dữ liệu học (dataset)
P (Performance) – Cách đánh giá hiệu quả (độ chính xác, sai số, AUC,…)

Machine Learning về bản chất là một phương pháp suy diễn mô hình từ dữ liệu, không cần lập trình quy tắc cụ thể.

2. Các loại học máy chính

2.1 Học có giám sát (Supervised Learning)

Dữ liệu có nhãn: (xi,yi)(xi,yi)
Mục tiêu: học hàm f:X→Yf:X→Y sao cho dự đoán y^=f(x)y^=f(x) gần đúng với nhãn yy
Áp dụng cho bài toán:
- Hồi quy (regression): y∈Ry∈R
- Phân loại (classification): y∈{0,1,…,k}y∈{0,1,…,k}

Mục tiêu tối ưu hóa:min⁡f∈FE(x,y)∼D[ℓ(f(x),y)]f∈FminE(x,y)∼D[ℓ(f(x),y)]

Trong đó:

ℓℓ là hàm mất mát (loss function)
DD là phân phối dữ liệu
FF là không gian các hàm mô hình (model class)

2.2 Học không giám sát (Unsupervised Learning)

Dữ liệu không có nhãn: {xi}{xi}
Mục tiêu: tìm ra cấu trúc ẩn hoặc phân phối xác suất sinh ra dữ liệu
Bài toán: phân cụm (clustering), giảm chiều (PCA), phát hiện bất thường

2.3 Học tăng cường (Reinforcement Learning)

Môi trường tương tác qua lại giữa agent và environment
Agent thực hiện hành động aa, nhận được phần thưởng rr, và chuyển sang trạng thái mới s′s′
Mục tiêu: tối đa hoá tổng phần thưởng kỳ vọng trong dài hạn

3. So sánh: Lập trình truyền thống vs. Machine Learning

Đặc điểm	Lập trình truyền thống	Machine Learning
Luật	Được lập trình tường minh	Học từ dữ liệu
Dữ liệu	Chỉ là đầu vào	Là “giáo trình” để máy học
Khả năng mở rộng	Kém nếu vấn đề phức tạp	Tốt nếu dữ liệu đủ
Khả năng thích nghi	Không thích nghi được	Có thể cải thiện theo thời gian

4. Quy trình tổng quát của một hệ thống Machine Learning

Thu thập dữ liệu
Tiền xử lý dữ liệu (xử lý thiếu dữ liệu, mã hoá, chuẩn hoá,…)
Khám phá và phân tích dữ liệu (EDA)
Chia dữ liệu thành tập huấn luyện / kiểm tra
Chọn mô hình và huấn luyện
Đánh giá mô hình
Triển khai và giám sát

5. Cơ sở toán học nền tảng

Muốn hiểu sâu Machine Learning, bạn cần nắm:

Đại số tuyến tính: vector, ma trận, chuẩn, tích vô hướng
Giải tích: đạo hàm, gradient descent
Xác suất & Thống kê: phân phối, kỳ vọng, Bayes
Tối ưu hóa: hàm mục tiêu, ràng buộc, regularization

6. Các mô hình học máy phổ biến

Mô hình	Loại	Mô tả ngắn
Linear Regression	Hồi quy	Dự đoán biến liên tục
Logistic Regression	Phân loại	Dự đoán nhị phân
Decision Tree / Random Forest	Cả hai	Mô hình cây quyết định
SVM	Phân loại	Tối đa hóa margin
K-Means	Phân cụm	Gom nhóm dữ liệu không nhãn
PCA	Giảm chiều	Biến đổi dữ liệu sang không gian mới
Neural Network	Cả hai	Học phi tuyến với nhiều tầng

7. Tổng kết

Machine Learning là một ngành học sâu rộng, kết hợp chặt chẽ giữa thống kê, tối ưu, xác suất và lập trình. Để học tốt, bạn cần song song cả lý thuyết lẫn thực hành.

Bài hôm nay là nền tảng để hiểu các bài tiếp theo. Ở bài 2, chúng ta sẽ đi vào một bước cực kỳ quan trọng: Xử lý dữ liệu và chuẩn bị đầu vào cho mô hình – vì mô hình tốt mà dữ liệu dở thì kết quả vẫn… thất bại.

Zeek là gì? – Công cụ phân tích mạng mạnh mẽ cho các chuyên gia an ninh

Toán học nền tảng của mạng nơ-ron – Từ trực giác đến Backpropagation

Để lại một bình luận Hủy