Linear Regression là gì?
Linear Regression (hồi quy tuyến tính) là một thuật toán học máy cổ điển, được dùng để dự đoán giá trị đầu ra liên tục dựa trên một hoặc nhiều đặc trưng đầu vào. Đây là một trong những thuật toán dễ hiểu nhất nhưng vẫn vô cùng mạnh mẽ.
Ví dụ đơn giản: Dự đoán giá nhà dựa trên diện tích – bạn có thể vẽ một đường thẳng thể hiện mối quan hệ giữa 2 yếu tố này. Đó chính là Linear Regression.

Công thức toán học
Đối với hồi quy tuyến tính đơn (1 biến):y^=w⋅x+by^=w⋅x+b
- y^y^: giá trị dự đoán
- xx: đầu vào
- ww: hệ số (slope – độ nghiêng)
- bb: hệ số chệch (bias – intercept)
Với nhiều biến đầu vào (đa biến):y^=w1x1+w2x2+…+wnxn+by^=w1x1+w2x2+…+wnxn+b
Linear Regression hoạt động thế nào?
- Huấn luyện mô hình: Tìm các hệ số ww và bb sao cho sai số dự đoán nhỏ nhất.
- Hàm mất mát (Loss Function): thường là MSE – Mean Squared Error:
MSE=1n∑i=1n(yi−y^i)2MSE=n1i=1∑n(yi−y^i)2
- Tối ưu hóa: dùng thuật toán như Gradient Descent để cập nhật ww, bb.
Khi nào nên dùng Linear Regression?
- Khi dữ liệu có mối quan hệ tuyến tính (gần giống đường thẳng).
- Khi bạn muốn mô hình đơn giản, dễ giải thích.
- Khi cần baseline để so sánh với các thuật toán phức tạp hơn.
Ví dụ thực tế bằng Python
from sklearn.linear_model import LinearRegression
import numpy as np
# Dữ liệu mẫu: diện tích nhà (m2) và giá (triệu VND)
X = np.array([[30], [40], [50], [60], [70]])
y = np.array([300, 400, 500, 600, 700])
model = LinearRegression()
model.fit(X, y)
# Dự đoán giá cho nhà 65m2
predicted = model.predict([[65]])
print(f"Giá dự đoán cho nhà 65m2: {predicted[0]} triệu VND")
Ưu điểm
- Dễ hiểu và triển khai
- Tính toán nhanh chóng
- Dễ giải thích kết quả (rất phù hợp cho dữ liệu kinh doanh)

Hạn chế
- Không phù hợp khi dữ liệu không tuyến tính
- Nhạy cảm với outlier (giá trị ngoại lệ)
- Có thể underfit nếu mối quan hệ quá phức tạp
So sánh với một số thuật toán khác
Thuật toán | Dữ liệu đầu ra | Có tuyến tính? | Độ phức tạp |
---|---|---|---|
Linear Regression | Liên tục | Có | Thấp |
Logistic Regression | Nhị phân | Có | Thấp |
Decision Tree | Cả hai | Không | Trung bình |
Random Forest | Cả hai | Không | Cao |
🔚 Kết luận
Dù đơn giản, Linear Regression vẫn là thuật toán cực kỳ hiệu quả và đáng tin cậy trong nhiều tình huống thực tế. Việc hiểu rõ nó cũng là nền tảng để tiếp cận các thuật toán phức tạp hơn trong học máy và trí tuệ nhân tạo.
Sign up