Linear Regression – Nền tảng vững chắc của học máy

Linear Regression là gì?

Linear Regression (hồi quy tuyến tính) là một thuật toán học máy cổ điển, được dùng để dự đoán giá trị đầu ra liên tục dựa trên một hoặc nhiều đặc trưng đầu vào. Đây là một trong những thuật toán dễ hiểu nhất nhưng vẫn vô cùng mạnh mẽ.

Ví dụ đơn giản: Dự đoán giá nhà dựa trên diện tích – bạn có thể vẽ một đường thẳng thể hiện mối quan hệ giữa 2 yếu tố này. Đó chính là Linear Regression.


Công thức toán học

Đối với hồi quy tuyến tính đơn (1 biến):y^=w⋅x+by^​=w⋅x+b

  • y^y^​: giá trị dự đoán
  • xx: đầu vào
  • ww: hệ số (slope – độ nghiêng)
  • bb: hệ số chệch (bias – intercept)

Với nhiều biến đầu vào (đa biến):y^=w1x1+w2x2+…+wnxn+by^​=w1​x1​+w2​x2​+…+wn​xn​+b


Linear Regression hoạt động thế nào?

  1. Huấn luyện mô hình: Tìm các hệ số ww và bb sao cho sai số dự đoán nhỏ nhất.
  2. Hàm mất mát (Loss Function): thường là MSE – Mean Squared Error:

MSE=1n∑i=1n(yi−y^i)2MSE=n1​i=1∑n​(yi​−y^​i​)2

  1. Tối ưu hóa: dùng thuật toán như Gradient Descent để cập nhật ww, bb.

Khi nào nên dùng Linear Regression?

  • Khi dữ liệu có mối quan hệ tuyến tính (gần giống đường thẳng).
  • Khi bạn muốn mô hình đơn giản, dễ giải thích.
  • Khi cần baseline để so sánh với các thuật toán phức tạp hơn.

Ví dụ thực tế bằng Python

from sklearn.linear_model import LinearRegression
import numpy as np

# Dữ liệu mẫu: diện tích nhà (m2) và giá (triệu VND)
X = np.array([[30], [40], [50], [60], [70]])
y = np.array([300, 400, 500, 600, 700])

model = LinearRegression()
model.fit(X, y)

# Dự đoán giá cho nhà 65m2
predicted = model.predict([[65]])
print(f"Giá dự đoán cho nhà 65m2: {predicted[0]} triệu VND")

Ưu điểm

  • Dễ hiểu và triển khai
  • Tính toán nhanh chóng
  • Dễ giải thích kết quả (rất phù hợp cho dữ liệu kinh doanh)

Hạn chế

  • Không phù hợp khi dữ liệu không tuyến tính
  • Nhạy cảm với outlier (giá trị ngoại lệ)
  • Có thể underfit nếu mối quan hệ quá phức tạp

So sánh với một số thuật toán khác

Thuật toánDữ liệu đầu raCó tuyến tính?Độ phức tạp
Linear RegressionLiên tụcThấp
Logistic RegressionNhị phânThấp
Decision TreeCả haiKhôngTrung bình
Random ForestCả haiKhôngCao

🔚 Kết luận

Dù đơn giản, Linear Regression vẫn là thuật toán cực kỳ hiệu quả và đáng tin cậy trong nhiều tình huống thực tế. Việc hiểu rõ nó cũng là nền tảng để tiếp cận các thuật toán phức tạp hơn trong học máy và trí tuệ nhân tạo.