Phân tích dữ liệu đúng bản chất, không “nhìn biểu đồ rồi đoán”

🎯 MỤC TIÊU BÀI HỌC
Sau bài này, bạn sẽ:
- Hiểu bản chất biểu đồ Scatter (XY Plot) – khi nào nên dùng, khi nào không
- Biết cách dùng Scatter để phân tích mối quan hệ giữa các biến
- Tránh các lỗi rất phổ biến khi vẽ Scatter trong Excel
- Áp dụng Scatter để:
- Đánh giá hiệu suất nhân sự
- Phân tích chi phí – doanh thu
- Phát hiện dữ liệu bất thường (outliers)
- Chuẩn bị dữ liệu đúng chuẩn cho Power BI & phân tích nâng cao
⚠️ VẤN ĐỀ THỰC TẾ: VÌ SAO NHIỀU BIỂU ĐỒ SCATTER “NHÌN CHO VUI”?
Trong doanh nghiệp, Scatter thường bị:
- Vẽ cho có, không trả lời câu hỏi gì
- Trộn nhầm:
- Category
- Thời gian
- Số đo
- Kết luận kiểu:“Thấy có vẻ tăng”
“Hình như liên quan”
👉 Scatter không dùng để trang trí, nó dùng để trả lời câu hỏi về mối quan hệ.
🧠 TƯ DUY ĐÚNG KHI DÙNG BIỂU ĐỒ SCATTER
Trước khi vẽ Scatter, phải trả lời được:
- Biến X là gì? (nguyên nhân / yếu tố tác động)
- Biến Y là gì? (kết quả)
- Mình muốn tìm:
- Có mối quan hệ không?
- Thuận hay nghịch?
- Tuyến tính hay phi tuyến?
- Có điểm bất thường không?
Nếu không trả lời được → đừng vẽ Scatter.
🧪 DỮ LIỆU MẪU THỰC TẾ (≥ 15 DÒNG)
Ví dụ: Phân tích mối quan hệ giữa số giờ làm thêm và hiệu suất công việc
| employee_id | department | overtime_hours | productivity_score |
|---|---|---|---|
| E001 | Nhân sự | 5 | 72 |
| E002 | Nhân sự | 8 | 78 |
| E003 | Kế toán | 2 | 65 |
| E004 | Kế toán | 10 | 82 |
| E005 | Kinh doanh | 15 | 90 |
| E006 | Kinh doanh | 12 | 88 |
| E007 | Kho | 4 | 60 |
| E008 | Kho | 6 | 66 |
| E009 | Nhân sự | 9 | 80 |
| E010 | Kế toán | 14 | 85 |
| E011 | Kinh doanh | 20 | 92 |
| E012 | Kho | 3 | 58 |
| E013 | Nhân sự | 7 | 75 |
| E014 | Kế toán | 18 | 89 |
| E015 | Kinh doanh | 1 | 55 |
👉 Đây là dạng dữ liệu chuẩn để vẽ Scatter:
- X:
overtime_hours - Y:
productivity_score
🛠️ STEP BY STEP: PHÂN TÍCH MỐI QUAN HỆ BẰNG SCATTER
🔹 STEP 1: Xác định đúng biến X và Y
- X (Horizontal): Số giờ làm thêm
- Y (Vertical): Điểm hiệu suất
⚠️ Sai lầm phổ biến:
- Dùng department (text) cho Scatter ❌
- Dùng thời gian nhưng không chuẩn hóa ❌
🔹 STEP 2: Vẽ Scatter trong Excel (đúng cách)
- Chọn 2 cột:
overtime_hoursproductivity_score
- Insert → Scatter (XY)
👉 Không dùng Line Chart trong trường hợp này.
🔹 STEP 3: Đọc Scatter đúng cách (quan trọng hơn vẽ)
Quan sát:
- Điểm có xu hướng đi lên không?
- Có cụm (cluster) không?
- Có điểm lệch hẳn ra ngoài không?
Ví dụ từ dữ liệu:
- Nhóm overtime 10–15 giờ → productivity cao
- Có điểm overtime thấp nhưng productivity thấp rõ rệt
🔹 STEP 4: Thêm Trendline để kiểm chứng
- Add Trendline (Linear)
- Hiển thị R²
👉 Giúp trả lời:
- Mối quan hệ có đủ mạnh để kết luận không?
- Hay chỉ là cảm giác “nhìn thấy”?
🔹 STEP 5: Chuẩn bị dữ liệu cho Power BI / Automation
Sau khi hiểu logic:
- Giữ dữ liệu ở dạng bảng phẳng
- Không gộp trước
- Để Power BI xử lý nâng cao:
- Color theo phòng ban
- Filter theo kỳ
📊 PHÂN TÍCH KẾT QUẢ TỪ SCATTER
Từ ví dụ:
- Có xu hướng thuận giữa overtime và productivity
- Nhưng:
- Không phải overtime càng nhiều càng tốt
- Xuất hiện điểm hiệu suất thấp dù overtime cao → cần điều tra
👉 Scatter giúp đặt câu hỏi đúng, không phải đưa kết luận vội.
🧾 KẾT LUẬN & ĐÁNH GIÁ
- Scatter là công cụ:
- Rất mạnh
- Rất dễ dùng sai
- Giá trị của Scatter nằm ở:
- Cách chọn biến
- Cách đọc dữ liệu
- Cách đặt câu hỏi
👉 Nếu bạn dùng Scatter chỉ để “cho đẹp”, bạn đang lãng phí dữ liệu.
🚀 GỢI Ý ÁP DỤNG THỰC TẾ
👥 Nhân sự
- Overtime vs hiệu suất
- Thâm niên vs năng suất
- Phát hiện nhân sự quá tải
💰 Kế toán
- Chi phí vs doanh thu
- Thời gian xử lý vs số lỗi
- Phát hiện giao dịch bất thường
📦 Quản lý kho
- Tồn kho vs tốc độ bán
- Thời gian lưu kho vs hao hụt
- Nhận diện hàng tồn rủi ro
📊 Quản lý & phân tích
- Scatter là bước đầu trước:
- Hồi quy
- Dự báo
- Dashboard nâng cao