SỬ DỤNG PYTHON ĐỂ KIỂM TRA & CHỈNH SỬA DỮ LIỆU TRONG EXCEL

Khi dữ liệu sạch không còn phụ thuộc vào việc “soi Excel bằng mắt”


🎯 1. MỤC TIÊU BÀI HỌC

Sau bài này, bạn sẽ:

  • Hiểu vì sao Excel rất dễ phát sinh dữ liệu sai
  • Biết cách dùng Python để kiểm tra (validate) dữ liệu Excel
  • Tự động:
    • Phát hiện dữ liệu lỗi
    • Chuẩn hóa dữ liệu
    • Chỉnh sửa dữ liệu sai theo quy tắc
  • Tạo được file Excel đã được làm sạch, sẵn sàng cho:
    • Báo cáo
    • Power BI
    • Automation

⚠️ 2. BỐI CẢNH & VẤN ĐỀ THỰC TẾ TRONG DOANH NGHIỆP

Hầu hết dữ liệu Excel trong doanh nghiệp đều có các vấn đề sau:

  • Ngày tháng nhập sai định dạng
  • Cột số chứa text
  • Ô trống không được kiểm soát
  • Giá trị âm ở nơi không được phép âm
  • Dữ liệu từ nhiều nguồn → mỗi người nhập một kiểu

👉 Nếu kiểm tra bằng tay:

  • Rất chậm
  • Rất dễ sót
  • Không thể lặp lại chính xác

➡️ Python sinh ra để làm việc này tốt hơn con người.


🧠 3. TƯ DUY ĐÚNG: PYTHON = NGƯỜI KIỂM TRA DỮ LIỆU KHÔNG BIẾT MỆT

Excel là nơi chứa dữ liệu
Python là người kiểm tra & chỉnh sửa dữ liệu theo luật

Python giúp bạn:

  • Kiểm tra 100% dòng dữ liệu
  • Áp cùng một quy tắc cho mọi file
  • Lặp lại quy trình mỗi ngày / mỗi tháng

👉 Không còn “hy vọng dữ liệu đúng”.


🧪 4. DỮ LIỆU MẪU THỰC TẾ (≥ 15 DÒNG)

Ví dụ: Bảng dữ liệu nhân sự (employee_raw.xlsx)

emp_idemp_namedepartmentjoin_datesalaryemail
E001AnSales01/02/202415000000an@cty.com
E002BìnhSales2024-02-1514000000binh@cty
E003ChiHR15-03-20240chi@cty.com
E004DũngIT2024/04/0120000000dung@cty.com
E005HạnhHR2024-04-10-5000000hanh@cty.com
E006KhoaIT10-04-202418000000khoa@cty.com
E007LanSales2024-04-1516000000lan@cty.com
E008MinhHR2024-04-2015500000minh@cty
E009NamIT2024-04-2517000000nam@cty.com
E010OanhSales25/04/202416500000oanh@cty.com
E011PhúcHR2024-05-010phuc@cty.com
E012QuânIT2024-05-0519000000quan@cty.com
E013TrangSales2024-05-1015500000trang@cty
E014VânHR2024-05-1515000000van@cty.com
E015YếnIT15-05-202418500000yen@cty.com

🛠️ 5. NỘI DUNG CHÍNH – HƯỚNG DẪN STEP BY STEP

🔹 STEP 1: Đọc dữ liệu Excel bằng Python

import pandas as pd

df = pd.read_excel("employee_raw.xlsx")

👉 Python đọc toàn bộ bảng dữ liệu chỉ trong 1 dòng lệnh.


🔹 STEP 2: Kiểm tra dữ liệu thiếu (NULL / trống)

missing_check = df.isnull().sum()
print(missing_check)

👉 Biết chính xác:

  • Cột nào thiếu
  • Thiếu bao nhiêu dòng

🔹 STEP 3: Chuẩn hóa ngày tháng

df["join_date"] = pd.to_datetime(df["join_date"], errors="coerce")

👉 Dòng nào sai định dạng:

  • Python tự phát hiện
  • Trả về giá trị NaT

🔹 STEP 4: Kiểm tra & chỉnh sửa dữ liệu số sai

Ví dụ: Lương không được ≤ 0

df.loc[df["salary"] <= 0, "salary"] = None

👉 Thay vì để sai:

  • Đánh dấu để xử lý tiếp
  • Hoặc gửi cảnh báo

🔹 STEP 5: Kiểm tra email không hợp lệ

df["email_valid"] = df["email"].str.contains("@")

👉 Phát hiện:

  • Email thiếu @
  • Email nhập sai định dạng

🔹 STEP 6: Xuất lại Excel đã được làm sạch

df.to_excel("employee_cleaned.xlsx", index=False)

👉 File mới:

  • Dữ liệu sạch
  • Có thể dùng ngay cho báo cáo & Power BI

📊 6. PHÂN TÍCH KẾT QUẢ & GIÁ TRỊ MANG LẠI

Kiểm tra thủ côngKiểm tra bằng Python
Mất thời gianChạy trong vài giây
Dễ sót lỗiKiểm tra 100%
Không lặp lại chuẩnLặp lại chính xác
Phụ thuộc ngườiHệ thống hóa

🧾 7. KẾT LUẬN & ĐÁNH GIÁ (BẮT BUỘC)

  • Dữ liệu bẩn không phải lỗi con người
  • Mà là do thiếu hệ thống kiểm soát
  • Python giúp:
    • Kiểm tra
    • Chuẩn hóa
    • Chỉnh sửa dữ liệu theo luật

👉 Dữ liệu sạch không nên phụ thuộc vào việc “soi Excel”.


🚀 8. GỢI Ý ÁP DỤNG THỰC TẾ

👥 Nhân sự

  • Kiểm tra dữ liệu nhân viên
  • Chuẩn hóa ngày vào làm
  • Phát hiện dữ liệu thiếu / sai

💰 Kế toán

  • Kiểm tra số âm bất thường
  • Chuẩn hóa dữ liệu trước báo cáo
  • Giảm rủi ro sai số

📦 Quản lý kho

  • Kiểm tra tồn kho âm
  • Chuẩn hóa dữ liệu nhập – xuất
  • Cảnh báo dữ liệu bất thường

🧠 Quản lý / Chủ doanh nghiệp

  • Tin tưởng dữ liệu hơn
  • Giảm phụ thuộc con người
  • Ra quyết định trên dữ liệu sạch

Scroll to Top