Làm Quen Với Thư Viện pandas: Cách Sử Dụng pandas để Đọc và Viết Dữ Liệu Excel

Khi làm việc với dữ liệu trong Python, thư viện pandas là một trong những công cụ mạnh mẽ và phổ biến nhất. Đặc biệt, khi bạn cần làm việc với file Excel, pandas cho phép bạn dễ dàng đọc, ghi, và xử lý dữ liệu từ Excel với vài dòng mã đơn giản. Bài viết này sẽ giúp bạn làm quen với cách sử dụng pandas để đọc và viết dữ liệu từ Excel trong Python.


1. Cài Đặt pandas và openpyxl

Để làm việc với dữ liệu Excel trong Python, bạn cần cài đặt thư viện pandasopenpyxl. pandas là thư viện chủ yếu để xử lý dữ liệu, còn openpyxl sẽ giúp pandas đọc và ghi dữ liệu vào file Excel định dạng .xlsx.

Cài đặt pandas và openpyxl:

  1. Mở terminal hoặc command prompt.
  2. Cài đặt pandasopenpyxl bằng lệnh: pip install pandas openpyxl

Sau khi cài đặt xong, bạn đã sẵn sàng để bắt đầu làm việc với Excel.


2. Đọc Dữ Liệu Từ Excel với pandas

pandas cung cấp phương thức read_excel() để đọc dữ liệu từ file Excel vào một DataFrame. DataFrame là cấu trúc dữ liệu chính trong pandas, cho phép bạn thao tác và phân tích dữ liệu dễ dàng.

Ví dụ thực tế:
Giả sử bạn có một file Excel có tên SalesData.xlsx chứa dữ liệu bán hàng với các cột như ProductName, SalesAmount, SaleDate, và Region.

Các bước thực hiện:

  1. Chuẩn bị dữ liệu: Tạo một file Excel mẫu như sau:
ProductNameSalesAmountSaleDateRegion
Laptop12002023-01-01North
Phone8002023-01-02South
Tablet4502023-01-03East
  1. Đọc dữ liệu từ Excel:
import pandas as pd

# Đọc dữ liệu từ file Excel
df = pd.read_excel('SalesData.xlsx')

# Hiển thị dữ liệu
print(df)

Giải thích:

  • read_excel(): Phương thức này giúp bạn đọc dữ liệu từ file Excel vào pandas.
  • df: Đây là DataFrame chứa toàn bộ dữ liệu từ Excel. Bạn có thể dễ dàng thao tác và phân tích dữ liệu trong df.

Sau khi chạy mã, bạn sẽ thấy dữ liệu từ SalesData.xlsx được tải vào DataFrame và hiển thị như sau:

  ProductName  SalesAmount   SaleDate Region
0      Laptop         1200  2023-01-01  North
1       Phone          800  2023-01-02  South
2      Tablet          450  2023-01-03   East

3. Viết Dữ Liệu Vào Excel Với pandas

Bên cạnh việc đọc dữ liệu từ Excel, pandas cũng hỗ trợ việc ghi dữ liệu vào file Excel thông qua phương thức to_excel(). Điều này rất hữu ích khi bạn muốn lưu lại kết quả phân tích hoặc chỉnh sửa dữ liệu.

Ví dụ thực tế:
Giả sử bạn đã thực hiện một phép tính hoặc thay đổi dữ liệu trong DataFrame và muốn lưu lại kết quả vào một file Excel mới.

Các bước thực hiện:

  1. Chỉnh sửa dữ liệu trong DataFrame (Ví dụ: thêm một cột Profit tính lợi nhuận):
# Thêm cột Profit
df['Profit'] = df['SalesAmount'] * 0.2  # Giả sử lợi nhuận là 20% của SalesAmount

# Hiển thị dữ liệu đã thay đổi
print(df)
  1. Ghi dữ liệu vào file Excel:
# Lưu DataFrame vào file Excel
df.to_excel('SalesDataWithProfit.xlsx', index=False)

Giải thích:

  • df['Profit']: Đây là cách thêm cột tính toán lợi nhuận vào DataFrame.
  • to_excel(): Phương thức này ghi dữ liệu từ DataFrame vào file Excel. Bạn có thể sử dụng tham số index=False để không lưu chỉ số dòng vào file Excel.

Sau khi chạy mã, một file mới có tên SalesDataWithProfit.xlsx sẽ được tạo ra, với dữ liệu bao gồm cột Profit:

ProductNameSalesAmountSaleDateRegionProfit
Laptop12002023-01-01North240
Phone8002023-01-02South160
Tablet4502023-01-03East90

4. Lọc và Tùy Chỉnh Dữ Liệu Trước Khi Lưu Vào Excel

Trước khi ghi dữ liệu vào Excel, bạn có thể áp dụng các thao tác lọc hoặc tùy chỉnh dữ liệu trong DataFrame. Ví dụ, bạn có thể lọc ra các sản phẩm có doanh thu SalesAmount > 500 và chỉ lưu lại những sản phẩm này vào Excel.

Ví dụ thực tế:
Lọc các sản phẩm có doanh thu trên 500 và lưu lại vào Excel.

# Lọc dữ liệu
filtered_df = df[df['SalesAmount'] > 500]

# Lưu dữ liệu lọc vào Excel
filtered_df.to_excel('FilteredSalesData.xlsx', index=False)

Giải thích:

  • df[df['SalesAmount'] > 500]: Lọc ra các dòng có SalesAmount lớn hơn 500.
  • to_excel(): Ghi dữ liệu lọc vào file Excel.

5. Các Tùy Chỉnh Khi Lưu File Excel

Khi sử dụng pandas để ghi dữ liệu vào Excel, bạn có thể áp dụng một số tùy chọn như:

  • sheet_name: Đặt tên cho sheet trong file Excel.
  • columns: Chỉ lưu các cột nhất định.
  • startrow: Đặt dòng bắt đầu ghi dữ liệu trong file Excel.

Ví dụ:

df.to_excel('SalesData_Custom.xlsx', sheet_name='SalesInfo', columns=['ProductName', 'SalesAmount'], index=False)

Kết Luận

Sử dụng pandas để đọc và ghi dữ liệu Excel trong Python là một phương pháp hiệu quả để thao tác với dữ liệu và tự động hóa các quy trình làm việc. Các thao tác như đọc file Excel, thêm cột tính toán, và ghi dữ liệu vào Excel đều có thể được thực hiện một cách dễ dàng với pandas. Bài viết này hy vọng đã cung cấp cho bạn các kiến thức cần thiết để bắt đầu làm việc với dữ liệu Excel trong Python.


Hashtags
#Python #Pandas #ExcelData #PythonExcel #DataAnalysis #ExcelWithPython #LearnPython #ExcelAutomation #DataProcessing #PythonForDataScience #PythonTutorial


Bắt đầu áp dụng pandas ngay hôm nay để tự động hóatối ưu hóa quy trình làm việc với dữ liệu Excel của bạn!

Scroll to Top