Dự án

Những thứ mình đã xây, nghiên cứu, và ship

Bộ dữ liệu thông số kỹ thuật ô tô

Bộ dữ liệu mở bao gồm 44.934 mẫu xe và biến thể được sản xuất hàng loạt từ 1985 đến đầu 2022. Bao gồm crawler dựa trên Scrapy với hướng dẫn rõ ràng để thu thập lại dữ liệu.

Python Scrapy Open Data
Xem kho mã nguồn

Phân loại sản phẩm thương mại điện tử

Module phân loại tên sản phẩm thương mại điện tử thành bốn danh mục. Sử dụng sBERT và phoBERT transformer embeddings với mạng neural hai lớp tùy chỉnh. Suy luận tăng tốc bằng ONNX, triển khai trên Streamlit Cloud.

PyTorch ONNX sBERT phoBERT Streamlit

Pipeline phục vụ dữ liệu AML

Phục vụ dữ liệu Chống Rửa tiền toàn ngân hàng từ datalake tại Techcombank. Xây dựng hơn 10 ETL jobs và đóng góp hơn 200 features cho Risk Datamart. Là một phần của hệ thống phát hiện gian lận hồ sơ tín dụng.

PySpark Databricks AWS Enterprise