Trong bài lab, khi đã có dữ liệu đầu vào với đường dẫn trên như ở đầu bài lab, chúng ta sẽ cấu hình AWS Glue và Crawler để nó chạy theo lịch mỗi ngày 1 lần. Crawler sẽ quét đường dẫn chứa file Parquet đầu vào, lưu trên S3 rồi thực hiện tạo một database cùng các bảng đi kèm. Khi có một phiên bản mới của report, bảng dữ liệu sẽ được tự động cập nhật.
Amazon Athena giúp chúng ta truy cập và xem nội dung file parquet thông qua mã lệnh SQL. Amazon Athena là một giải pháp phi máy chủ hỗ trợ thực thi lệnh truy vấn SQL trên lượng lớn dữ liệu. Athena chỉ bị tính phi đối với dữ liệu được quét, không giống như giải pháp cơ sở dữ liệu truyền thống.
Các bước cấu hình chi tiết để Amazon Athena có thể truy cập file dữ liệu thông qua AWS Glue như sau:
Truy cập vào AWS Management Console
Trong giao diện AWS Glue
Cost_MasterCrawler
. Sau đó, chọn Nextcostmaster
. Chọn Create database