Xây dựng cơ sở dữ liệu

Trong bài lab, khi đã có dữ liệu đầu vào với đường dẫn trên như ở đầu bài lab, chúng ta sẽ cấu hình AWS GlueCrawler để nó chạy theo lịch mỗi ngày 1 lần. Crawler sẽ quét đường dẫn chứa file Parquet đầu vào, lưu trên S3 rồi thực hiện tạo một database cùng các bảng đi kèm. Khi có một phiên bản mới của report, bảng dữ liệu sẽ được tự động cập nhật.

Amazon Athena giúp chúng ta truy cập và xem nội dung file parquet thông qua mã lệnh SQL. Amazon Athena là một giải pháp phi máy chủ hỗ trợ thực thi lệnh truy vấn SQL trên lượng lớn dữ liệu. Athena chỉ bị tính phi đối với dữ liệu được quét, không giống như giải pháp cơ sở dữ liệu truyền thống.

Các bước cấu hình chi tiết để Amazon Athena có thể truy cập file dữ liệu thông qua AWS Glue như sau:

  1. Truy cập vào AWS Management Console

    • Tìm AWS Glue
    • Chọn AWS Glue

Prerequisite

  1. Trong giao diện AWS Glue

    • Chọn Crawlers
    • Chọn Create crawler

Prerequisite

  1. Cấu hình Crawler, nhập NameCost_MasterCrawler. Sau đó, chọn Next

Prerequisite

  1. Chọn Add a data source

Prerequisite

  1. Cấu hình data source

Prerequisite

  1. Chọn S3 path

Prerequisite

  1. Hoàn tất cấu hình data source.

Prerequisite

  1. Sau khi cấu hình data source, chọn Next

Prerequisite

  1. Đối với security, bạn chọn Create new IAM role

Prerequisite

  1. Nhập tên role và chọn Create

Prerequisite

  1. Sau khi tạo role, chọn Next

Prerequisite

  1. Thực hiện thêm database
  • Chọn Add database

Prerequisite

  1. Nhập tên database là costmaster. Chọn Create database

Prerequisite

  1. Hoàn thành tạo database.

Prerequisite

  1. Thêm database thành công và chọn Next

Prerequisite

  1. Kiểm tra và chọn Create crawler

Prerequisite

  1. Hoàn thành tạo crawler.

Prerequisite

  1. Chọn Run crawler

Prerequisite

  1. Mất khoảng 1 phút để khởi tạo run crawler.

Prerequisite

  1. Khởi tạo run crawler

Prerequisite

  1. Run crawler thành công.

Prerequisite

  1. Kiểm tra Table của AWS Glue. Ta thấy có bảng dữ liệu monthly_report

Prerequisite

  1. Xem chi tiết thông tin bảng dữ liệu.

Prerequisite