Tìm Hiểu về Big Data

Big data

Big Data Là Gì

Big data hay dữ liệu lớn là thuật ngữ chỉ các data có 3 thuộc tính là: dữ liệu có kích thước lớn dữ liệu có tốc độ xử lý nhanh và dữ liệu có sự đa dạng.

Từ định nghĩa trên chúng ta cần lưu ý 3 khía cạnh quan trọng của big data đó là:

  • Kích thước lớn (big volume): Dữ liệu có kích thước lớn có thể lên đến hảng ngàn tỉ Gigabyte hoăc thậm chí lớn hơn.
  • Tốc độ xử lý nhanh (volocity): Dữ liệu đảm bảo xử lý các thao tác như truy xuất, cập nhật, chỉnh sửa... với tốc độ nhanh.
  • Sự đa dạng trong dữ liệu (variety): Dữ liệu không cần tuân theo một cấu trúc và có thể lưu trữ nhiều định dạng khác nhau như văn bản, hình ảnh...

Dữ liệu chỉ đảm bảo được 1 hoặc 2 trong 3 thuộc tính trên thì chưa được coi là big data. Ví dụ có một số dữ liệu trong doanh nghiệp đảm bảo được kích thước lớn và sự đa dạng của dữ liệu nhưng lại có tốc độ xử lý dữ liệu chậm nên chưa được coi là bid data.

Ví Dụ Về Big Data

Ví dụ đơn giản về big data có thể kể đến như thông tin người dùng của trang mạng xã hội Facebook hoặc dữ liệu về các website của Google. Cả hai loại dữ liệu kể trên đều là big data bởi chúng đảm bảo được cả 3 thuộc tính là kích thước lớn, tốc độ xử lý nhanh và sự đa dạng trong dữ liệu.

Một sai lầm phổ biến thường gặp đối với những người mới tìm hiểu về dữ liệu lớn đó là coi big data (dữ liệu lớn) là dữ liệu có kích thước lớn. Điểm khác biệt duy nhất giữa dữ liệu lớn và dữ liệu có kích thước lớn và có sự đa dạng đó là công nghệ sử dụng để giúp đẩy nhanh tốc độ xử lý dữ liệu.

Chuyển Đổi Sang Big Data

Chuyển đổi sang big data ở đây có nghĩa là việc thay đổi các công nghệ hỗ trợ để đảm bảo được 3 thuộc tính cơ bản của dữ liệu lớn.

Trong trường hợp dữ liệu của bạn có kích thước lớn và sự đa dạng nhưng có tốc độ truy cập chậm thì việc thay đổi sử dụng các công nghệ của Big Data sẽ giúp bạn có thể chuyển đổi dữ liệu sang dữ liệu lớn.

Các công nghệ hỗ trợ việc chuyển đổi dữ liệu sang Big Data có thể kể đến như Hadoop, Apache Hive, MongoDB, Amazon Elastic, Redis...

Sự thay đổi trong công nghệ sử dụng sẽ có thể làm ảnh hưởng tới cấu trúc dữ liệu sử dụng tuy nhiên cần đảm bảo được nội dung của dữ liệu không ảnh hưởng. Ví dụ như dữ liệu hiện tại của công ty bạn được lưu trữ trên hệ quản trị cơ sở dữ liệu MySQL và sau đó bạn muốn sử dụng công nghệ mới của Hadoop để tăng tốc độ xử lý dữ liệu. Việc này sẽ yêu cầu bạn thay đổi (modify) một phần cấu trúc trong dữ liệu hiện tại.

Content must not be empty

Related Blog