Hiểu về phân tích dữ liệu?

Dữ liệu là mỏ dầu mới

Hong Linh Dang
Coding For Fun
3 min readMay 5, 2020

--

Cách con người thu thập dữ liệu

Như tôi đã trình bày trong bài viết trước, dữ liệu đến từ nhiều nguồn như sensor, sự kiện, hình ảnh, video v.v. Đa phần chúng là không có cấu trúc, và chúng ta phải chuyển chúng thành các dữ liệu có cấu trúc để áp dụng các lý thuyết khoa học của Data Science.

Có hai kiểu của dữ liệu có cấu trúc…

Dữ liệu số — numeric

Có 2 dạng của dữ liệu số, một là dạng dữ liệu liên tục như tốc độ gió, thời gian và hai là rời rạc như đếm số lượng sự kiện.

Dữ liệu phân loại — categorical

Kiểu dữ liệu này có giá trị cố định như kiểu màn hình TV (Plasma, LCD, LED, v.v.), hoặc tên của 63 tỉnh thành ở Việt Nam. Dữ liệu binary là một thể loại đặc biệt của dạng dữ liệu phân loại với hai giá trị 0 và 1, yes và no, true và false v.v. Một thể loại khác của dữ liệu phân loại là dữ liệu có thứ tự như mức độ yêu thích (từ 0 tới 5).

Tại sao chúng ta phải phân loại dữ liệu…?

Kiểu dữ liệu rất quan trọng để giúp xác định cách hiển thị dữ liệu trực quan, cách phân tích hoặc mô hình thống kê. Quan trọng hơn, kiểu dữ liệu của một biến xác định cách phần mềm sẽ xử lý các tính toán liên quan tới biến đó.

Mô tả dữ liệu…

Bảng dữ liệu

Dữ liệu có thể được mô tả bằng một bảng như sau:

Nó là một mảng hai chiều với cột mô tả các thuộc tính và dòng mô tả các trường hợp cụ thể của dữ liệu. Dữ liệu ở ví dụ bao gồm hai loại dữ liệu rời rạc (duration và price), và dữ liệu phân loại (category và currency). Bảng dữ liệu này trong Python gọi là Data Frame.

Các loại dữ liệu không diễn tả bằng bảng…

Dữ liệu chuỗi thời gian ghi lại các phép đo liên tiếp của cùng một biến. Nó là thành phần chính của dữ liệu được tạo ra bởi các thiết bị IoT.

Dữ liệu không gian giống nhu mô tả một ngôi nhà. Trọng tâm là đối tượng và toạ độ không gian của nó.

Cấu trúc dữ liệu đồ thị (hoặc mạng) được sử dụng để thể hiện các mối quan hệ vật lý, xã hội và trừu tượng. Ví dụ biểu đồ của một mạng xã hội, chẳng hạn như Facebook hoặc LinkedIn, thể hiện các kết nối giữa những người trên mạng.

Nên nhớ là mỗi loại dữ liệu có các phương pháp khoa học riêng của nó để khai thác.

Cảm ơn bạn đã đọc!

--

--