Pages

Wednesday, November 22, 2017

Exploratory Data Analysis: Các nguyên tắc trình bày biểu đồ

Mục tiêu của trình bày biểu đồ là để giao tiếp thông tin rõ ràng, toàn vẹn, và hiệu quả hơn. Một biểu đồ được trình bày tốt sẽ khuyến khích sự tham gia của nhiều thành viên trong nhóm, cũng như giúp mọi người tập trung vào bài báo cáo hơn. Với tập dữ liệu đồ sộ, ta cần một cách hiệu quả để có thể hiểu được tính chất của tập dữ liệu đó. Hệ thống thị giác của con người là kênh đón nhận thông tin nhanh chóng và hiệu quả nhất nên việc nắm bắt các nguyên tắc khi trình bày là một kiến thức hữu ích.


Ví dụ

Nếu cho tập dữ liệu sau mà không có cách biểu diễn trực quan, ta rất khó quan sát và hiểu được tính chất của tập dữ liệu.
Data Sets with Identical Linear Model
Data Sets with Identical Linear Model
Chỉ đơn giản sử dụng mô hình biểu diễn scatter plot ta có thể quan sát đường hồi quy cho biết mối quan hệ giữa các thuộc tính cũng như phân bố của dữ liệu ban đầu.
regression line
regression line

Cách trình bày biểu đồ

Để có thể trình bày biểu đồ, ta cần ánh xạ tập các thuộc tính vào không gian biểu diễn (còn gọi là data encoding). Ta thực hiện hai bước
  • Nhận diện kiểu dữ liệu
  • Chọn không gian biểu diễn phù hợp với kiểu dữ liệu hiện tại.

Nhận diện kiểu dữ liệu

Thông thường ta có 4 kiểu dữ liệu sau:
  • Nomial (nhãn): ví dụ tên trái cây táo, cam,… Các phép toán có thể áp dụng: =, !=
fruits
fruits
  • Ordered (có thứ tự): ví dụ chất lượng các loại thịt A, AA, AAA,… Các phép toán có thể áp dụng: =, !=, <, >, <=, >=
meat
meat
  • Interval (khoảng đoạn, cần xác định vị trí tương đối): ví dụ như ngày tháng (16/9/2015), tọa độ địa lý (vĩ độ 47, kinh độ 122). Các phép toán có thể áp dụng: =, !=, <, >, <=, >=, –
location
location
  • Ratio (vị trí tương đối là số không): ví dụ các độ đo vật lý như chiều dài, cân nặng, các phép đếm. Các phép toán có thể áp dụng: =, !=, <, >, <=, >=, -, /
measure
measure

Chọn không gian biểu diễn phù hợp với kiểu dữ liệu hiện tại

Ta có thể sử dụng các không gian biểu diễn sau của Bertin để biểu diễn dữ liệu. Mô hình biểu diễn này chỉ phục vụ cho không gian 2 chiều.
Bertin Visual Attributes
Bertin Visual Attributes
  • Position (vị trí): nomial, ordered, quantitative (interval/ratio)
  • Size (kích cỡ): nomial, ordered, quantitative (interval/ratio)
  • Value (giá trị): nomial, ordered, quantitative (interval/ratio)
  • Texture (vân): normial, ordered
  • Color (màu sắc): nomial
  • Orientation (phương hướng): nomial
  • Shape (hình dáng): nomial
Mức độ chính xác giảm dần từ position đến color.
Perceptual properties
Perceptual properties

Biểu diễn dữ liệu nhiều chiều

Dữ liệu 1 chiều
Dữ liệu 2 chiều
Scatterplot with color region
Scatterplot
Dữ liệu 3 chiều
Ví dụ tập dữ liệu xe hơi
Cars dataset
Cars dataset
Biểu diễn dữ liệu 7 chiều (thuộc tính) cùng lúc dựa vào mô hình của Bertin.
Encoding 7 Variables
Encoding 7 Variables

Kết luận

Những nghiên cứu về cách tiếp nhận thông tin từ thị giác có thể hỗ trợ nhiều trong quá trình thiết kế biểu đồ như mô hình biểu diễn của Bertin ở trên. Qua bài viết này, ta sẽ cải thiện được cách trình bày biểu đồ để người xem có thể hiểu được báo cáo phân tích dữ liệu của mình.
Tham khảo thêm
384 Data Visualization Tools
384 Data Visualization Tools
Source: https://ongxuanhong.wordpress.com/2015/09/16/exploratory-data-analysis-cac-nguyen-tac-trinh-bay-bieu-do/#more-557