Mục tiêu của trình bày biểu đồ là để giao tiếp thông tin rõ ràng, toàn vẹn, và hiệu quả hơn. Một biểu đồ được trình bày tốt sẽ khuyến khích sự tham gia của nhiều thành viên trong nhóm, cũng như giúp mọi người tập trung vào bài báo cáo hơn. Với tập dữ liệu đồ sộ, ta cần một cách hiệu quả để có thể hiểu được tính chất của tập dữ liệu đó. Hệ thống thị giác của con người là kênh đón nhận thông tin nhanh chóng và hiệu quả nhất nên việc nắm bắt các nguyên tắc khi trình bày là một kiến thức hữu ích.
Ví dụ
Nếu cho tập dữ liệu sau mà không có cách biểu diễn trực quan, ta rất khó quan sát và hiểu được tính chất của tập dữ liệu.
Chỉ đơn giản sử dụng mô hình biểu diễn scatter plot ta có thể quan sát đường hồi quy cho biết mối quan hệ giữa các thuộc tính cũng như phân bố của dữ liệu ban đầu.
Cách trình bày biểu đồ
Để có thể trình bày biểu đồ, ta cần ánh xạ tập các thuộc tính vào không gian biểu diễn (còn gọi là data encoding). Ta thực hiện hai bước
- Nhận diện kiểu dữ liệu
- Chọn không gian biểu diễn phù hợp với kiểu dữ liệu hiện tại.
Nhận diện kiểu dữ liệu
Thông thường ta có 4 kiểu dữ liệu sau:
- Nomial (nhãn): ví dụ tên trái cây táo, cam,… Các phép toán có thể áp dụng: =, !=
- Ordered (có thứ tự): ví dụ chất lượng các loại thịt A, AA, AAA,… Các phép toán có thể áp dụng: =, !=, <, >, <=, >=
- Interval (khoảng đoạn, cần xác định vị trí tương đối): ví dụ như ngày tháng (16/9/2015), tọa độ địa lý (vĩ độ 47, kinh độ 122). Các phép toán có thể áp dụng: =, !=, <, >, <=, >=, –
- Ratio (vị trí tương đối là số không): ví dụ các độ đo vật lý như chiều dài, cân nặng, các phép đếm. Các phép toán có thể áp dụng: =, !=, <, >, <=, >=, -, /
Chọn không gian biểu diễn phù hợp với kiểu dữ liệu hiện tại
Ta có thể sử dụng các không gian biểu diễn sau của Bertin để biểu diễn dữ liệu. Mô hình biểu diễn này chỉ phục vụ cho không gian 2 chiều.
- Position (vị trí): nomial, ordered, quantitative (interval/ratio)
- Size (kích cỡ): nomial, ordered, quantitative (interval/ratio)
- Value (giá trị): nomial, ordered, quantitative (interval/ratio)
- Texture (vân): normial, ordered
- Color (màu sắc): nomial
- Orientation (phương hướng): nomial
- Shape (hình dáng): nomial
Mức độ chính xác giảm dần từ position đến color.
Biểu diễn dữ liệu nhiều chiều
Dữ liệu 1 chiều
Dữ liệu 2 chiều
Dữ liệu 3 chiều
Ví dụ tập dữ liệu xe hơi
Biểu diễn dữ liệu 7 chiều (thuộc tính) cùng lúc dựa vào mô hình của Bertin.
Kết luận
Những nghiên cứu về cách tiếp nhận thông tin từ thị giác có thể hỗ trợ nhiều trong quá trình thiết kế biểu đồ như mô hình biểu diễn của Bertin ở trên. Qua bài viết này, ta sẽ cải thiện được cách trình bày biểu đồ để người xem có thể hiểu được báo cáo phân tích dữ liệu của mình.
Tham khảo thêm
Source: https://ongxuanhong.wordpress.com/2015/09/16/exploratory-data-analysis-cac-nguyen-tac-trinh-bay-bieu-do/#more-557