Phát hiện và xử lý ngoại lai cho dữ liệu nhiệt độ tại các trạm quan trắc 3h của Việt Nam - Bản tin KHCN&HTQT Quý II năm 2020

Đăng ngày: 30-06-2020 | Lượt xem: 6719
Phát hiện và xử lý các dữ liệu ngoại lai (Outliers) là một trong những bước tiền xử lý quan trọng của rất nhiều loại dữ liệu khác nhau, đặc biệt là các dữ liệu số dạng chuỗi thời gian (Time series). Các dữ liệu khí tượng thu thập được từ các trạm quan trắc như: Nhiệt độ, lượng mưa, vận tốc gió, khí áp…đều là các dữ liệu chuỗi thời gian, và cần phải được tiền xử lý trước khi sử dụng cho bất kỳ mục đích gì.

Hai phương pháp hiệu quả được sử dụng để phát hiện ngoại lai cho dữ liệu có số chiều thấp là Z-Score và biểu đồ Box-plot. Những phương pháp này đã được áp dụng thử nghiệm cho dữ liệu nhiệt độ thu thập được từ 43 trạm quan trắc 3 giờ của Việt Nam trong giai đoạn 6 năm gần đây và cho kết quả tốt, có thể sử dụng trong các nghiên cứu khoa học.

Quá trình đo đạc, xử lý, tổng hợp, truyền và lưu trữ dữ liệu có thể bị ảnh hưởng bởi các yếu tố chủ quan và khách quan làm mất mát và tác động đến độ chính xác của các thông số này. Các điểm dữ liệu ngoại lai hay còn được gọi là các dữ liệu bất thường (Anomalies) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán, do đó cần phải được phát hiện và xử lý trước khi sử dụng.

Dữ liệu thu thập từ các trạm được lưu trữ trong cơ sở dữ liệu MongoDB. Thử nghiệm được tiến hành trên các thông số nhiệt độ của 43 trạm trong khoảng thời gian từ 01h ngày 01/01/2014 tới 22h ngày 31/12/2019. Trong khuôn khổ của bài báo, chúng tôi chọn trạm 48918 -  Côn Đảo để trình bày, minh họa việc phát hiện và xử lý các điểm ngoại lai. Đây là trạm nằm trên đảo có điều kiện khí hậu khắc nghiệt, việc truyền dữ liệu gặp nhiều khó khăn...nhiều nguyên nhân chủ quan và khách quan có thể dẫn đến các điểm bất thường trong dữ liệu quan trắc. Các trạm quan trắc khác cũng sẽ được xử lý lần lượt các bước tương tự như đối với trạm 48918 này.

Để lập trình chúng tôi lựa chọn ngôn ngữ lập trình Python, mã nguồn được viết trên hệ thống Google Colab, sử dụng 3 thư viện nguồn mở bao gồm Pandas, Matplotlib và Seaborn.

Sử dụng Z-Score phát hiện ngoại lai trong dữ liệu nhiệt độ của trạm 48918:

Để xác định ngoại lai chúng tôi lựa chọn ngưỡng có giá trị 5 để lọc các điểm xem xét ngoại lai. Mã nguồn và kết quả sử dụng phương pháp Z-Score để xác định ngoại lai cho trạm 48918 như trong hình dưới đây:

Như vậy, theo phương pháp Z-Score với ngưỡng lọc chọn bằng 5 có tất cả 6 điểm dữ liệu được xem xét là ngoại lai. Trong đó có 5 điểm ngoại lai trái (zscore < 0) và 1 điểm ngoại lai phải (zscore>0)

Sử dụng biểu đồ Box-plot phát hiện ngoại lai trong dữ liệu nhiệt độ của trạm 48918:

Theo như biểu đồ Box-plot, ta có thể nhận thấy có khá nhiều điểm dữ liệu nằm trên và dưới hai râu minimum và maximum của biểu đồ, về nguyên tắc các điểm này đều được xem xét là các điểm dữ liệu ngoại lai. Tuy nhiên, trong phần xử lý chúng tôi chỉ xem xét các điểm dữ liệu có mức độ sai khác lớn, tách biệt hoàn toàn khỏi tập dữ liệu. Từ biểu đồ Box-plot ta có thể lọc các điểm ngoại lai trái với ngưỡng 150C, các điểm ngoại lai phải với ngưỡng 350C.

Kiểm chứng các điểm ngoại lai phát hiện được:

Theo như kết quả thu được cả hai phương pháp sử dụng Z-Score và Biểu đồ Box-plot đều cho cùng một danh sách các điểm ngoại lai với 6 điểm dữ liệu chi tiết như trong bảng dưới đây

Dữ liệu nhiệt độ thu nhận được từ các trạm quan trắc như đã trình bày có dạng chuỗi thời gian, sau mỗi khoảng thời gian 3h sẽ có một điểm dữ liệu mới. Do vậy, để khẳng định đây là các điểm ngoại lai, cần xem xét điểm dữ liệu này trong một chuỗi dữ liệu tương ứng với điểm đó.

Từ các kết quả kiểm chứng có thể khẳng định các điểm này đều là các điểm dữ liệu ngoại lai, có giá trị sai khác rất lớn so với giá trị thực tế. Do vậy, dữ liệu tại các điểm này cần phải được xử lý trước khi sử dụng cho bất kỳ mục đích nào. 

Nguồn : Phát hiện và xử lý ngoại lai cho dữ liệu nhiệt độ tại các trạm quan trắc 3h của Việt Nam – Nghiên cứu của nhóm tác giả Đặng Văn Nam , Nông Thị Oanh, Nguyễn Xuân Hoài , Ngô Văn Mạnh, Nguyễn Thị Hiền.

Ngô Văn Mạnh - Trung tâm Thông tin và Dữ liệu KTTV

Tổng hợp: Vụ KHQT

  Ý kiến bạn đọc

Tin tức liên quan: