ClimaCell sử dụng xử lý song song để dự báo thời tiết siêu cục bộ theo từng phút như thế nào
Ngày 05/07/2024 - 05:07.png)
Điện thoại là phương tiện để bạn nói với người khác rằng bạn buồn thế nào về việc trận bóng chày của bạn bị hoãn vì trời mưa. Nó cũng là phương tiện để biết liệu thời tiết có hủy trận đấu bù của bạn vào ngày mai không.
ClimaCell, một công ty công nghệ thời tiết tại Boston, phân tích chất lượng tín hiệu từ điện thoại di động và các thiết bị kết nối khác của bạn để đưa ra dự báo thời tiết siêu cục bộ. Trên thực tế, cảnh báo của công ty này được bản địa hóa đến mức thậm chí có thể cho bạn biết rằng khi bạn kết thúc cuộc gọi trong 12 phút nữa, bạn sẽ cần một chiếc ô — mưa sắp đến, ít nhất là trên khu nhà của bạn.
Biết thời tiết là điều quan trọng — không chỉ vì sự thoải mái mà còn vì sự an toàn và kinh doanh. Ví dụ: Vào đầu tháng 2, Uber thông báo rằng họ có kế hoạch triển khai thông tin chi tiết của ClimaCell vào ứng dụng của mình để dự báo ETA của tài xế chính xác hơn. Trong Giải quần vợt Mỹ mở rộng 2018, các nhà điều hành tại Trung tâm quần vợt quốc gia Billie Jean King ở New York đã biết đóng mái sân vận động trong khi phụ nữ thi đấu, tránh mưa và duy trì môi trường an toàn cho các vận động viên thi đấu. Và vào tháng 2 năm 2018, việc đọc chính xác thời điểm bão tuyết kết thúc đã giúp JetBlue tiết kiệm được “ hàng chục nghìn đô la ” cho các lần hủy chuyến riêng lẻ.
“Độ trễ là yếu tố quan trọng nhất khi bạn phải đối phó với thời tiết.”
Yuval Gonczarowski, giám đốc công nghệ tại ClimaCell, ước tính một phần ba nền kinh tế toàn cầu nhạy cảm với điều kiện thời tiết. Nhưng việc quản lý hàng triệu điểm dữ liệu thời tiết đủ nhanh để cung cấp dự báo từng phút không phải là điều dễ dàng.
Gonczarowski cho biết: “Độ trễ là tên của trò chơi khi bạn xử lý thời tiết. “Khi bạn có tất cả hàng triệu điểm dữ liệu này, chúng tôi phải làm việc rất chăm chỉ để đưa chúng vào hệ thống của mình theo thời gian thực, hiệu suất cao, độ trễ thấp”.
Built In đã trao đổi với Gonczarowski về cách công ty công nghệ thời tiết này cập nhật và phân tích khối lượng dữ liệu thời tiết lớn như vậy một cách nhanh chóng.
Tính toán song song hoàn thành nhiều quy trình cùng một lúc. ClimaCell nhận được hàng triệu điểm dữ liệu mới sau mỗi hai phút. Công ty dựa vào xử lý song song để làm sạch, cô đọng và đưa chúng vào mô hình học máy cùng một lúc.
Thuật toán hợp nhất cảm biến kết hợp dữ liệu một cách tự tin. ClimaCell nhận hình ảnh, dữ liệu về tần số vi sóng và nhiệt độ, và các thông tin thời tiết khác từ hàng triệu nguồn. Thuật toán hợp nhất cảm biến của nó kết hợp tất cả dữ liệu này thành một nguồn gắn kết để tạo ra thông tin đáng tin cậy về tình hình thời tiết hiện tại ở nơi bạn đang ở.
GPU có thể tăng tốc xử lý dữ liệu. ClimaCell cung cấp năng lượng cho hệ thống điện toán song song của mình bằng GPU, bao gồm hàng trăm bộ xử lý lõi và hàng nghìn luồng đồng thời. ClimaCell cho biết GPU là chìa khóa để đưa hàng triệu điểm dữ liệu vào hệ thống thuật toán của mình một cách nhanh chóng
.png)
Yuval Gonzarowski là ai?
Sử dụng phần mềm để giải quyết vấn đề phần cứng
Giống như Cơ quan Quản lý Khí quyển và Đại dương Quốc gia và các công ty thời tiết truyền thống khác, ClimaCell dự báo mưa bằng vệ tinh, radar và dữ liệu từ các trạm thời tiết “thực tế”, các cơ sở do các cơ quan chính phủ vận hành để đo nhiệt độ, áp suất khí quyển, độ ẩm, tốc độ và hướng gió, và lượng mưa. Nhưng các phương pháp này không vẽ nên một bức tranh hoàn chỉnh.
“Các tín hiệu đã có sẵn để cho chúng ta biết câu chuyện về thời tiết.”
Gonczarowski cho biết vệ tinh có phạm vi phủ sóng tuyệt vời nhưng không cung cấp tầm nhìn tuyệt vời ra đường phố hoặc thậm chí là thành phố. Các trạm thời tiết thực tế trên mặt đất tốn kém để vận hành và không được phân bổ đều trên toàn cầu — ví dụ, Mumbai, một thành phố có 13 triệu người dễ bị gió mùa, chỉ có hai . Thuật ngữ "dưới radar" nên được hiểu theo nghĩa đen, Gonczarowski nói thêm: Radar có thể quét tốt các điều kiện thời tiết ở độ cao lớn, nhưng không gần mặt đất.
“ClimaCell viết mã, chúng tôi phân tích, chúng tôi viết thuật toán. Chúng tôi không triển khai cảm biến”, Gonczarowski nói. “Chúng tôi chỉ tin rằng các tín hiệu đã có sẵn để cho chúng tôi biết câu chuyện về thời tiết”.
ClimaCell đã hợp tác với các mạng không dây như Vodafone và National Grid để nhận dữ liệu tín hiệu không dây từ tháp này sang tháp khác — trên thực tế, "cell" trong ClimaCell bắt nguồn từ thuật ngữ "mạng di động". Các nhà cung cấp mạng không dây cung cấp cho ClimaCell quyền truy cập vào tín hiệu vi sóng — nhiều nhà cung cấp cung cấp thông tin chẩn đoán điện thoại di động mà họ thường vứt bỏ, Gonczarowski cho biết — và các thuật toán của ClimaCell phân tích cách các tín hiệu này bị ảnh hưởng bởi điều kiện thời tiết trên mặt đất.
"Khi tôi thả một hòn đá, nó sẽ rơi xuống đất, đúng không? Khi tôi thả một hòn đá xuống nước, nó sẽ rơi xuống đất chậm hơn một chút. Cũng giống như vậy", Gonczarowski nói. "Chúng tôi xem xét cường độ tín hiệu được gửi đi và cường độ tín hiệu được nhận".
Công ty cũng thu thập tín hiệu từ các thiết bị Internet vạn vật như cảm biến thành phố thông minh, xe ô tô kết nối và tài xế Uber, hình ảnh từ camera thành phố, v.v. để biết thời tiết như thế nào trong phạm vi 500 mét tính từ nơi họ đang ở. Những điểm dữ liệu mới này bổ sung khoảng 500 triệu bit thông tin vào dữ liệu trạm thời tiết vệ tinh, radar và thực địa mà ClimaCell sử dụng để dự đoán điều kiện thời tiết ở hơn 50 quốc gia.
.png)
Hình ảnh: ClimaCell
Xử lý hàng triệu điểm dữ liệu mới mỗi hai phút
Cứ hai phút, ClimaCell lại nhận được một tập dữ liệu mới, bao gồm hình ảnh đèn đường sương mù, nhiệt độ từ những chiếc xe được kết nối và tín hiệu điện thoại di động thu được.
“Cứ mỗi hai phút, vấn đề lại leo thang. Nó làm vấn đề lớn hơn và trở nên thách thức hơn nhiều”, Gonczarowski nói. “Một trong những người đứng đầu nhóm đã nói với tôi, 'Đây là công việc đầu tiên mà stack overflow không giúp ích gì cho tôi.'”
Công ty sử dụng các đơn vị xử lý đồ họa (GPU) — với hàng trăm bộ xử lý lõi, hàng nghìn luồng đồng thời và khả năng tối đa hóa thông lượng dấu phẩy động — để cung cấp năng lượng cho hệ thống điện toán song song khổng lồ trên Google Cloud Platform, kết hợp, dọn dẹp và đưa dữ liệu mới vào mô hình máy học. Cloud Dataflow của Google xử lý dữ liệu thời tiết bằng cách thu thập các cửa sổ dữ liệu để xử lý hàng loạt.
Sau khi thu thập dữ liệu, nhóm công nghệ mới của ClimaCell sẽ khử trùng thông tin nhận được, làm sạch thông tin để đảm bảo chỉ bao gồm dữ liệu thời tiết chính xác nhất trong mô hình của mình. Nếu xe của bạn gửi thông số 100 độ vào tháng 1, ClimaCell cần biết rằng Boston không ở giữa đợt nắng nóng — hệ thống sưởi xe của bạn chỉ đang bật.
ClimaCell xác thực dữ liệu thông qua một số phương pháp. Nếu dữ liệu được thu thập gần trạm thời tiết thực tế, Gonczarowski cho biết ClimaCell coi số liệu của trạm là đáng tin cậy và sử dụng thông tin đó để xác thực mục. Những lần khác, nó so sánh dữ liệu mới với nhiệt độ lịch sử, như nhiệt độ trung bình theo mùa. Gonczarowski cho biết các cá nhân trong nhóm khoa học dữ liệu khí quyển của ClimaCell cũng giúp ưu tiên thông tin mà nó tiếp nhận.
“Chúng tôi là công ty thời tiết duy nhất có nhà sinh học nghề nghiệp làm việc.”
Gonczarowski cho biết: “Họ có thể giúp chúng tôi thực sự ưu tiên các nguồn dữ liệu và tạo ra thứ mà chúng tôi gọi là lớp điều kiện hiện tại, lớp này tiếp nhận tất cả các nguồn khác nhau này và cho tôi biết, bạn biết đấy, với sự tự tin cao độ, 'Tôi tin rằng ở đây độ ẩm là X'. "Tôi nghĩ chúng tôi là công ty thời tiết duy nhất có một nhà sinh học nghề nghiệp trên tàu".
Gonczarowski cho biết, sự kết hợp dữ liệu từ tất cả các nguồn này tạo ra một thuật toán hợp nhất cảm biến, nghĩa là tổng của tất cả các điểm này chính xác hơn so với việc dữ liệu được đọc riêng lẻ và tách biệt. Hợp nhất cảm biến tạo ra thông số về thời tiết trên một khối cụ thể.
Lớp này sau đó được đưa vào hệ thống máy học của ClimaCell, nơi kết hợp dữ liệu mới với dữ liệu thực tế, vệ tinh, radar và dữ liệu lịch sử của chính phủ để dự báo thời tiết sẽ như thế nào trong vòng sáu ngày tới.
Thời gian chạy của mô hình này là chưa đầy năm phút.
“Ý tưởng ở đây là, cơn mưa đầu tiên gây ra một số loại hành vi. Tại sao tôi không chỉ xem xét hành vi đó?” Gonczarowski nói.
.png)
Hình ảnh: ClimaCell
ClimaCell lưu trữ dữ liệu như thế nào
Các nhà khoa học khí quyển, nhà sinh vật học, kỹ sư nghiên cứu và nhiều người khác đã xây dựng một hệ thống tùy chỉnh được cấu hình cho "lượng RAM lớn" để giúp ClimaCell lưu trữ dữ liệu thời tiết trong bộ nhớ của nó.
Công ty lưu trữ lượng dữ liệu khổng lồ này trong hệ thống Google Cloud Storage. Gonczarowski cho biết các kỹ sư đã xây dựng hệ thống lưu trữ của ClimaCell với mục đích giải quyết vấn đề của Facebook, tránh được vấn đề mà người dùng trang mạng xã hội này gặp phải khi họ tìm kiếm một bài đăng cũ: Khi bạn mở Facebook, bạn phải cuộn đến một năm cụ thể — bạn không thể chỉ yêu cầu những gì bạn cần và ngay lập tức có được thông tin bạn muốn.
“Hai trường hợp sử dụng chính của việc truy cập dữ liệu thời tiết là qua không gian và qua thời gian. Vì vậy, một cách tôi sẽ truy cập mọi thứ rất nhanh là tôi sẽ nói, 'Tôi muốn lấy mọi thứ đã xảy ra trong khu vực Boston rộng lớn vào lúc 9 giờ sáng nay'", Gonczarowski cho biết. "Tôi có thể nhảy thẳng vào một năm cụ thể và tôi sẽ lấy dữ liệu đó từ năm cụ thể đó".
“Thời tiết có ý nghĩa gì với tôi?”
Gonczarowski cho biết một số cơ sở dữ liệu của ClimaCell được xây dựng trên cơ sở dữ liệu không gian địa lý hoặc loại GIS đã thay đổi. Các ngôn ngữ mà nhóm của ông chủ yếu sử dụng là từ các thư viện Python khoa học, bao gồm MPI, SciPy và pandas.
Ông cho biết ClimaCell hiện đang tăng gấp đôi việc biên soạn kho lưu trữ lịch sử về thông tin thời tiết. Được gọi là nền tảng "Thời tiết cho AI", nền tảng này dành cho các kỹ sư khác để tiếp nhận và xây dựng hệ thống trí tuệ nhân tạo của riêng họ.
Sau đó, ông nói thêm, những nhà phát triển và nhà khoa học này có thể “lấy dữ liệu thời tiết lịch sử và tự trả lời câu hỏi: 'Thời tiết có ý nghĩa gì đối với tôi?'”










