自駕車開放數據庫

早期要投入自駕車研發相當不容易，除了車子與電腦，還要有各式的感測器，如光達、雷達、相機/攝影機、陀螺儀、加速度計與GPS等。有了自駕車與相關設備，接下來需要採集數據來驗證自駕車定位、感知、路徑規劃與運動控制等演算法與軟體模組。原始感測器數據可用來測試所開發的軟體以及軟硬體整合性能，但如要更精確的驗證與評估性能，則要更進一步採集與提供更精準的資料(Ground Truth)以及標記數據 (Annotation)。由於一般大學的研究室要擁有這些昂貴的設備並不容易，在 2009 機器人頂尖期刊 International Journal of Robotics Research (IJRR)提出數據論文(Data Papers) 的做法，鼓勵學界開放與分享這些珍貴的數據，讓更多人能從事相關研究。我們早期(2000-2004)以2D光達完成自駕車在市區同時定位、地圖構建與移動物體追蹤(Navlab SLAMMOT Datasets)之數據，在完成相關標記後，藉由這數據論文管道開放[1]。

而隨後最被廣泛使用的自駕車數據則是 KITTI Dataset [2]，其中提供多樣標記光達與相機數據、並建立排行榜來促進學界業界持續精進相關演算法性能。隨著近幾年大量資源投入對自駕車的發展，自駕車已經從大學、研究機構一輛或兩輛的自駕車研發，擴展到 Waymo/Google, Aptiv/nuTonomy, Argo AI, Lyft, Baidu等自駕車公司使用大規模自駕車車隊來開發驗證，加快自駕車營運與落地的進展。隨著 Aptiv/nuTonomy 開放一組比 KITTI 更全面完整的自駕車數據庫，其他公司也陸續開放他們部分的自駕車數據庫。

感謝交通大學機器人感知與學習研究室楊登宇、何若慈、沈依儒、李昀、廖偉翔同學協助下載這些數據庫並把這些數據轉成 rosbag 的格式。除了以機器學習、深度學習的觀點來評斷這些數據庫外，我們在這篇文章試著以自駕車系統工程的觀點來審視這些自駕車數據庫並提出一些看法。

nuScenes by Aptiv/nuTonomy

除了加速度計與GPS，相較於 KITTI 一個光達、四個相機，nuScenes [3]則有一個光達、六個相機與五個車用雷達( Continental ARS 408–21)。這也是這篇文章中所討論的所有自駕車數據庫中，唯一提供 “車用”雷達數據的數據庫。下面影片展示 nuScenes 六個相機的數據還有其對應的各種物體標記。在影片正中央中，較小白點是光達數據，較大的黃點則是五個車用雷達的數據，對應的各種物體標記亦以各種大小的長方體表示。

在這數據庫中，為了達到相機與光達數據同步，是以光達掃描到相機視場(Field of View, FOV)中心時來啟動相機。光達數據收集頻率是 20Hz, 相機則因運算、頻寬與儲存上系統優化的考慮降到 12Hz。所以並不是所有光達的數據都有對應的相機數據。標記數據則是由 Scale AI 所協助提供。

在自駕車感測器的選擇上，雖然 Elon Musk 強烈反對使用光達，但多數自駕車公司所開放的數據庫中，都有光達數據。反觀雷達，雖然目前雷達已被廣泛使用在 (Level 2) ADAS 系統上，絕大部分的自駕車上也都裝有雷達，但只有 nuScenes 提供我們認為所有自駕車數據庫都應該要提供的雷達數據。

(10/24/2019 補充說明：由於 nuScenes 的相機數據是以一秒兩張的頻率來標記，因此上面影片把所有數據都以 2Hz 來呈現。下面影片則是呈現所有數據，其中光達是 20Hz、相機是 12Hz、雷達則是 13Hz。)

Argoverse by Argo AI

Argoverse [4] 是一個針對開發與驗證自駕車感知能力中之移動物體追蹤 (Tracking) 與其未來運動預測 (Forecasting) 模組的開放數據庫。其硬體感測器有七台相機(1920 x 1200, 30Hz)、一組立體視覺相機 (2056 x 2464, 5 Hz) 與二台光達 (Velodyne VLP-32, an overlapping 40 degrees, max 200m)。有提供感測器的校正參數 (intrinsics & extrinsics)，也提供由 GPS 與感測器數據所計算出的自駕車六自由度姿態估測。但因為沒有原始數據，使用者並無法驗證自駕車定位演算法及其相關軟體系統。而 Argoverse 另一特色是提供詳細的語義地圖。在文獻[4]中，作者使用語義地圖來進一步提升移動物體追蹤與未來運動預測模組之性能表現。在標記數據上，除了一般的物件類別，當然要對應物體追蹤與未來運動預測任務提供物體的移動軌跡標記。這在擁擠環境中所採集數據的標記任務並不容易，我們還需要進一步分析。Argo AI 在 NeurIPS 2019 舉辦 3D Tracking 與 Motion Forcasting 比賽來推動這些課題的進展與人才的招募。[4] 第一作者張明芳是台大傅立成教授的高徒，現在在卡內基美隆大學機器人研究所就讀博士班，如果對這數據庫有任何問題，可以直接聯繫她。

Waymo

由於 Waymo/Google 在自駕車發展的歷史最久、累積投入資源最多、以及目前在技術上仍保持領先，Waymo Open Dataset 開放數據格外引人注目。其數據庫中感測器有一個中距離光達、四個短距離光達(用以涵蓋中距離光達的盲區)、五台相機。光達與相機的數據有同步處理，光達與相機的校正參數(intrinsics & extrinsics)亦有提供。跟 Argo AI 一樣，Waymo 提供自駕車之姿態估測與辨識追蹤相關的標記數據。根據我們的觀察比較，Waymo 的數據庫確實涵蓋較多不同的交通、地形與天候狀況。

以上市區擁擠路況與夜間的數據資料跟其他自駕車數據庫差距應該不大。但下面大雨與大霧的數據則較稀少。

讀者應可從上面這些影片中觀察到大雨與大霧對光達與相機數據的影響。讀者可以思考對應這些問題的方法與演算法，並用這些數據來驗證所提方法的有效性。由於 Waymo 的自駕車上亦有配置雷達，開放雷達數據庫將大幅增加 Waymo 數據庫的價值與貢獻。

Lyft

在 Lyft AV dataset 數據庫中，感測器配置有兩個版本, Beta V0 和 Beta++。其中感測器配置有三台光達，兩台在車前保險桿兩側與一台在車頂 (Beta V0: 40-beam LiDAR, Beta++: 64-beam LiDAR)。有六台廣角相機 (Beta V0: Resolution of 1224x1024, FOV of 70°x60°，Beta++: Resolution of 1920x1080, FOV of 82°x52°)。跟前面已經介紹的數據庫比較大的不同是 Lyft 還提供來至一部專門用來偵測交通號誌的望遠相機(Beta V0: Resolution of 2048x1864, FOV of 35°x15°，Beta++: Resolution of 1920x1080, FOV of 27°x17°)的數據，其望遠相機裝設的角度是稍微往上抬的。我們認為這是很重要的數據。相機與光達同步的方法與 nuScenes 相同。數據的標註也是由 Scale AI 協助完成。Lyft 也在 NeurIPS 2019 舉辦比賽，其中比賽項目是三維物體偵測。

(11/05/2019 補充說明：40-beam 的光達來自中國禾赛科技 Hesai ，其垂直方向中間[+2 ~ -6度]部分之解析度高於其他部分近三倍。這樣的設計有利於周遭物體之偵測與追蹤。Velodyne 新型的 32-beam光達亦有相同的設計。)

除了以上四個自駕車開放數據庫外，還有百度的 ApolloScape [5] 與本田 (Honda) 的3D Dataset (H3D) [6]。牛津大學的 Oxford Radar RobotCar Dataset [7] 則提供一個非常獨特的數據庫，其中雷達感測器是 Navtech CTS350-X 高精度(4.38 cm 測量距離解析度)、高解析度 (0.9° 角度解析度) 之 FMCW 雷達。以相機影像為主的標記數據庫則有Cityscapes [8]、 Mapillary Vistas [9] 與 BDD100K [10]等。

如前所述，一個自駕車數據庫的成本並不低。而一個好的自駕車數據庫更需要大量的人力、物力與時間來收集、標記與處理。從一個自駕車數據庫中亦可推估該團隊或公司在自駕車系統上工藝的要求與水準。雖然這些數據庫在各個公司的考慮下，並不見得是完整的自駕車數據，但這些開放數據庫對自駕車的發展有很大的幫助。除了大家都可以使用這些開放數據來開發與驗證自駕車軟體系統，也可以促進自駕車產、官、學界與法人的交流，並近一步進行自駕車軟硬體系統、產品與服務的標準化。台灣有ㄧ定的自駕車研發能量與獨特的交通文化，希望可以早日看到來自台灣的自駕車開放數據庫。

參考文獻

Shao-Wen Yang, Chieh-Chih Wang and Charles Thorpe, The Annotated Laser Data Set for Navigation in Urban Areas, International Journal of Robotics Research (IJRR), 2011.
Andreas Geiger, Philip Lenz, Christoph Stiller and Raquel Urtasun, Vision meets Robotics: the KITTI Dataset, International Journal of Robotics Research (IJRR), 2013.
Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, Oscar Beijbom, nuScenes: A Multimodal Dataset for Autonomous Driving, arXiv:1903.11027, 2019.
Ming-Fang Chang, John Lambert, Patsorn Sangkloy, Jagjeet Singh, Sławomir Ba ̨k, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan and James Hays, Argoverse: 3D Tracking and Forecasting with Rich Maps, CVPR 2019.
Peng Wang, Xinyu Huang, Xinjing Cheng, Dingfu Zhou, Ruigang Yang, the ApolloScape Open Dataset for Autonomous Driving and its Applications, IEEE Transactions on Pattern Recognition and Machine Intelligence, 2019.
Abhishek Patil, Srikanth Malla, Haiming Gang and Yi-Ting Chen, the H3D Dataset for Full-Surround 3D Multi-Object Detection and Tracking in Crowded Urban Scenes, ICRA 2019.
Dan Barnes, Matthew Gadd, Paul Murcutt, Paul Newman and Ingmar Posner, the Oxford Radar RobotCar Dataset: a Radar Extension to the Oxford RobotCar Dataset, arXiv: 1909.01300.
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele, The cityscapes dataset for semantic urban scene understanding, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
Gerhard Neuhold, Tobias Ollmann, Samuel Rota Bulo, and Peter Kontschieder, The mapillary vistas dataset for semantic understanding of street scenes, in Proc. of the International Conference on Computer Vision (ICCV), 2017.
Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao, Vashisht Madhavan and Trevor Darrell, BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling, arXiv:1805.04687.