國內外經典開源資料大全！

數據分析那些事

Published in

數據分析那些事

17 min readAug 9, 2021

本文整理了國內外經典的開源資料，包含了目標檢測、自動駕駛、人臉識別、自然語言處理、文字檢測、醫療等方向，具體如下。

一、自動駕駛領域資料集

1.KITTI資料集

KITTI資料集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦，是自動駕駛場景下的計算機視覺演算法評測資料集。該資料集用於評測立體影象(stereo)，光流(optical flow)，視覺測距(visual odometry)，3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環境下的效能。

KITTI包含市區、鄉村和高速公路等場景採集的真實影象資料，每張影象中最多達15輛車和30個行人，還有各種程度的遮擋與截斷。整個資料集由389對立體影象和光流圖，39.2 km視覺測距序列以及超過200k 3D標註物體的影象組成，以10Hz的頻率取樣及同步。總體上看，原始資料集被分類為‘Road’, ‘City’, ‘Residential’, ‘Campus’ 和‘Person’。對於3D物體檢測，label細分為car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。

資料集大小：312MB～440GB（Graviti官網搜尋「KITTI」檢視更多相關資料集）

獲取地址：https://www.graviti.cn/open-datasets/

2.CityScapes資料集

CityScapes是由賓士自動駕駛實驗室、馬克思·普朗克研究所、達姆施塔特工業大學聯合釋出的公開資料集，專注於對城市街景的語義理解。該資料集包含50個不同的城市，在不同的季節和天氣條件下的街景中記錄的各種立體影片序列，Cityscapes資料集共有fine和coarse兩套評測標準，前者提供5000張精細標註的影象，後者提供5000張精細標註外加20000張粗糙標註的影象。

資料集大小：74.15GB

獲取地址：https://gas.graviti.cn/dataset/graviti-open-dataset/CityScapes

3.BDD100K資料集

2018年5月伯克利大學AI實驗室（BAIR）釋出了公開駕駛資料集BDD100K，同時設計了一個圖片標註系統。BDD100K 資料集包含10萬段高畫質影片，每個影片約40秒\720p\30 fps 。每個影片的第10秒對關鍵幀進行取樣，得到10萬張圖片（圖片尺寸：1280*720 ），並進行標註。10萬張圖片中，包含了不同天氣、場景、時間的圖片，而且高畫質、模糊的圖片都有，具有規模大，多樣化的特點。

資料集大小：6.42GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/BDD100K

4.nuScenes資料集

nuScenes資料集是由Motional（以前為nuTonomy）的團隊開發的用於自動駕駛的公共大型資料集。Motional致力於實現安全，可靠和可達的無人駕駛環境。透過向公眾釋出部分資料，Motional旨在推進計算機視覺和自動駕駛的研究。

nuScenes資料集在波士頓和新加坡這兩個城市收集了1000個駕駛場景，這兩個城市交通繁忙,駕駛狀況極具挑戰性。nuScenes手動選擇20秒長的場景，以顯示各種駕駛操作，交通狀況和意外行為。nuScenes收集了不同大洲的資料，能讓我們進一步研究計算機視覺演算法在不同位置，天氣狀況，車輛型別，植被，道路標記以及左右手交通之間的通用性。nuScenes完整的資料集包括約40萬個關鍵幀中的140萬個攝像機影象，39萬個LIDAR掃描資料，1.4 M個RADAR掃描資料和1.4萬個物件邊界框。其擴充套件包nuScenes-lidarseg的40,000個點雲和1000個場景（用於訓練和驗證的850個場景以及用於測試的150個場景）中包含了14億個標註點。

資料集大小：547.98GB

獲取地址：https://gas.graviti.cn/dataset/motional/nuScenes

二、目標檢測資料集

影象語義分割是計算機視覺領域的經典任務之一，目的是將影象分割成幾組具有某種特定語義含義的畫素區域，並識別出每個區域的類別，最終獲得具有畫素語義標註的影象。下面為大家介紹幾個常見的語義分割資料集。

1.COCO資料集

COCO的全稱是Common Objects in Context，是微軟團隊提供的用來進行目標識別、影象分割等任務的資料集。

有如下幾個特點：目標分割、上下文識別、超畫素分割、330K影象（已標記> 200K）、150萬個物件例項、80個物件類別、91個物品類別、每個影象5個字幕、250,000包含關鍵點的人。

COCO資料集支援目標檢測、例項分割、全景分割、Stuff Segmentation、關鍵點檢測、看圖說話等任務型別。圖片格式均為JPG格式，其中目標檢測，例項分割任務對應的影象類別為80類；Stuff Segmentation，全景分割任務新增影象類別53類。

資料大小：83.39GB

獲取地址：https://gas.graviti.cn/dataset/shannont/COCO

2.PASCAL VOC資料集

PASCAL VOC挑戰賽（The PASCAL Visual Object Classes ）是一個世界級的計算機視覺挑戰賽, 很多優秀的計算機視覺模型比如分類，定位，檢測，分割，動作識別等模型都是基於PASCAL VOC挑戰賽及其資料集上推出的，尤其是一些目標檢測模型（比如大名鼎鼎的R CNN系列，以及後面的YOLO，SSD等）。

從2005年到2012年，VOC挑戰賽每年組織一次。每年的內容都有所不同，從最開始的分類，到後面逐漸增加目標分類、目標檢測、目標分割、人體佈局、動作識別等內容，資料集的容量以及種類也在不斷的增加和改善。

對於現在的研究者來說比較重要的兩個年份的資料集是 PASCAL VOC 2007 與 PASCAL VOC 2012。PASCAL VOC 2012資料集是在2007年的基礎上增加而來的，包含4個大類和20個小類。

Pascal VOC2012資料大小：1.86GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/VOC2012Detection

資料大小：671.41GB

獲取地址：https://gas.graviti.cn/dataset/shannont/OpenImages_v6

三、人臉識別類資料集

1.YouTube Face DB資料集

YouTube Face是一個人臉影片資料庫，旨在研究影片中，非受限情況下的人臉識別的問題。資料集包含1,595個不同人的3,425個影片，都是從YouTube下載的。每個主題平均包含2.15個影片。影片剪輯持續時間最短為48幀，最長為6,070幀，平均長度為181.3幀。

資料集大小：671.41GB

獲取地址：https://gas.graviti.cn/dataset/shannont/YouTubeFacesDB

2.CelebA資料集

CelebFaces屬性資料集（CelebA）是一個大規模的面部屬性資料集，其中包含超過20萬名人影象，每個影象都有40個屬性註釋。該資料集中的影象涵蓋了較大的姿勢變化和背景雜波。

CelebA具有多種多樣，數量眾多且註釋豐富的特點，包括:

●10,177個不同的ID
●202,599張人臉影象
●該資料集可用作以下計算機視覺任務的訓練和測試集：面部屬性識別，面部檢測，五官（或面部部分）定位以及面部編輯和合成。

資料集大小：9.55 GB

獲取地址：https://gas.graviti.cn/dataset/shannont/CelebA

3.IMDB-WIKI資料集

IMDB-WIKI人臉資料庫是有IMDB資料庫和Wikipedia資料庫組成，其中IMDB人臉資料庫包含了460,723張人臉圖片，而Wikipedia人臉資料庫包含了62,328張人臉資料庫，總共523,051張人臉資料庫，IMDB-WIKI人臉資料庫中的每張圖片都被標註了人的年齡和性別，對於年齡識別和性別識別的研究有著重要的意義。

資料集大小：276.23GB

獲取地址：https://gas.graviti.cn/dataset/hello-dataset/IMDbWiki

4.LFW資料集

LFW (Labeled Faces in the Wild) 人臉資料庫是由美國馬薩諸塞州立大學阿默斯特分校計算機視覺實驗室整理完成的資料庫，主要用來研究非受限情況下的人臉識別問題。是目前人臉識別的常用測試集，其中提供的人臉圖片均來源於生活中的自然場景，因此識別難度會增大，尤其由於多姿態、光照、表情、年齡、遮擋等因素影響導致即使同一人的照片差別也很大。並且有些照片中可能不止一個人臉出現，對這些多人臉影象僅選擇中心的人臉作為目標，其他區域的視為背景干擾。

LFW資料集主要是從網際網路上搜集影象，共有13233張人臉影象，每張影象均給出對應的人名，共有5749人，且絕大部分人僅有一張圖片，其中有1680 人包含兩個以上的人臉影象。每張圖片的尺寸為250X250，絕大部分為彩色影象，也存在少許黑白人臉圖片。

資料集大小：1.29GB

獲取地址：https://gas.graviti.cn/dataset/graviti-open-dataset/LFW

四、人體姿態估計類資料集

1.LSP資料集

Leeds Sports Pose 是由利茲大學計算機學院於 2010 年釋出的一個體育姿勢資料集。被分為競技、羽毛球、棒球、體操、跑酷、足球、排球和網球幾類，共包含約 2000 個姿勢註釋，影象均來自於 Flickr 。透過對影象進行縮放，聚焦的人物長度約 150 畫素，並且每個影象都帶有14個關節位置的註釋，其左側和右側關節始終“以本人的視角”進行標記。

資料大小：33.78MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/LeedsSportsPose

2.FLIC資料集

FLIC（Frames Labeled In Cinema）資料集由賓夕法尼亞大學-工程與應用科學學院 GRASP 實驗室於 2013 年釋出。該資料集是從好萊塢流行電影中自動收集的影象資料集，包含5003張影象。這些影象截取了30部電影的整十倍的幀數，透過最先進的人物檢測器獲得。每個影象由五個人標註10個上半身關節。此外，影象中擁有 5 箇中值標記以保證異常值註釋具有魯棒性。最後，如果該人被遮擋或嚴重不正面，將被手動刪除。

資料集大小：1.38GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/FLIC

3.MPII Human Pose資料集

MPII Human Pose人體姿勢資料集是人體姿勢預估的一個 benchmark。資料集中包含約25000張標註影象，標註人數超過 4萬人，涵蓋了410中人類活動。這些影象是從 YouTube video 中抽取出來的。此外，在測試集中還收錄了身體部位遮擋、3D 軀幹、頭部方向的標註。

資料集大小：11.26GB

獲取地址：https://gas.graviti.cn/dataset/shannont/MPIIHumanPose

五、文字檢測類資料集

1.MNIST資料集

MNIST是深度學習領域的“Hello World!”。MNIST是一個手寫數字資料庫，有60000個訓練樣本集和10000個測試樣本集，每個樣本影象的寬高為28*28。此資料集是以二進位制儲存的，不能直接以影象格式檢視，不過很容易找到將其轉換成影象格式的工具。

資料集大小：12MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/MNIST

2.SVHN資料集

SVHN是從Google街景影象中的門牌號獲得的一個來自現實世界的影象資料集，用於開發機器學習和物件識別演算法，同時對資料預處理和格式化的要求最低。它的風格與MNIST相似，但有更多數量級的標記資料（超過600,000位數字影象），並且希望解決一個更加困難，難以解決的現實問題（識別自然場景影象中的數字）。

資料集中包含10個類別，數字1～9對應標籤1～9，而“0”的標籤則為10。訓練集中共有73257張影象，測試集中有26032張影象。

資料集格式：帶有字元級邊界框的原始影象。

資料集大小：3.92GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/SVHN

3.CCPD資料集

CCPD（Chinese City Parking Dataset）資料集是一個用於車牌識別的大型國內停車場車牌資料集，是由中科大團隊建立的。該資料集在合肥市的停車場採集得來，採集時間早上7:30到晚上10:00。停車場採集人員手持Android POS機對停車場的車輛拍照並手工標註車牌位置。拍攝的車牌照片涉及多種複雜環境，包括模糊、傾斜、陰雨天、雪天等等。CCPD資料集一共包含將近30萬張圖片，每種圖片大小720x1160x3。一共包含8項，具體如下：

資料集大小：23.48GB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/CCPD

六、NLP資料集

1.common voice資料集【ASR】

Common Voice 是 Mozilla 發起的一項倡議，旨在推進語音識別技術，更廣泛地為大眾服務。Common Voice 也是一套龐大的資料庫，收錄了全球各地貢獻的語音資料，讓任何人都可以更快更輕鬆地訓練支援所有語言的語音識別程式。除了應用最廣泛的語言，common voice還收集了使用人數較少的語種語音樣本。一套豐富而又公開的語音資料集能夠幫助開發者、創業者以及各個社群縮小語言規模的鴻溝。

該資料集當前有 5,671 小時，54 種語言的語音資料。資料集中的每一條都包含了一組獨立 MP3 錄音及相應的文字檔案。資料集所記錄的 7,226 小時的錄音中，有許多條資料同時包含了年齡、性別、口音等人口統計元資料，能夠訓練語音識別引擎提升其準確性。

資料集大小：50.06GB

獲取地址：https://gas.graviti.cn/dataset/hello-dataset/CommonVoiceCN

2.LibriSpeechASR 資料集【ASR】

公開資料集中最常用的英文語料，其中包含了1000小時的16kHz有聲書錄音，這些資料來自LibriVox專案的有聲讀物。資料都經過切割和整理成每條10秒左右的、經過文字標註的音訊檔案，非常適合入門使用。

資料集大小：140.02GB

獲取地址：https://gas.graviti.cn/dataset/hello-dataset/LibriSpeechASR

3. 20NewsGroups 資料集【文字分類】

20newsgroups資料集是用於文字分類、文字挖據和資訊檢索研究的國際標準資料集之一。資料集收集了大約20,000左右的新聞組文件，均勻分為20個不同主題的新聞組集合。一些新聞組的主題特別相似，還有一些卻完全不相關。

20newsgroups資料集有三個版本。第一個版本19997是原始的並沒有修改過的版本。第二個版本bydate是按時間順序分為訓練(60%)和測試(40%)兩部分資料集，不包含重複文件和新聞組名（新聞組，路徑，隸屬於，日期）。第三個版本18828不包含重複文件，只有來源和主題。

﹣20news-19997.tar.gz –原始20 Newsgroups資料集

﹣20news-bydate.tar.gz –按時間分類; 不包含重複文件和新聞組名(18846 個文件)

﹣20news-18828.tar.gz– 不包含重複文件，只有來源和主題 (18828 個文件)

資料集大小：44.31MB

獲取地址：https://gas.graviti.cn/dataset/data-decorators/Newsgroups20

4. Mandarin Chinese Scripted Speech Corpus 資料集【ASR】

此資料集包含了755個小時的中文普通話朗讀音訊和轉寫文字，由1080名說話人提供。

總時長為755小時的中文普通話朗讀語音音訊和轉寫文字，語料內容為日常用語、命令控制和簡訊。由 Magichub 社群開源。

獲取地址：https://gas.graviti.cn/dataset/magichub/MAGICDATAMandarinChineseReadSpeechCorpus_1

七、醫學類資料集

COVID-CT資料集

該資料集的影象是從medRxiv，bioRxiv，NEJM，JAMA，Lancet等與COVID19相關的論文中收集的。COVID-CT-Dataset包含來自216位COVID-19患者的349張CT影象和439張非患者的CT。影象中，還收集了從論文中提取的元資訊，如患者年齡、性別、位置、病史、掃描時間、COVID-19的嚴重程度和放射學報告。