Fungua Hifadhidata
Gundua hifadhidata za chanzo wazi ambazo zinakufanya ufundishe mifano ya ML
Hifadhidata za Chanzo wazi Ili Uanze na Mifano ya AI / ML
Pato la mifano yako ya AI & ML ni nzuri tu kama data unayotumia kuifundisha - kwa hivyo usahihi ambao unatumika kwa ujumlishaji wa data na kuweka alama na kutambua data hiyo ni muhimu!
Kwa hivyo ikiwa unataka kuanza mpango mpya wa AI / ML na sasa unatambua haraka kuwa kupata data ya hali ya juu ya mafunzo itakuwa moja wapo ya mambo yenye changamoto zaidi ya mradi wako kwani hifadhidata zenye ubora ni mafuta ambayo huweka AI / Injini ya ML inaendesha. Tumekusanya orodha ya hifadhidata zilizo wazi ambazo ni bure kutumia na kufundisha mifano yako ya AI / ML ya siku zijazo.
Umaalumu | Aina ya data | Jina la Hifadhidata | Viwanda / Idara. | Dokezo / Tumia Kisa | Maelezo | Link |
---|---|---|---|---|---|---|
NLP | Nakala | Mapitio ya Amazon | E-biashara | Uchanganuzi wa sentensi | Seti ya hakiki 35 na upimaji wa Mn kutoka zaidi ya miaka 18 iliyopita kwa maandishi wazi na maelezo ya mtumiaji na bidhaa. | Link |
NLP | Nakala | Takwimu za Viungo vya Wikipedia | ujumla | Zaidi ya 4 Mn. nakala zilizo na 1.9 Bn. neno ambalo linajumuisha maneno na vishazi pamoja na aya. | Link | |
NLP | Nakala | Standford Sentiment Treebank | Burudani | Uchanganuzi wa sentensi | Hesabu ya ufafanuzi wa hisia za vipande zaidi ya 10,000 vya hakiki kutoka kwa Nyanya iliyooza katika muundo wa faili ya HTML | Link |
NLP | Nakala | Sentiment ya Shirika la Ndege la Marekani | Ndege | Uchanganuzi wa sentensi | Tweets za 2015 kwenye Mashirika ya Ndege ya Amerika ziligawanyika kwa tani nzuri, hasi, na za upande wowote | Link |
CV | Image | Sura Zenye Lebo Katika Pori | ujumla | usoni Recognition | Hifadhidata iliyo na nyuso zaidi ya 13,000 zilizopunguzwa na picha mbili tofauti za mafunzo ya utambuzi wa uso. | Link |
CV | Video, Picha | Hifadhidata ya UMDFaces | ujumla | usoni Recognition | Hifadhidata iliyofafanuliwa iliyo na nyuso zaidi ya 367,000 kutoka kwa masomo zaidi ya 8,000 ambayo yanajumuisha picha za picha za video zilizobaki. | Link |
CV | Image | Imagenet | ujumla | Hifadhidata iliyo na zaidi ya Mn 14. picha katika fomati anuwai za faili, zilizopangwa kulingana na uongozi wa WordNet. | Link | |
CV | Image | Picha wazi za Google | ujumla | 9 Mn. URL za kugawanya picha za umma kutoka kwa zaidi ya aina 6,000. | Link | |
NLP | Nakala | Hifadhidata ya Huduma muhimu ya MIMIC | Afya | Hifadhidata za Fizikia za Kompyuta na data zilizotambuliwa kutoka kwa wagonjwa 40,000 wa huduma muhimu. Hifadhidata ina habari kama vile idadi ya watu, ishara muhimu, dawa, n.k. | Link | |
CV | Image | Ofisi ya Kitaifa ya Usafiri na Utalii ya Amerika | Utalii | Hutoa picha pana kutoka kwa tasnia ya utalii na hifadhidata ya kuaminika, inayoangazia mada kama vile kusafiri kwa ndani na nje na habari za kitalii za kimataifa. | Link | |
NLP | Nakala | Idara ya Usafiri | Utalii | Hifadhidata za Utalii zinazojumuisha Hifadhi za Kitaifa, sajili za dereva, madaraja na maelezo ya reli nk. | Link | |
NLP | Audio | Huduma zote za mtandaoni | ujumla | Zaidi ya manukuu 40k kutoka kwa picha 8,000 zilizoundwa kwa mitindo ya hotuba isiyosimamiwa | Link | |
NLP | Audio | Hifadhidata ya Amri ya Hotuba | ujumla | Utambuzi wa Hotuba, Ufafanuzi wa Sauti | Maneno 1 marefu ya sekunde kutoka kwa maelfu ya watu binafsi, ili kuunda kiolesura cha sauti cha msingi. | Link |
NLP | Audio | Hati za sauti za Mazingira | ujumla | Hifadhidata za sauti za mazingira ambazo zina sauti ya meza za hafla na meza za maonyesho. | Link | |
NLP | Nakala | Hifadhidata ya Utafiti ya wazi ya COVID-19 | Afya | AI ya Matibabu | Hifadhidata ya utafiti iliyo na nakala za wasomi 45,000 juu ya COVID-19 na familia ya virusi ya coronavirus. | Link |
CV | Image | Hifadhidata ya Wavu ya Waymo | Michezo | Hifadhidata za kuendesha gari zilizo tofauti zaidi zilizotolewa na Waymo | Link | |
CV | Image | Lebo | Serikali ya Umma. | Seti kubwa ya picha zilizochapishwa zinazopatikana kupitia Labelme Matlab | Link | |
CV | Image | 100 | ujumla | Zaidi ya vitu anuwai 100 zilizopigwa picha kutoka pembe nyingi (yaani digrii 360) | Link | |
CV | Image | Hifadhidata ya Mbwa ya Stanford | ujumla | Zaidi ya picha 20,500+ zimepangwa katika seti ya picha ya mifugo 120 tofauti ya mbwa | Link | |
CV | Image | Utambuzi wa Onyesho la Ndani | ujumla | Utambuzi wa Onyesho | Dataset maalum iliyo na picha 15620 kutoka kwa vikundi 67 vya ndani ili kujenga mifano ya utambuzi wa eneo | Link |
CV | Image | VisualQA | ujumla | Hifadhidata ambayo inajumuisha maswali ya wazi yanayohusiana na picha 265,016 ambazo zinahitaji uelewa wa maono na ufahamu wa lugha kujibu. | Link | |
NLP | Nakala | Hifadhidata ya Uchanganuzi wa hisia za watu wengi | E-biashara | Uchanganuzi wa sentensi | Hifadhidata iliyo na hakiki za bidhaa kutoka Amazon | Link |
NLP | Nakala | Mapitio ya IMDB | Burudani | Uchanganuzi wa sentensi | Hifadhidata iliyo na ukaguzi wa sinema 25000 kwa uchambuzi wa maoni | Link |
NLP | Nakala | Kikosi cha Blogger | ujumla | Ananlysisi ya keyprase | Hifadhidata iliyo na machapisho ya blogi 681,288 kutoka blogger.com inayojumuisha kiwango cha chini 200 cha maneno ya Kiingereza yaliyotumiwa sana. | Link |
NLP | Nakala | Hatarini | ujumla | Mafunzo ya Chatbot | Hifadhidata yenye maswali zaidi ya 200,000 ambayo yanaweza kutumiwa kufundisha modeli za ujifunzaji wa mashine kujibu kiakili kiotomatiki | Link |
NLP | Nakala | Mkusanyiko wa Barua Taka kwa Kiingereza | Telecom | Utambuzi wa Spam | Hifadhidata ya ujumbe wa barua taka yenye SMS 5,574 za Kiingereza | Link |
NLP | Nakala | Mapitio ya Yelp | ujumla | Uchanganuzi wa sentensi | Hifadhidata iliyo na hakiki zaidi ya 5 mn iliyochapishwa na Yelp | Link |
NLP | Nakala | Spambase ya UCI | Enterprise | Utambuzi wa Spam | Dataset kubwa ya barua pepe za barua taka, muhimu kwa uchujaji wa barua taka. | Link |
CV | Video, Picha | Berkeley DeepDrive BDD100k | Michezo | Magari ya kujitegemea | Mojawapo ya hifadhidata kubwa ya AI ya kujiendesha iliyo na masaa 1,100 ya uzoefu wa kuendesha gari katika video zaidi ya 100,000 kutoka nyakati tofauti za siku kutoka eneo la New York na San Francisco. | Link |
CV | Sehemu | Koma.ai | Michezo | Magari ya kujitegemea | Dataset ya barabara kuu ya masaa 7 iliyo na habari juu ya kasi ya gari, kuongeza kasi, pembe ya uendeshaji, na kuratibu za GPS | Link |
CV | Video, Picha | Hifadhidata ya Jalada la Jiji | Michezo | Lebo ya Semantic ya Gari ya Kujitegemea | Hifadhidata ya ufafanuzi wa kiwango cha pikseli 5,000 pamoja na seti kubwa zaidi ya fremu 20,000 zilizochapishwa dhaifu katika mfuatano wa video za stereo, zilizorekodiwa kutoka miji 50 tofauti | Link |
CV | Image | KUL Ubelgiji Hifadhidata ya Ishara ya Trafiki | Michezo | Magari ya kujitegemea | Zaidi ya maelezo 10000+ ya ishara ya trafiki kutoka mkoa wa Flanders kulingana na ishara tofauti za trafiki kutoka Ubelgiji. | Link |
CV | Image | LISA: Maabara ya Magari ya Akili na Salama, UC San Diego Datasets | Michezo | Magari ya kujitegemea | Dataset tajiri iliyo na alama za trafiki, kugundua magari, taa za trafiki, na mifumo ya trajectory. | Link |
CV | Image | CIFAR-10 | ujumla | Utambuzi wa Kitu | Database inayojumuisha picha 50,000 na picha za mtihani 10,000 (yaani picha 60,000 za rangi 32 × 32 katika madarasa 10) kwa utambuzi wa kitu. | Link |
CV | Image | Mtindo MNIST | mtindo | Hifadhidata ya picha ambayo ina mifano 60,000 na seti ya majaribio ya mifano 10,000 katika picha za kijivu 28 × 28, zinazohusishwa na lebo kutoka kwa madarasa 10. | Link | |
CV | Image | Hifadhidata ya IMDB-Wiki | Burudani | usoni Recognition | Hesabu kubwa ya picha za uso zilizo na lebo kama jinsia na umri. Kati ya picha za uso 523,051, picha 460,723 zimepatikana kutoka kwa watu mashuhuri 20,284 kutoka IMDB & 62,328 kutoka Wikipedia. | Link |
CV | Sehemu | Kinetiki-700 | ujumla | Kwa kila darasa la kitendo, mkusanyiko wa data wa hali ya juu una sehemu za video 650,000 na inajumuisha madarasa 700 ya vitendo vya kibinadamu na angalau video za video 600. Hapa, kila klipu huchukua sekunde 10 au zaidi. | Link | |
CV | Image | MS Coco | ujumla | Kugundua kitu, Ugawaji | Hifadhidata hiyo ina picha 328k na ina jumla ya vielelezo 2.5 Mn na picha 91 za kitu kufundisha kugundua vitu vikubwa, kugawanya, na nukuu za data za mifano ya ML. | Link |
CV | Image | Hifadhidata ya Uliza ya Binadamu ya MPII | ujumla | Karibu picha 25K zilizo na zaidi ya watu 40K walio na viungo vya mwili vilivyofafanuliwa vimejumuishwa kwenye hifadhidata, ambayo hutumiwa kuelezea makadirio ya pozi ya binadamu. Kwa jumla mkusanyiko wa data hufunika shughuli 410 za kibinadamu na kila picha hutolewa na lebo ya shughuli. | Link | |
CV | Image | Fungua Picha | ujumla | Maelezo ya eneo la kitu | Dasaset ya picha iliyo na picha karibu 9 za Mn zilizochorwa na lebo za kiwango cha picha, visanduku vya kujifunga vya kitu, sehemu ya kitu n.k Datas pia ina 16 Mn. masanduku ya kufunga ya madarasa ya vitu 600 kwenye picha 1.9 Mn. | Link |
CV | Video, Picha | Argo, na Argo, USA | Michezo | Sanduku la Kupakana, Mtiririko wa macho, Lebo ya Tabia, Lebo ya Semantic, Kuashiria Njia | Hesabu ya kujiendesha inayojumuisha ramani za HD na metadata ya kijiometri na semantic yaani vituo vya njia, mwelekeo wa njia, na eneo linaloweza kuendeshwa. Hifadhidata hutumiwa kufundisha mifano ya ML, kutengeneza algorithms sahihi zaidi ya utambuzi, ambayo itasaidia magari ya kujiendesha kupita salama. | Link |
CV | Sehemu | Taa ndogo za Trafiki za Bosch, na Utafiti wa Amerika ya Kaskazini ya Bosch | Michezo | Sanduku la Kupakana | Database inayotumia picha za kamera 13427 na azimio la 1280 * 720 ili kujenga mfumo wa kugundua mwanga wa trafiki. Hifadhidata hiyo ina taa zaidi ya 24000 za taa za trafiki. | Link |
CV | Sehemu | Brain4Cars, na Cornell Univ., Merika | Michezo | Lebo ya Tabia | Dataset inayojumuisha sensorer nyingi za kabati (kamera, sensorer za kugusa, vifaa mahiri, nk) ili kutoa takwimu muhimu juu ya tahadhari ya dereva. Taratibu zetu zinaweza kugundua madereva ambao wanasinzia au wamevurugika na kuongeza kengele muhimu ili kuboresha ulinzi. | Link |
CV | Image | CULane, na Kichina Univ. ya Hong Kong, Beijing, Uchina | Michezo | Kuashiria Njia | Dataset ya Maono ya Kompyuta juu ya utambuzi wa njia za trafiki, kutumia masaa 55 ya video ambazo 133,235 (seti ya mafunzo 88880, seti ya uthibitishaji wa 9675, na seti ya mtihani 34680) ilitolewa. Inakusanywa na kamera zilizowekwa kwenye magari sita tofauti zinazoendeshwa na madereva tofauti huko Beijing. | Link |
CV | Sehemu | DAVIS, na Univ. ya Zurich, ETH ¨ Zurich, Ujerumani, Uswizi | Michezo | Dataset ya mafunzo ya kuendesha gari ya mwisho hadi mwisho ambayo hutumia kamera ya fremu ya tukio la DAVIS +. Takwimu za gari kama vile uendeshaji, kaba, GPS, n.k hutumiwa kutathmini fusion ya sura na data ya hafla ya programu za magari. | Link | |
CV | Sehemu | DBNet, na Shanghai Jiao Tong Univ., Xiamen Univ., China | Michezo | Wingu la Uhakika, LiDAR | Data ya kweli ya kuendesha gari ya KM 1000, ambayo inajumuisha video iliyokaa, wingu la uhakika, GPS na tabia ya dereva kwa utafiti wa kina juu ya tabia za kuendesha gari. | Link |
CV | Sehemu | Dr (jicho) ve, na Univ. ya Modena na Reggio Emilia, Modena, Italia | Michezo | Lebo ya Tabia | Hifadhidata iliyo na mfuatano wa video 74 wa dakika 5 kila moja, ambayo yalifafanuliwa katika zaidi ya muafaka 500,000. Hifadhidata hiyo inajumuisha maeneo yanayorejelewa na Geo, kasi ya kuendesha, kozi, na pia huandika madereva urekebishaji wa macho na ujumuishaji wao wa muda kutoa ramani maalum za kazi. | Link |
CV | Sehemu | ETH Pedestrian (2009), na ETH Zurich, Zurich, Uswizi | ujumla | Sanduku la Kupakana | Hifadhidata ya mfuatano wa video 74 wa dakika 5 kila moja, iliyoainishwa katika zaidi ya muafaka 500,000. Hifadhidata hutoa nafasi za marejeleo ya kijiografia, kasi ya kuendesha, mwelekeo, na pia lebo za urekebishaji wa macho kwa madereva na ujumuishaji wao wa muda, pamoja na ramani maalum za kazi. | Link |
CV | Sehemu | Ford (2009), na Univ. ya Michigan, Michigan, Marekani | Michezo | Sanduku la Kupakana ,, LiDAR | Dataset iliyokusanywa na gari la ardhini lenye kiatomati lenye Vera ya 3D-lidar skana, mbili za kusukuma-ufagio zinazoonekana mbele za Rieg lidars, Kitengo cha Upimaji wa Inertial Kitengo (IMU), na mfumo wa kamera ya omnidirectional ya Grey Ladybug3. | Link |
CV | Sehemu | Stereo ya Changamoto ya HCI, Utafiti wa Shirika la Bosch, Hildesheim, Ujerumani | ujumla | Dataset ya fremu milioni kadhaa kutoka kwa video zilizonaswa ambazo zinajumuisha hali anuwai ya hali ya hewa, matabaka mengi ya mwendo na kina; hali katika jiji na mashambani, nk. | Link | |
CV | Sehemu | JAAD, na Chuo Kikuu cha York, Ukraine, Canada | Michezo | Sanduku la Kupakana, Lebo ya Tabia | "JAAD ni hifadhidata ya kusoma umakini wa pamoja katika muktadha wa kuendesha kwa uhuru. Lengo ni juu ya tabia za watembea kwa miguu na dereva wakati wa kuvuka na sababu zinazowashawishi. Ili kufikia mwisho huu, mkusanyiko wa data wa JAAD hutoa mkusanyiko mzuri wa video fupi 346 klipu (sekunde 5-10 kwa muda mrefu) zilizotolewa kutoka kwa zaidi ya masaa 240 ya picha za kuendesha gari kutoka maeneo kadhaa Amerika ya Kaskazini na Ulaya Mashariki. Sanduku za kujifunga zilizo na vitambulisho hutumiwa ambayo huingiliana na au inahitaji umakini wa dereva. Kwa kila video kuna vitambulisho kadhaa (hali ya hewa, maeneo, n.k.) na lebo za tabia zilizowekwa alama (km kusimamishwa, kutembea, kuangalia, n.k.) Kwa kuongezea, orodha ya sifa za idadi ya watu ni hutolewa kwa kila mtu anayetembea kwa miguu (mfano umri, jinsia, mwelekeo wa mwendo, n.k.) na pia orodha ya vitu vinavyoonekana vya eneo la trafiki (mfano ishara ya kusimama, ishara ya trafiki, n.k.) katika kila fremu. " | Link |
CV | Image | Ishara ya Trafiki ya LISA, na Univ. ya California, San Diego, Merika | Michezo | Sanduku la Kupakana | Seti ya mkusanyiko wa data ulio na video na fremu zilizochapishwa zilizo na alama za trafiki za Merika. Imetolewa kwa hatua mbili, moja ikiwa na picha tu na moja ikiwa na picha na video. | Link |
CV | Image | Vistas za Mapillary, na Mapillary AB, Global | Michezo | Lebo ya Semantic | Hifadhidata ya upigaji picha ya kiwango cha mitaani ya kutafsiri mandhari ya barabarani kote ulimwenguni na ufafanuzi sahihi wa pikseli na mfano maalum wa wanadamu. | Link |
CV | Video, Picha | KITTI cha Semantic, na Chuo Kikuu cha Bonn, Karlsruhe, Ujerumani | Michezo | Sanduku la Kupakana, Lebo ya Semantic, Kuashiria Njia | Hifadhidata ambayo inajumuisha ufafanuzi wa semantiki kwa mfuatano wote wa Benchi ya Odometry. Hifadhidata inafafanua aina anuwai ya trafiki inayotembea na isiyohamia: pamoja na magari, baiskeli, baiskeli, watembea kwa miguu, na waendesha baiskeli, ikiruhusu vitu kwenye eneo kusomwa. | Link |
CV | Sehemu | Orodha ya Stanford, na Stanford Univ., Merika | Michezo | Kugundua kitu / Uainishaji LiDAR, GPS, Nambari | Dataset ambayo inajumuisha nyimbo 14,000 zilizo na lebo kama inavyozingatiwa na Velodyne HDL-64E S2 LIDAR katika onyesho za asili za barabara, ambazo zinaweza kutumiwa kufundisha modeli za ujifunzaji wa mashine kwa Utambuzi wa Kitu cha 3D. | Link |
CV | Video, Picha | Dataset ya Boxy, iliyoandikwa na Bosch, Merika | Michezo | Sanduku la Kupakana / Kugundua Gari | Seti ya utambuzi wa gari iliyo na magari milioni 2 yaliyofafanuliwa kwa mafunzo na kuchambua mikakati ya utambuzi wa kitu kwa magari ya kujiendesha kwenye barabara kuu. | Link |
CV | Sehemu | Barabara ya TME, na Univ ya Ufundi ya Kicheki, Italia ya Kaskazini | Michezo | Sanduku la Kupakana | Hifadhidata ya klipu 28 kwa jumla ya dakika 27 imegawanywa katika muafaka wa ufafanuzi wa gari 30,000. Ufafanuzi ulitengenezwa nusu moja kwa moja kutumia data kutoka kwa skana ya laser. Ukusanyaji huu wa data unajumuisha hali za trafiki anuwai, idadi ya vichochoro, kupindika kwa barabara na taa, inayoangazia hali nyingi za upatikanaji kamili. | Link |
CV | Sehemu | Llamas isiyodhibitiwa, na Bosch, Merika | Michezo | Kuashiria Njia, LiDAR | Dataset ya Llamas isiyodhibitiwa ilifafanuliwa kwa kutengeneza ramani za kiotomatiki zenye ufafanuzi wa hali ya juu, pamoja na alama za njia za Lidar. Gari inayojitegemea inaweza kupangiliwa dhidi ya ramani hizi na alama za mstari zinakadiriwa kwenye fremu ya kamera. Makadirio ya 3D yameboreshwa kwa kupunguza tofauti kati ya alama za picha zilizoonekana na zilizotabiriwa. | Link |
NLP | Audio | Facebook AI Lugha nyingi LibriSpeech (MLS) | ujumla | Ufafanuzi wa Sauti / Utambuzi wa Hotuba | Facebook AI Multilingual LibriSpeech (MLS), ni data kubwa ya chanzo, iliyo wazi iliyoundwa iliyoundwa kusaidia kuendeleza utafiti katika utambuzi wa moja kwa moja wa usemi (ASR). MLS hutoa zaidi ya masaa 50,000 ya sauti katika lugha 8: Kiingereza, Kijerumani, Uholanzi, Kifaransa, Uhispania, Kiitaliano, Kireno na Kipolishi. | Link |