Fungua Hifadhidata

Gundua hifadhidata za chanzo wazi ambazo zinakufanya ufundishe mifano ya ML

Fungua hifadhidata

Hifadhidata za Chanzo wazi Ili Uanze na Mifano ya AI / ML

Pato la mifano yako ya AI & ML ni nzuri tu kama data unayotumia kuifundisha - kwa hivyo usahihi ambao unatumika kwa ujumlishaji wa data na kuweka alama na kutambua data hiyo ni muhimu!

Kwa hivyo ikiwa unataka kuanza mpango mpya wa AI / ML na sasa unatambua haraka kuwa kupata data ya hali ya juu ya mafunzo itakuwa moja wapo ya mambo yenye changamoto zaidi ya mradi wako kwani hifadhidata zenye ubora ni mafuta ambayo huweka AI / Injini ya ML inaendesha. Tumekusanya orodha ya hifadhidata zilizo wazi ambazo ni bure kutumia na kufundisha mifano yako ya AI / ML ya siku zijazo.

UmaalumuAina ya dataJina la HifadhidataViwanda / Idara.Dokezo / Tumia KisaMaelezoLink
NLPNakalaMapitio ya AmazonE-biasharaUchanganuzi wa sentensiSeti ya hakiki 35 na upimaji wa Mn kutoka zaidi ya miaka 18 iliyopita kwa maandishi wazi na maelezo ya mtumiaji na bidhaa.Link
NLPNakalaTakwimu za Viungo vya WikipediaujumlaZaidi ya 4 Mn. nakala zilizo na 1.9 Bn. neno ambalo linajumuisha maneno na vishazi pamoja na aya.Link
NLPNakalaStandford Sentiment TreebankBurudaniUchanganuzi wa sentensiHesabu ya ufafanuzi wa hisia za vipande zaidi ya 10,000 vya hakiki kutoka kwa Nyanya iliyooza katika muundo wa faili ya HTMLLink
NLPNakalaSentiment ya Shirika la Ndege la MarekaniNdegeUchanganuzi wa sentensiTweets za 2015 kwenye Mashirika ya Ndege ya Amerika ziligawanyika kwa tani nzuri, hasi, na za upande wowoteLink
CVImage Sura Zenye Lebo Katika Poriujumlausoni RecognitionHifadhidata iliyo na nyuso zaidi ya 13,000 zilizopunguzwa na picha mbili tofauti za mafunzo ya utambuzi wa uso.Link
CVVideo, PichaHifadhidata ya UMDFacesujumlausoni RecognitionHifadhidata iliyofafanuliwa iliyo na nyuso zaidi ya 367,000 kutoka kwa masomo zaidi ya 8,000 ambayo yanajumuisha picha za picha za video zilizobaki.Link
CVImage ImagenetujumlaHifadhidata iliyo na zaidi ya Mn 14. picha katika fomati anuwai za faili, zilizopangwa kulingana na uongozi wa WordNet.Link
CVImage Picha wazi za Googleujumla9 Mn. URL za kugawanya picha za umma kutoka kwa zaidi ya aina 6,000.Link
NLPNakalaHifadhidata ya Huduma muhimu ya MIMICAfyaHifadhidata za Fizikia za Kompyuta na data zilizotambuliwa kutoka kwa wagonjwa 40,000 wa huduma muhimu. Hifadhidata ina habari kama vile idadi ya watu, ishara muhimu, dawa, n.k.Link
CVImageOfisi ya Kitaifa ya Usafiri na Utalii ya AmerikaUtaliiHutoa picha pana kutoka kwa tasnia ya utalii na hifadhidata ya kuaminika, inayoangazia mada kama vile kusafiri kwa ndani na nje na habari za kitalii za kimataifa.Link
NLPNakalaIdara ya UsafiriUtaliiHifadhidata za Utalii zinazojumuisha Hifadhi za Kitaifa, sajili za dereva, madaraja na maelezo ya reli nk.Link
NLPAudioHuduma zote za mtandaoniujumlaZaidi ya manukuu 40k kutoka kwa picha 8,000 zilizoundwa kwa mitindo ya hotuba isiyosimamiwaLink
NLPAudioHifadhidata ya Amri ya HotubaujumlaUtambuzi wa Hotuba, Ufafanuzi wa SautiManeno 1 marefu ya sekunde kutoka kwa maelfu ya watu binafsi, ili kuunda kiolesura cha sauti cha msingi.Link
NLPAudioHati za sauti za MazingiraujumlaHifadhidata za sauti za mazingira ambazo zina sauti ya meza za hafla na meza za maonyesho.Link
NLPNakalaHifadhidata ya Utafiti ya wazi ya COVID-19 AfyaAI ya MatibabuHifadhidata ya utafiti iliyo na nakala za wasomi 45,000 juu ya COVID-19 na familia ya virusi ya coronavirus.Link
CVImageHifadhidata ya Wavu ya Waymo MichezoHifadhidata za kuendesha gari zilizo tofauti zaidi zilizotolewa na WaymoLink
CVImageLebo Serikali ya Umma.Seti kubwa ya picha zilizochapishwa zinazopatikana kupitia Labelme MatlabLink
CVImage100ujumlaZaidi ya vitu anuwai 100 zilizopigwa picha kutoka pembe nyingi (yaani digrii 360)Link
CVImageHifadhidata ya Mbwa ya StanfordujumlaZaidi ya picha 20,500+ zimepangwa katika seti ya picha ya mifugo 120 tofauti ya mbwaLink
CVImageUtambuzi wa Onyesho la NdaniujumlaUtambuzi wa OnyeshoDataset maalum iliyo na picha 15620 kutoka kwa vikundi 67 vya ndani ili kujenga mifano ya utambuzi wa eneoLink
CVImageVisualQAujumlaHifadhidata ambayo inajumuisha maswali ya wazi yanayohusiana na picha 265,016 ambazo zinahitaji uelewa wa maono na ufahamu wa lugha kujibu.Link
NLPNakalaHifadhidata ya Uchanganuzi wa hisia za watu wengiE-biasharaUchanganuzi wa sentensiHifadhidata iliyo na hakiki za bidhaa kutoka AmazonLink
NLPNakalaMapitio ya IMDBBurudaniUchanganuzi wa sentensiHifadhidata iliyo na ukaguzi wa sinema 25000 kwa uchambuzi wa maoniLink
NLPNakalaKikosi cha BloggerujumlaAnanlysisi ya keypraseHifadhidata iliyo na machapisho ya blogi 681,288 kutoka blogger.com inayojumuisha kiwango cha chini 200 cha maneno ya Kiingereza yaliyotumiwa sana.Link
NLPNakalaHatariniujumlaMafunzo ya ChatbotHifadhidata yenye maswali zaidi ya 200,000 ambayo yanaweza kutumiwa kufundisha modeli za ujifunzaji wa mashine kujibu kiakili kiotomatikiLink
NLPNakalaMkusanyiko wa Barua Taka kwa KiingerezaTelecomUtambuzi wa SpamHifadhidata ya ujumbe wa barua taka yenye SMS 5,574 za KiingerezaLink
NLPNakalaMapitio ya YelpujumlaUchanganuzi wa sentensiHifadhidata iliyo na hakiki zaidi ya 5 mn iliyochapishwa na YelpLink
NLPNakalaSpambase ya UCIEnterpriseUtambuzi wa SpamDataset kubwa ya barua pepe za barua taka, muhimu kwa uchujaji wa barua taka.Link
CVVideo, PichaBerkeley DeepDrive BDD100kMichezoMagari ya kujitegemeaMojawapo ya hifadhidata kubwa ya AI ya kujiendesha iliyo na masaa 1,100 ya uzoefu wa kuendesha gari katika video zaidi ya 100,000 kutoka nyakati tofauti za siku kutoka eneo la New York na San Francisco.Link
CVSehemuKoma.aiMichezoMagari ya kujitegemea Dataset ya barabara kuu ya masaa 7 iliyo na habari juu ya kasi ya gari, kuongeza kasi, pembe ya uendeshaji, na kuratibu za GPSLink
CVVideo, PichaHifadhidata ya Jalada la JijiMichezoLebo ya Semantic ya Gari ya KujitegemeaHifadhidata ya ufafanuzi wa kiwango cha pikseli 5,000 pamoja na seti kubwa zaidi ya fremu 20,000 zilizochapishwa dhaifu katika mfuatano wa video za stereo, zilizorekodiwa kutoka miji 50 tofautiLink
CVImageKUL Ubelgiji Hifadhidata ya Ishara ya TrafikiMichezoMagari ya kujitegemeaZaidi ya maelezo 10000+ ya ishara ya trafiki kutoka mkoa wa Flanders kulingana na ishara tofauti za trafiki kutoka Ubelgiji.Link
CVImageLISA: Maabara ya Magari ya Akili na Salama, UC San Diego DatasetsMichezoMagari ya kujitegemeaDataset tajiri iliyo na alama za trafiki, kugundua magari, taa za trafiki, na mifumo ya trajectory.Link
CVImageCIFAR-10ujumlaUtambuzi wa KituDatabase inayojumuisha picha 50,000 na picha za mtihani 10,000 (yaani picha 60,000 za rangi 32 × 32 katika madarasa 10) kwa utambuzi wa kitu.Link
CVImageMtindo MNISTmtindoHifadhidata ya picha ambayo ina mifano 60,000 na seti ya majaribio ya mifano 10,000 katika picha za kijivu 28 × 28, zinazohusishwa na lebo kutoka kwa madarasa 10.Link
CVImageHifadhidata ya IMDB-WikiBurudaniusoni RecognitionHesabu kubwa ya picha za uso zilizo na lebo kama jinsia na umri. Kati ya picha za uso 523,051, picha 460,723 zimepatikana kutoka kwa watu mashuhuri 20,284 kutoka IMDB & 62,328 kutoka Wikipedia.Link
CVSehemuKinetiki-700ujumlaKwa kila darasa la kitendo, mkusanyiko wa data wa hali ya juu una sehemu za video 650,000 na inajumuisha madarasa 700 ya vitendo vya kibinadamu na angalau video za video 600. Hapa, kila klipu huchukua sekunde 10 au zaidi.Link
CVImageMS CocoujumlaKugundua kitu, UgawajiHifadhidata hiyo ina picha 328k na ina jumla ya vielelezo 2.5 Mn na picha 91 za kitu kufundisha kugundua vitu vikubwa, kugawanya, na nukuu za data za mifano ya ML.Link
CVImageHifadhidata ya Uliza ya Binadamu ya MPIIujumlaKaribu picha 25K zilizo na zaidi ya watu 40K walio na viungo vya mwili vilivyofafanuliwa vimejumuishwa kwenye hifadhidata, ambayo hutumiwa kuelezea makadirio ya pozi ya binadamu. Kwa jumla mkusanyiko wa data hufunika shughuli 410 za kibinadamu na kila picha hutolewa na lebo ya shughuli.Link
CVImageFungua PichaujumlaMaelezo ya eneo la kituDasaset ya picha iliyo na picha karibu 9 za Mn zilizochorwa na lebo za kiwango cha picha, visanduku vya kujifunga vya kitu, sehemu ya kitu n.k Datas pia ina 16 Mn. masanduku ya kufunga ya madarasa ya vitu 600 kwenye picha 1.9 Mn.Link
CVVideo, PichaArgo, na Argo, USAMichezoSanduku la Kupakana, Mtiririko wa macho, Lebo ya Tabia, Lebo ya Semantic, Kuashiria NjiaHesabu ya kujiendesha inayojumuisha ramani za HD na metadata ya kijiometri na semantic yaani vituo vya njia, mwelekeo wa njia, na eneo linaloweza kuendeshwa. Hifadhidata hutumiwa kufundisha mifano ya ML, kutengeneza algorithms sahihi zaidi ya utambuzi, ambayo itasaidia magari ya kujiendesha kupita salama.Link
CVSehemuTaa ndogo za Trafiki za Bosch, na Utafiti wa Amerika ya Kaskazini ya BoschMichezoSanduku la KupakanaDatabase inayotumia picha za kamera 13427 na azimio la 1280 * 720 ili kujenga mfumo wa kugundua mwanga wa trafiki. Hifadhidata hiyo ina taa zaidi ya 24000 za taa za trafiki.Link
CVSehemuBrain4Cars, na Cornell Univ., MerikaMichezoLebo ya TabiaDataset inayojumuisha sensorer nyingi za kabati (kamera, sensorer za kugusa, vifaa mahiri, nk) ili kutoa takwimu muhimu juu ya tahadhari ya dereva. Taratibu zetu zinaweza kugundua madereva ambao wanasinzia au wamevurugika na kuongeza kengele muhimu ili kuboresha ulinzi.Link
CVImageCULane, na Kichina Univ. ya Hong Kong, Beijing, UchinaMichezoKuashiria NjiaDataset ya Maono ya Kompyuta juu ya utambuzi wa njia za trafiki, kutumia masaa 55 ya video ambazo 133,235 (seti ya mafunzo 88880, seti ya uthibitishaji wa 9675, na seti ya mtihani 34680) ilitolewa. Inakusanywa na kamera zilizowekwa kwenye magari sita tofauti zinazoendeshwa na madereva tofauti huko Beijing.Link
CVSehemuDAVIS, na Univ. ya Zurich, ETH ¨ Zurich, Ujerumani, UswiziMichezoDataset ya mafunzo ya kuendesha gari ya mwisho hadi mwisho ambayo hutumia kamera ya fremu ya tukio la DAVIS +. Takwimu za gari kama vile uendeshaji, kaba, GPS, n.k hutumiwa kutathmini fusion ya sura na data ya hafla ya programu za magari.Link
CVSehemuDBNet, na Shanghai Jiao Tong Univ., Xiamen Univ., ChinaMichezoWingu la Uhakika, LiDARData ya kweli ya kuendesha gari ya KM 1000, ambayo inajumuisha video iliyokaa, wingu la uhakika, GPS na tabia ya dereva kwa utafiti wa kina juu ya tabia za kuendesha gari.Link
CVSehemuDr (jicho) ve, na Univ. ya Modena na Reggio Emilia, Modena, ItaliaMichezoLebo ya TabiaHifadhidata iliyo na mfuatano wa video 74 wa dakika 5 kila moja, ambayo yalifafanuliwa katika zaidi ya muafaka 500,000. Hifadhidata hiyo inajumuisha maeneo yanayorejelewa na Geo, kasi ya kuendesha, kozi, na pia huandika madereva urekebishaji wa macho na ujumuishaji wao wa muda kutoa ramani maalum za kazi.Link
CVSehemuETH Pedestrian (2009), na ETH Zurich, Zurich, UswiziujumlaSanduku la KupakanaHifadhidata ya mfuatano wa video 74 wa dakika 5 kila moja, iliyoainishwa katika zaidi ya muafaka 500,000. Hifadhidata hutoa nafasi za marejeleo ya kijiografia, kasi ya kuendesha, mwelekeo, na pia lebo za urekebishaji wa macho kwa madereva na ujumuishaji wao wa muda, pamoja na ramani maalum za kazi.Link
CVSehemuFord (2009), na Univ. ya Michigan, Michigan, MarekaniMichezoSanduku la Kupakana ,, LiDARDataset iliyokusanywa na gari la ardhini lenye kiatomati lenye Vera ya 3D-lidar skana, mbili za kusukuma-ufagio zinazoonekana mbele za Rieg lidars, Kitengo cha Upimaji wa Inertial Kitengo (IMU), na mfumo wa kamera ya omnidirectional ya Grey Ladybug3.Link
CVSehemuStereo ya Changamoto ya HCI, Utafiti wa Shirika la Bosch, Hildesheim, UjerumaniujumlaDataset ya fremu milioni kadhaa kutoka kwa video zilizonaswa ambazo zinajumuisha hali anuwai ya hali ya hewa, matabaka mengi ya mwendo na kina; hali katika jiji na mashambani, nk.Link
CVSehemuJAAD, na Chuo Kikuu cha York, Ukraine, CanadaMichezoSanduku la Kupakana, Lebo ya Tabia"JAAD ni hifadhidata ya kusoma umakini wa pamoja katika muktadha wa kuendesha kwa uhuru. Lengo ni juu ya tabia za watembea kwa miguu na dereva wakati wa kuvuka na sababu zinazowashawishi. Ili kufikia mwisho huu, mkusanyiko wa data wa JAAD hutoa mkusanyiko mzuri wa video fupi 346 klipu (sekunde 5-10 kwa muda mrefu) zilizotolewa kutoka kwa zaidi ya masaa 240 ya picha za kuendesha gari kutoka maeneo kadhaa Amerika ya Kaskazini na Ulaya Mashariki. Sanduku za kujifunga zilizo na vitambulisho hutumiwa ambayo huingiliana na au inahitaji umakini wa dereva. Kwa kila video kuna vitambulisho kadhaa (hali ya hewa, maeneo, n.k.) na lebo za tabia zilizowekwa alama (km kusimamishwa, kutembea, kuangalia, n.k.) Kwa kuongezea, orodha ya sifa za idadi ya watu ni hutolewa kwa kila mtu anayetembea kwa miguu (mfano umri, jinsia, mwelekeo wa mwendo, n.k.) na pia orodha ya vitu vinavyoonekana vya eneo la trafiki (mfano ishara ya kusimama, ishara ya trafiki, n.k.) katika kila fremu. "Link
CVImageIshara ya Trafiki ya LISA, na Univ. ya California, San Diego, MerikaMichezoSanduku la KupakanaSeti ya mkusanyiko wa data ulio na video na fremu zilizochapishwa zilizo na alama za trafiki za Merika. Imetolewa kwa hatua mbili, moja ikiwa na picha tu na moja ikiwa na picha na video.Link
CVImageVistas za Mapillary, na Mapillary AB, GlobalMichezoLebo ya SemanticHifadhidata ya upigaji picha ya kiwango cha mitaani ya kutafsiri mandhari ya barabarani kote ulimwenguni na ufafanuzi sahihi wa pikseli na mfano maalum wa wanadamu.Link
CVVideo, PichaKITTI cha Semantic, na Chuo Kikuu cha Bonn, Karlsruhe, UjerumaniMichezoSanduku la Kupakana, Lebo ya Semantic, Kuashiria NjiaHifadhidata ambayo inajumuisha ufafanuzi wa semantiki kwa mfuatano wote wa Benchi ya Odometry. Hifadhidata inafafanua aina anuwai ya trafiki inayotembea na isiyohamia: pamoja na magari, baiskeli, baiskeli, watembea kwa miguu, na waendesha baiskeli, ikiruhusu vitu kwenye eneo kusomwa.Link
CVSehemuOrodha ya Stanford, na Stanford Univ., MerikaMichezoKugundua kitu / Uainishaji LiDAR, GPS, NambariDataset ambayo inajumuisha nyimbo 14,000 zilizo na lebo kama inavyozingatiwa na Velodyne HDL-64E S2 LIDAR katika onyesho za asili za barabara, ambazo zinaweza kutumiwa kufundisha modeli za ujifunzaji wa mashine kwa Utambuzi wa Kitu cha 3D.Link
CVVideo, PichaDataset ya Boxy, iliyoandikwa na Bosch, MerikaMichezoSanduku la Kupakana / Kugundua GariSeti ya utambuzi wa gari iliyo na magari milioni 2 yaliyofafanuliwa kwa mafunzo na kuchambua mikakati ya utambuzi wa kitu kwa magari ya kujiendesha kwenye barabara kuu.Link
CVSehemuBarabara ya TME, na Univ ya Ufundi ya Kicheki, Italia ya KaskaziniMichezoSanduku la KupakanaHifadhidata ya klipu 28 kwa jumla ya dakika 27 imegawanywa katika muafaka wa ufafanuzi wa gari 30,000. Ufafanuzi ulitengenezwa nusu moja kwa moja kutumia data kutoka kwa skana ya laser. Ukusanyaji huu wa data unajumuisha hali za trafiki anuwai, idadi ya vichochoro, kupindika kwa barabara na taa, inayoangazia hali nyingi za upatikanaji kamili.Link
CVSehemuLlamas isiyodhibitiwa, na Bosch, MerikaMichezoKuashiria Njia, LiDARDataset ya Llamas isiyodhibitiwa ilifafanuliwa kwa kutengeneza ramani za kiotomatiki zenye ufafanuzi wa hali ya juu, pamoja na alama za njia za Lidar. Gari inayojitegemea inaweza kupangiliwa dhidi ya ramani hizi na alama za mstari zinakadiriwa kwenye fremu ya kamera. Makadirio ya 3D yameboreshwa kwa kupunguza tofauti kati ya alama za picha zilizoonekana na zilizotabiriwa.Link
NLPAudioFacebook AI Lugha nyingi LibriSpeech (MLS)ujumlaUfafanuzi wa Sauti / Utambuzi wa HotubaFacebook AI Multilingual LibriSpeech (MLS), ni data kubwa ya chanzo, iliyo wazi iliyoundwa iliyoundwa kusaidia kuendeleza utafiti katika utambuzi wa moja kwa moja wa usemi (ASR). MLS hutoa zaidi ya masaa 50,000 ya sauti katika lugha 8: Kiingereza, Kijerumani, Uholanzi, Kifaransa, Uhispania, Kiitaliano, Kireno na Kipolishi. Link