Fungua Hifadhidata

Gundua hifadhidata za chanzo wazi ambazo zinakufanya ufundishe mifano ya ML

Hifadhidata za Chanzo wazi Ili Uanze na Mifano ya AI / ML

Pato la mifano yako ya AI & ML ni nzuri tu kama data unayotumia kuifundisha - kwa hivyo usahihi ambao unatumika kwa ujumlishaji wa data na kuweka alama na kutambua data hiyo ni muhimu!

Kwa hivyo ikiwa unataka kuanza mpango mpya wa AI / ML na sasa unatambua haraka kuwa kupata data ya hali ya juu ya mafunzo itakuwa moja wapo ya mambo yenye changamoto zaidi ya mradi wako kwani hifadhidata zenye ubora ni mafuta ambayo huweka AI / Injini ya ML inaendesha. Tumekusanya orodha ya hifadhidata zilizo wazi ambazo ni bure kutumia na kufundisha mifano yako ya AI / ML ya siku zijazo.

Umaalumu	Aina ya data	Jina la Hifadhidata	Viwanda / Idara.	Dokezo / Tumia Kisa	Maelezo	Link
NLP	Nakala	Mapitio ya Amazon	E-biashara	Uchanganuzi wa sentensi	Seti ya hakiki 35 na upimaji wa Mn kutoka zaidi ya miaka 18 iliyopita kwa maandishi wazi na maelezo ya mtumiaji na bidhaa.	Link
NLP	Nakala	Takwimu za Viungo vya Wikipedia	ujumla		Zaidi ya 4 Mn. nakala zilizo na 1.9 Bn. neno ambalo linajumuisha maneno na vishazi pamoja na aya.	Link
NLP	Nakala	Standford Sentiment Treebank	Burudani	Uchanganuzi wa sentensi	Hesabu ya ufafanuzi wa hisia za vipande zaidi ya 10,000 vya hakiki kutoka kwa Nyanya iliyooza katika muundo wa faili ya HTML	Link
NLP	Nakala	Sentiment ya Shirika la Ndege la Marekani	Ndege	Uchanganuzi wa sentensi	Tweets za 2015 kwenye Mashirika ya Ndege ya Amerika ziligawanyika kwa tani nzuri, hasi, na za upande wowote	Link
CV	Image	Sura Zenye Lebo Katika Pori	ujumla	usoni Recognition	Hifadhidata iliyo na nyuso zaidi ya 13,000 zilizopunguzwa na picha mbili tofauti za mafunzo ya utambuzi wa uso.	Link
CV	Video, Picha	Hifadhidata ya UMDFaces	ujumla	usoni Recognition	Hifadhidata iliyofafanuliwa iliyo na nyuso zaidi ya 367,000 kutoka kwa masomo zaidi ya 8,000 ambayo yanajumuisha picha za picha za video zilizobaki.	Link
CV	Image	Imagenet	ujumla		Hifadhidata iliyo na zaidi ya Mn 14. picha katika fomati anuwai za faili, zilizopangwa kulingana na uongozi wa WordNet.	Link
CV	Image	Picha wazi za Google	ujumla		9 Mn. URL za kugawanya picha za umma kutoka kwa zaidi ya aina 6,000.	Link
NLP	Nakala	Hifadhidata ya Huduma muhimu ya MIMIC	Afya		Hifadhidata za Fizikia za Kompyuta na data zilizotambuliwa kutoka kwa wagonjwa 40,000 wa huduma muhimu. Hifadhidata ina habari kama vile idadi ya watu, ishara muhimu, dawa, n.k.	Link
CV	Image	Ofisi ya Kitaifa ya Usafiri na Utalii ya Amerika	Utalii		Hutoa picha pana kutoka kwa tasnia ya utalii na hifadhidata ya kuaminika, inayoangazia mada kama vile kusafiri kwa ndani na nje na habari za kitalii za kimataifa.	Link
NLP	Nakala	Idara ya Usafiri	Utalii		Hifadhidata za Utalii zinazojumuisha Hifadhi za Kitaifa, sajili za dereva, madaraja na maelezo ya reli nk.	Link
NLP	Audio	Huduma zote za mtandaoni	ujumla		Zaidi ya manukuu 40k kutoka kwa picha 8,000 zilizoundwa kwa mitindo ya hotuba isiyosimamiwa	Link
NLP	Audio	Hifadhidata ya Amri ya Hotuba	ujumla	Utambuzi wa Hotuba, Ufafanuzi wa Sauti	Maneno 1 marefu ya sekunde kutoka kwa maelfu ya watu binafsi, ili kuunda kiolesura cha sauti cha msingi.	Link
NLP	Audio	Hati za sauti za Mazingira	ujumla		Hifadhidata za sauti za mazingira ambazo zina sauti ya meza za hafla na meza za maonyesho.	Link
NLP	Nakala	Hifadhidata ya Utafiti ya wazi ya COVID-19	Afya	AI ya Matibabu	Hifadhidata ya utafiti iliyo na nakala za wasomi 45,000 juu ya COVID-19 na familia ya virusi ya coronavirus.	Link
CV	Image	Hifadhidata ya Wavu ya Waymo	Michezo		Hifadhidata za kuendesha gari zilizo tofauti zaidi zilizotolewa na Waymo	Link
CV	Image	Genome ya Kuonekana	ujumla	Maelezo ya Picha	Msingi wa maarifa ya kuona na maelezo mafupi ya picha zaidi ya 100K	Link
CV	Image	Lebo	Serikali ya Umma.		Seti kubwa ya picha zilizochapishwa zinazopatikana kupitia Labelme Matlab	Link
CV	Image	100	ujumla		Zaidi ya vitu anuwai 100 zilizopigwa picha kutoka pembe nyingi (yaani digrii 360)	Link
CV	Image	Hifadhidata ya Mbwa ya Stanford	ujumla		Zaidi ya picha 20,500+ zimepangwa katika seti ya picha ya mifugo 120 tofauti ya mbwa	Link
CV	Image	Utambuzi wa Onyesho la Ndani	ujumla	Utambuzi wa Onyesho	Dataset maalum iliyo na picha 15620 kutoka kwa vikundi 67 vya ndani ili kujenga mifano ya utambuzi wa eneo	Link
CV	Image	VisualQA	ujumla		Hifadhidata ambayo inajumuisha maswali ya wazi yanayohusiana na picha 265,016 ambazo zinahitaji uelewa wa maono na ufahamu wa lugha kujibu.	Link
NLP	Nakala	Hifadhidata ya Uchanganuzi wa hisia za watu wengi	E-biashara	Uchanganuzi wa sentensi	Hifadhidata iliyo na hakiki za bidhaa kutoka Amazon	Link
NLP	Nakala	Mapitio ya IMDB	Burudani	Uchanganuzi wa sentensi	Hifadhidata iliyo na ukaguzi wa sinema 25000 kwa uchambuzi wa maoni	Link
NLP	Nakala	S140	ujumla	Uchanganuzi wa sentensi	Hifadhidata iliyo na tweets 160,000 zilizo na hisia zilizoondolewa mapema kwa usahihi zaidi	Link
NLP	Nakala	Kikosi cha Blogger	ujumla	Ananlysisi ya keyprase	Hifadhidata iliyo na machapisho ya blogi 681,288 kutoka blogger.com inayojumuisha kiwango cha chini 200 cha maneno ya Kiingereza yaliyotumiwa sana.	Link
NLP	Nakala	Hatarini	ujumla	Mafunzo ya Chatbot	Hifadhidata yenye maswali zaidi ya 200,000 ambayo yanaweza kutumiwa kufundisha modeli za ujifunzaji wa mashine kujibu kiakili kiotomatiki	Link
NLP	Nakala	Mkusanyiko wa Barua Taka kwa Kiingereza	Telecom	Utambuzi wa Spam	Hifadhidata ya ujumbe wa barua taka yenye SMS 5,574 za Kiingereza	Link
NLP	Nakala	Mapitio ya Yelp	ujumla	Uchanganuzi wa sentensi	Hifadhidata iliyo na hakiki zaidi ya 5 mn iliyochapishwa na Yelp	Link
NLP	Nakala	Spambase ya UCI	Enterprise	Utambuzi wa Spam	Dataset kubwa ya barua pepe za barua taka, muhimu kwa uchujaji wa barua taka.	Link
CV	Video, Picha	Berkeley DeepDrive BDD100k	Michezo	Magari ya kujitegemea	Mojawapo ya hifadhidata kubwa ya AI ya kujiendesha iliyo na masaa 1,100 ya uzoefu wa kuendesha gari katika video zaidi ya 100,000 kutoka nyakati tofauti za siku kutoka eneo la New York na San Francisco.	Link
CV	Sehemu	Koma.ai	Michezo	Magari ya kujitegemea	Dataset ya barabara kuu ya masaa 7 iliyo na habari juu ya kasi ya gari, kuongeza kasi, pembe ya uendeshaji, na kuratibu za GPS	Link
CV	Video, Picha	Hifadhidata ya Jalada la Jiji	Michezo	Lebo ya Semantic ya Gari ya Kujitegemea	Hifadhidata ya ufafanuzi wa kiwango cha pikseli 5,000 pamoja na seti kubwa zaidi ya fremu 20,000 zilizochapishwa dhaifu katika mfuatano wa video za stereo, zilizorekodiwa kutoka miji 50 tofauti	Link
CV	Image	KUL Ubelgiji Hifadhidata ya Ishara ya Trafiki	Michezo	Magari ya kujitegemea	Zaidi ya maelezo 10000+ ya ishara ya trafiki kutoka mkoa wa Flanders kulingana na ishara tofauti za trafiki kutoka Ubelgiji.	Link
CV	Image	LISA: Maabara ya Magari ya Akili na Salama, UC San Diego Datasets	Michezo	Magari ya kujitegemea	Dataset tajiri iliyo na alama za trafiki, kugundua magari, taa za trafiki, na mifumo ya trajectory.	Link
CV	Image	CIFAR-10	ujumla	Utambuzi wa Kitu	Database inayojumuisha picha 50,000 na picha za mtihani 10,000 (yaani picha 60,000 za rangi 32 × 32 katika madarasa 10) kwa utambuzi wa kitu.	Link
CV	Image	Mtindo MNIST	mtindo		Hifadhidata ya picha ambayo ina mifano 60,000 na seti ya majaribio ya mifano 10,000 katika picha za kijivu 28 × 28, zinazohusishwa na lebo kutoka kwa madarasa 10.	Link
CV	Image	Hifadhidata ya IMDB-Wiki	Burudani	usoni Recognition	Hesabu kubwa ya picha za uso zilizo na lebo kama jinsia na umri. Kati ya picha za uso 523,051, picha 460,723 zimepatikana kutoka kwa watu mashuhuri 20,284 kutoka IMDB & 62,328 kutoka Wikipedia.	Link
CV	Sehemu	Kinetiki-700	ujumla		Kwa kila darasa la kitendo, mkusanyiko wa data wa hali ya juu una sehemu za video 650,000 na inajumuisha madarasa 700 ya vitendo vya kibinadamu na angalau video za video 600. Hapa, kila klipu huchukua sekunde 10 au zaidi.	Link
CV	Image	MS Coco	ujumla	Kugundua kitu, Ugawaji	Hifadhidata hiyo ina picha 328k na ina jumla ya vielelezo 2.5 Mn na picha 91 za kitu kufundisha kugundua vitu vikubwa, kugawanya, na nukuu za data za mifano ya ML.	Link
CV	Image	Hifadhidata ya Uliza ya Binadamu ya MPII	ujumla		Karibu picha 25K zilizo na zaidi ya watu 40K walio na viungo vya mwili vilivyofafanuliwa vimejumuishwa kwenye hifadhidata, ambayo hutumiwa kuelezea makadirio ya pozi ya binadamu. Kwa jumla mkusanyiko wa data hufunika shughuli 410 za kibinadamu na kila picha hutolewa na lebo ya shughuli.	Link
CV	Image	Fungua Picha	ujumla	Maelezo ya eneo la kitu	Dasaset ya picha iliyo na picha karibu 9 za Mn zilizochorwa na lebo za kiwango cha picha, visanduku vya kujifunga vya kitu, sehemu ya kitu n.k Datas pia ina 16 Mn. masanduku ya kufunga ya madarasa ya vitu 600 kwenye picha 1.9 Mn.	Link
CV	Sehemu	Jukwaa la Apollo Open, na Baidu Inc, China	Michezo	Sanduku la Kupakana, LiDAR	Dataset tajiri ya kuendesha gari ya uhuru, ambayo huwapa watengenezaji data inayotakiwa katika kuendesha kwa uhuru ili kuharakisha ufanisi wa iteration ya ubunifu.	Link
CV	Video, Picha	Argo, na Argo, USA	Michezo	Sanduku la Kupakana, Mtiririko wa macho, Lebo ya Tabia, Lebo ya Semantic, Kuashiria Njia	Hesabu ya kujiendesha inayojumuisha ramani za HD na metadata ya kijiometri na semantic yaani vituo vya njia, mwelekeo wa njia, na eneo linaloweza kuendeshwa. Hifadhidata hutumiwa kufundisha mifano ya ML, kutengeneza algorithms sahihi zaidi ya utambuzi, ambayo itasaidia magari ya kujiendesha kupita salama.	Link
CV	Sehemu	Taa ndogo za Trafiki za Bosch, na Utafiti wa Amerika ya Kaskazini ya Bosch	Michezo	Sanduku la Kupakana	Database inayotumia picha za kamera 13427 na azimio la 1280 * 720 ili kujenga mfumo wa kugundua mwanga wa trafiki. Hifadhidata hiyo ina taa zaidi ya 24000 za taa za trafiki.	Link
CV	Sehemu	Brain4Cars, na Cornell Univ., Merika	Michezo	Lebo ya Tabia	Dataset inayojumuisha sensorer nyingi za kabati (kamera, sensorer za kugusa, vifaa mahiri, nk) ili kutoa takwimu muhimu juu ya tahadhari ya dereva. Taratibu zetu zinaweza kugundua madereva ambao wanasinzia au wamevurugika na kuongeza kengele muhimu ili kuboresha ulinzi.	Link
CV	Image	CULane, na Kichina Univ. ya Hong Kong, Beijing, Uchina	Michezo	Kuashiria Njia	Dataset ya Maono ya Kompyuta juu ya utambuzi wa njia za trafiki, kutumia masaa 55 ya video ambazo 133,235 (seti ya mafunzo 88880, seti ya uthibitishaji wa 9675, na seti ya mtihani 34680) ilitolewa. Inakusanywa na kamera zilizowekwa kwenye magari sita tofauti zinazoendeshwa na madereva tofauti huko Beijing.	Link
CV	Sehemu	DAVIS, na Univ. ya Zurich, ETH ¨ Zurich, Ujerumani, Uswizi	Michezo		Dataset ya mafunzo ya kuendesha gari ya mwisho hadi mwisho ambayo hutumia kamera ya fremu ya tukio la DAVIS +. Takwimu za gari kama vile uendeshaji, kaba, GPS, n.k hutumiwa kutathmini fusion ya sura na data ya hafla ya programu za magari.	Link
CV	Sehemu	DBNet, na Shanghai Jiao Tong Univ., Xiamen Univ., China	Michezo	Wingu la Uhakika, LiDAR	Data ya kweli ya kuendesha gari ya KM 1000, ambayo inajumuisha video iliyokaa, wingu la uhakika, GPS na tabia ya dereva kwa utafiti wa kina juu ya tabia za kuendesha gari.	Link
CV	Sehemu	Dr (jicho) ve, na Univ. ya Modena na Reggio Emilia, Modena, Italia	Michezo	Lebo ya Tabia	Hifadhidata iliyo na mfuatano wa video 74 wa dakika 5 kila moja, ambayo yalifafanuliwa katika zaidi ya muafaka 500,000. Hifadhidata hiyo inajumuisha maeneo yanayorejelewa na Geo, kasi ya kuendesha, kozi, na pia huandika madereva urekebishaji wa macho na ujumuishaji wao wa muda kutoa ramani maalum za kazi.	Link
CV	Sehemu	ETH Pedestrian (2009), na ETH Zurich, Zurich, Uswizi	ujumla	Sanduku la Kupakana	Hifadhidata ya mfuatano wa video 74 wa dakika 5 kila moja, iliyoainishwa katika zaidi ya muafaka 500,000. Hifadhidata hutoa nafasi za marejeleo ya kijiografia, kasi ya kuendesha, mwelekeo, na pia lebo za urekebishaji wa macho kwa madereva na ujumuishaji wao wa muda, pamoja na ramani maalum za kazi.	Link
CV	Sehemu	Ford (2009), na Univ. ya Michigan, Michigan, Marekani	Michezo	Sanduku la Kupakana ,, LiDAR	Dataset iliyokusanywa na gari la ardhini lenye kiatomati lenye Vera ya 3D-lidar skana, mbili za kusukuma-ufagio zinazoonekana mbele za Rieg lidars, Kitengo cha Upimaji wa Inertial Kitengo (IMU), na mfumo wa kamera ya omnidirectional ya Grey Ladybug3.	Link
CV	Sehemu	Stereo ya Changamoto ya HCI, Utafiti wa Shirika la Bosch, Hildesheim, Ujerumani	ujumla		Dataset ya fremu milioni kadhaa kutoka kwa video zilizonaswa ambazo zinajumuisha hali anuwai ya hali ya hewa, matabaka mengi ya mwendo na kina; hali katika jiji na mashambani, nk.	Link
CV	Sehemu	JAAD, na Chuo Kikuu cha York, Ukraine, Canada	Michezo	Sanduku la Kupakana, Lebo ya Tabia	"JAAD ni hifadhidata ya kusoma umakini wa pamoja katika muktadha wa kuendesha kwa uhuru. Lengo ni juu ya tabia za watembea kwa miguu na dereva wakati wa kuvuka na sababu zinazowashawishi. Ili kufikia mwisho huu, mkusanyiko wa data wa JAAD hutoa mkusanyiko mzuri wa video fupi 346 klipu (sekunde 5-10 kwa muda mrefu) zilizotolewa kutoka kwa zaidi ya masaa 240 ya picha za kuendesha gari kutoka maeneo kadhaa Amerika ya Kaskazini na Ulaya Mashariki. Sanduku za kujifunga zilizo na vitambulisho hutumiwa ambayo huingiliana na au inahitaji umakini wa dereva. Kwa kila video kuna vitambulisho kadhaa (hali ya hewa, maeneo, n.k.) na lebo za tabia zilizowekwa alama (km kusimamishwa, kutembea, kuangalia, n.k.) Kwa kuongezea, orodha ya sifa za idadi ya watu ni hutolewa kwa kila mtu anayetembea kwa miguu (mfano umri, jinsia, mwelekeo wa mwendo, n.k.) na pia orodha ya vitu vinavyoonekana vya eneo la trafiki (mfano ishara ya kusimama, ishara ya trafiki, n.k.) katika kila fremu. "	Link
CV	Sehemu	KAIST Mjini, na KAIST, Korea Kusini	ujumla	LiDAR	Ukusanyaji wa data unajumuisha sensorer nyingi za eneo kwa data ya LiDAR na picha za stereo zinazolenga eneo ngumu sana la mijini (km maeneo ya jiji, majengo tata na maeneo ya makazi).	Link
CV	Image	Ishara ya Trafiki ya LISA, na Univ. ya California, San Diego, Merika	Michezo	Sanduku la Kupakana	Seti ya mkusanyiko wa data ulio na video na fremu zilizochapishwa zilizo na alama za trafiki za Merika. Imetolewa kwa hatua mbili, moja ikiwa na picha tu na moja ikiwa na picha na video.	Link
CV	Image	Vistas za Mapillary, na Mapillary AB, Global	Michezo	Lebo ya Semantic	Hifadhidata ya upigaji picha ya kiwango cha mitaani ya kutafsiri mandhari ya barabarani kote ulimwenguni na ufafanuzi sahihi wa pikseli na mfano maalum wa wanadamu.	Link
CV	Video, Picha	KITTI cha Semantic, na Chuo Kikuu cha Bonn, Karlsruhe, Ujerumani	Michezo	Sanduku la Kupakana, Lebo ya Semantic, Kuashiria Njia	Hifadhidata ambayo inajumuisha ufafanuzi wa semantiki kwa mfuatano wote wa Benchi ya Odometry. Hifadhidata inafafanua aina anuwai ya trafiki inayotembea na isiyohamia: pamoja na magari, baiskeli, baiskeli, watembea kwa miguu, na waendesha baiskeli, ikiruhusu vitu kwenye eneo kusomwa.	Link
CV	Sehemu	Orodha ya Stanford, na Stanford Univ., Merika	Michezo	Kugundua kitu / Uainishaji LiDAR, GPS, Nambari	Dataset ambayo inajumuisha nyimbo 14,000 zilizo na lebo kama inavyozingatiwa na Velodyne HDL-64E S2 LIDAR katika onyesho za asili za barabara, ambazo zinaweza kutumiwa kufundisha modeli za ujifunzaji wa mashine kwa Utambuzi wa Kitu cha 3D.	Link
CV	Video, Picha	Dataset ya Boxy, iliyoandikwa na Bosch, Merika	Michezo	Sanduku la Kupakana / Kugundua Gari	Seti ya utambuzi wa gari iliyo na magari milioni 2 yaliyofafanuliwa kwa mafunzo na kuchambua mikakati ya utambuzi wa kitu kwa magari ya kujiendesha kwenye barabara kuu.	Link
CV	Sehemu	Barabara ya TME, na Univ ya Ufundi ya Kicheki, Italia ya Kaskazini	Michezo	Sanduku la Kupakana	Hifadhidata ya klipu 28 kwa jumla ya dakika 27 imegawanywa katika muafaka wa ufafanuzi wa gari 30,000. Ufafanuzi ulitengenezwa nusu moja kwa moja kutumia data kutoka kwa skana ya laser. Ukusanyaji huu wa data unajumuisha hali za trafiki anuwai, idadi ya vichochoro, kupindika kwa barabara na taa, inayoangazia hali nyingi za upatikanaji kamili.	Link
CV	Sehemu	Llamas isiyodhibitiwa, na Bosch, Merika	Michezo	Kuashiria Njia, LiDAR	Dataset ya Llamas isiyodhibitiwa ilifafanuliwa kwa kutengeneza ramani za kiotomatiki zenye ufafanuzi wa hali ya juu, pamoja na alama za njia za Lidar. Gari inayojitegemea inaweza kupangiliwa dhidi ya ramani hizi na alama za mstari zinakadiriwa kwenye fremu ya kamera. Makadirio ya 3D yameboreshwa kwa kupunguza tofauti kati ya alama za picha zilizoonekana na zilizotabiriwa.	Link
NLP	Audio	Facebook AI Lugha nyingi LibriSpeech (MLS)	ujumla	Ufafanuzi wa Sauti / Utambuzi wa Hotuba	Facebook AI Multilingual LibriSpeech (MLS), ni data kubwa ya chanzo, iliyo wazi iliyoundwa iliyoundwa kusaidia kuendeleza utafiti katika utambuzi wa moja kwa moja wa usemi (ASR). MLS hutoa zaidi ya masaa 50,000 ya sauti katika lugha 8: Kiingereza, Kijerumani, Uholanzi, Kifaransa, Uhispania, Kiitaliano, Kireno na Kipolishi.	Link

Fungua Hifadhidata

Hifadhidata za Chanzo wazi Ili Uanze na Mifano ya AI / ML

Huduma za Takwimu za AI

Speciality

Viwanda

Bidhaa

kampuni

rasilimali

Wasiliana nasi