Seti ya data ya NLP ya ML

Seti 15 Bora za Data za NLP za kukufundisha Miundo ya Uchakataji wa Lugha Asilia

Usindikaji wa lugha asilia ni sehemu muhimu katika zana ya kujifunzia ya mashine. Walakini, inahitaji idadi kubwa ya data na mafunzo kwa mfano kufanya kazi vizuri. Mojawapo ya maswala muhimu na NLP ni ukosefu wa hifadhidata za mafunzo ambazo zinaweza kushughulikia nyanja nyingi za kupendeza ndani ya kikoa.

Ikiwa unaanza katika uwanja huu mkubwa, unaweza kupata changamoto na haihitajiki kuunda hifadhidata zako. Hasa wakati kuna ubora NLP seti za data zinazopatikana ili kufunza miundo ya mashine yako ya kujifunza kulingana na madhumuni yao.

Soko la NLP limepangwa kukua kwa CAGR ya 11.7% wakati wa 2018 na 2026 kufikia $ 28.6 Bilioni ifikapo 2026. Shukrani kwa mahitaji yanayoongezeka ya NLP na kujifunza kwa mashine, sasa unaweza kupata mikono yako kwenye seti za data za ubora zinazoshughulikia uchanganuzi wa maoni, hakiki, uchanganuzi wa maswali na majibu, na seti za data za uchambuzi wa matamshi.

Seti za Data za NLP za Kujifunza kwa Mashine Unaweza Kuamini

Kwa kuwa seti nyingi za data - zinazozingatia mahitaji mbalimbali - zinatolewa karibu kila siku, inaweza kuwa changamoto kufikia seti za data bora, zinazotegemewa na bora zaidi. Hapa, tumekurahisishia kazi, kwa vile tumekuletea seti za data zilizoratibiwa zilizotengwa kulingana na kategoria zinazotumika.

ujumla

Spambase, iliyoundwa katika Maabara ya Hewlett-Packard, ina mkusanyiko wa barua pepe taka na watumiaji, inayolenga kutengeneza kichujio cha barua taka kilichobinafsishwa. Ina zaidi ya uchunguzi 4600 kutoka kwa ujumbe wa barua pepe, kati yao karibu 1820 ni barua taka.

Seti ya data ya Enron ina mkusanyiko mkubwa wa barua pepe 'halisi' ambazo hazikujulikana zitapatikana kwa umma ili kutoa mafunzo kwa miundo yao ya kujifunza mashine. Inajivunia zaidi ya barua pepe nusu milioni kutoka kwa zaidi ya watumiaji 150, wengi wao wakiwa wasimamizi wakuu wa Enron. Seti hii ya data inapatikana kwa matumizi katika miundo iliyopangwa na isiyo na muundo. Ili kuongeza data ambayo haijaundwa, lazima utumie mbinu za usindikaji wa data.

  • Seti ya data ya Mifumo inayopendekeza (Kiungo)

Seti ya data ya Mfumo wa Mpendekezaji ni mkusanyiko mkubwa wa seti mbalimbali za data zilizo na vipengele tofauti kama vile,

  • Maoni ya bidhaa
  • Ukadiriaji wa nyota
  • Ufuatiliaji wa usawa
  • Data ya wimbo
  • Mitandao ya kijamii
  • Timestamps
  • Mwingiliano wa mtumiaji/kipengee
  • Takwimu za GPS

Uchanganuzi wa sentensi

Uchambuzi wa hisia
Kamusi za Seti ya data ya Filamu na Fedha hutoa kamusi mahususi za kikoa kwa mgawanyiko chanya au hasi katika ujazo wa Fedha na hakiki za filamu. Kamusi hizi zimetolewa kutoka kwa ujazo wa IMDb na US Form-8.

Sentiment 140 ina zaidi ya twiti 160,000 zilizo na vikaragosi mbalimbali vilivyoainishwa katika nyanja 6 tofauti: tarehe ya tweet, polarity, maandishi, jina la mtumiaji, kitambulisho na hoja. Seti hii ya data hukuruhusu kugundua maoni ya chapa, bidhaa au hata mada kulingana na shughuli za Twitter. Kwa kuwa seti hii ya data imeundwa kiotomatiki, tofauti na twiti zingine zilizofafanuliwa na binadamu, inaainisha tweets zenye hisia chanya na hisia hasi kama zisizofaa.

  • Seti ya data ya Sentensi za Vikoa vingi (Kiungo)

Seti hii ya data ya maoni ya vikoa vingi ni hifadhi ya hakiki za Amazon kwa bidhaa mbalimbali. Kategoria zingine za bidhaa, kama vile vitabu, zina hakiki zinazofikia maelfu, wakati zingine zina hakiki mia chache tu. Kando na hilo, hakiki zilizo na ukadiriaji wa nyota zinaweza kubadilishwa kuwa lebo za binary.

Wacha tujadili mahitaji yako ya Takwimu za Mafunzo ya AI leo.

Nakala

Imeundwa kusaidia utafiti wa maswali na majibu ya kikoa huria, WiKi QA Corpus ni mojawapo ya mkusanyiko mkubwa wa data unaopatikana kwa umma. Imekusanywa kutoka kwenye kumbukumbu za hoja ya injini ya utafutaji ya Bing, inakuja na jozi za maswali na majibu. Ina zaidi ya maswali 3000 na sentensi 1500 za majibu.

  • Seti ya Data ya Ripoti za Kesi za Kisheria (Kiungo)

Seti ya data ya Ripoti za Kesi za Kisheria ina mkusanyiko wa kesi 4000 za kisheria na inaweza kutumika kutoa mafunzo kwa muhtasari wa maandishi otomatiki na uchanganuzi wa manukuu. Kila hati, vifungu vya maneno, madarasa ya manukuu, vifungu vya maneno vya kunukuu, na zaidi hutumiwa.

Seti ya data ya Jeopardy ni mkusanyo wa zaidi ya maswali 200,000 yaliyoangaziwa kwenye jaribio maarufu la kipindi cha TV kilicholetwa pamoja na mtumiaji wa Reddit. Kila sehemu ya data imeainishwa kulingana na tarehe iliyoonyeshwa, nambari ya kipindi, thamani, mzunguko na swali/jibu.

Hotuba ya Sauti

Audio speech Seti hii ya data ni nzuri kwa kila mtu anayetaka kwenda zaidi ya lugha ya Kiingereza. Seti hii ya data ina mkusanyo wa makala yanayozungumzwa kwa Kiholanzi na Kijerumani na Kiingereza. Ina anuwai ya mada na seti za spika zinazoendesha kwa mamia ya saa.

Seti ya data ya Kiingereza ya 2000 HUB5 ina nakala 40 za mazungumzo ya simu katika lugha ya Kiingereza. Data hutolewa na Taasisi ya Kitaifa ya Viwango na Teknolojia, na lengo lake kuu ni kutambua hotuba ya mazungumzo na kubadilisha hotuba kuwa maandishi.

Seti ya data ya LibriSpeech ni mkusanyiko wa takriban saa 1000 za hotuba ya Kiingereza iliyochukuliwa na kugawanywa ipasavyo na mada katika sura kutoka kwa vitabu vya sauti, na kuifanya kuwa zana bora kwa Uchakataji wa Lugha Asilia.

Ukaguzi

Seti ya data ya Yelp ina mkusanyiko mkubwa wa hakiki takriban milioni 8.5 za biashara 160,000 pamoja na, hakiki zao na data ya watumiaji. Maoni yanaweza kutumika kufunza miundo yako juu ya uchanganuzi wa hisia. Kando na hilo, mkusanyiko huu wa data pia una zaidi ya picha 200,000 zinazojumuisha maeneo manane ya miji mikuu.

Ukaguzi wa IMDB ni miongoni mwa seti maarufu za data zilizo na maelezo ya kutupwa, ukadiriaji, maelezo na aina kwa zaidi ya filamu elfu 50. Seti hii ya data inaweza kutumika kujaribu na kutoa mafunzo kwa miundo yako ya kujifunza mashine.

  • Seti ya Data ya Ukaguzi na Ukadiriaji wa Amazon (Kiungo)

Mapitio ya Amazon na seti ya ukadiriaji ina mkusanyiko muhimu wa metadata na hakiki za bidhaa tofauti kutoka Amazon zilizokusanywa kutoka 1996 hadi 2014 - takriban rekodi milioni 142.8. Metadata inajumuisha bei, maelezo ya bidhaa, chapa, kategoria, na zaidi, ilhali hakiki zina ubora wa maandishi, manufaa ya maandishi, ukadiriaji na zaidi.

Kwa hivyo, ni seti gani ya data umechagua kufunza muundo wa mashine yako ya kujifunza?

Tunapoenda, tutakuacha na a pro-ncha. 

Hakikisha kuwa umepitia faili ya README kabla ya kuchagua mkusanyiko wa data wa NLP kwa mahitaji yako. Seti ya data itakuwa na maelezo yote muhimu ambayo unaweza kuhitaji, kama vile maudhui ya mkusanyiko wa data, vigezo mbalimbali ambavyo data imeainishwa, na uwezekano wa matumizi ya mkusanyiko wa data.

Bila kujali miundo unayounda, kuna matarajio ya kusisimua ya kuunganisha mashine zetu kwa karibu zaidi na asili na maisha yetu. Ukiwa na NLP, uwezekano wa biashara, sinema, utambuzi wa usemi, fedha, na zaidi unaongezeka kwa njia nyingi. Ikiwa unatafuta hifadhidata zaidi kama hizo Bonyeza hapa.

Kushiriki kwa Jamii

Unaweza pia Like