Uchunguzi kifani: Mazungumzo AI

Zaidi ya saa 3k za Data Iliyokusanywa, Imegawanywa na Kunukuliwa ili kujenga ASR katika lugha 8 za Kihindi.

Mkusanyiko wa matamshi
Serikali inalenga kuwawezesha wananchi wake kupata huduma za intaneti na digitale kwa urahisi katika lugha yao ya asili kupitia Mradi wa Bhashini.

BHASHINI, jukwaa la kutafsiri lugha la India linaloendeshwa na AI, ni sehemu muhimu ya mpango wa Digital India.

Iliyoundwa ili kutoa zana za Uakili Bandia (AI) na Uchakataji wa Lugha Asilia (NLP) kwa MSMEs, waanzishaji na wavumbuzi huru, jukwaa la Bhashini hutumika kama rasilimali ya umma. Lengo lake ni kukuza ujumuishaji wa kidijitali kwa kuwezesha raia wa India kuingiliana na mipango ya kidijitali ya nchi katika lugha zao za asili.

Zaidi ya hayo, inalenga kupanua kwa kiasi kikubwa upatikanaji wa maudhui ya mtandao katika lugha za Kihindi. Hii inalengwa hasa katika maeneo yenye maslahi ya umma kama vile utawala na sera, sayansi na teknolojia, n.k. Kwa hivyo, hii itawapa wananchi motisha ya kutumia intaneti katika lugha yao wenyewe, na kukuza ushiriki wao kikamilifu.

Harness NLP kuwezesha mfumo wa ikolojia tofauti wa wachangiaji, vyombo washirika na raia kwa madhumuni ya kuvuka vizuizi vya lugha, na hivyo kuhakikisha ujumuishaji wa dijiti na uwezeshaji.

Suluhisho la Ulimwenguni

Kufungua Nguvu ya Ujanibishaji kwa Data

India ilihitaji jukwaa ambalo lingelenga zaidi kuunda hifadhidata za lugha nyingi na suluhu za teknolojia ya lugha inayotegemea AI ili kutoa huduma za kidijitali katika lugha za Kihindi. Ili kuzindua mpango huu, Taasisi ya Teknolojia ya India, Madras (IIT Madras) ilishirikiana na Shaip kukusanya, kugawanya na kunakili seti za data za lugha ya Kihindi ili kuunda miundo ya usemi wa lugha nyingi.

Changamoto

Ili kumsaidia mteja na ramani yake ya hotuba ya Teknolojia ya Usemi kwa lugha za Kihindi, timu ilihitaji kupata, kugawanya na kunakili idadi kubwa ya data ya mafunzo ili kuunda muundo wa AI. Mahitaji muhimu ya mteja yalikuwa:

Ukusanyaji wa Takwimu

  • Pata saa 3000 za data ya mafunzo katika lugha 8 za Kihindi na lahaja 4 kwa kila lugha.
  • Kwa kila lugha, mtoa huduma atakusanya Hotuba ya Extempore na
    Hotuba ya Mazungumzo kutoka kwa Vikundi vya Umri wa miaka 18-60
  • Hakikisha kuna mchanganyiko mbalimbali wa wazungumzaji kulingana na umri, jinsia, elimu na lahaja
  • Hakikisha mchanganyiko tofauti wa mazingira ya kurekodi kulingana na Viagizo.
  • Kila rekodi ya sauti itakuwa angalau 16kHz lakini ikiwezekana 44kHz

Ugawaji wa Takwimu

  • Unda sehemu za hotuba za sekunde 15 na ugonge sauti kwa milisekunde kwa kila spika uliyopewa, aina ya sauti (hotuba, kubeba, muziki, kelele), zamu, matamshi na vifungu vya maneno kwenye mazungumzo.
  • Unda kila sehemu kwa mawimbi yake ya sauti inayolengwa na pedi ya milisekunde 200-400 mwanzoni na mwisho.
  • Kwa sehemu zote, vitu vifuatavyo lazima vijazwe yaani, Muda wa Kuanza, Muda wa Kuisha, Kitambulisho cha Sehemu, Kiwango cha Sauti, Aina ya Sauti, Msimbo wa Lugha, Kitambulisho cha Spika, n.k.

Uandishi wa Takwimu

  • Fuata maelezo ya miongozo ya unukuzi kuhusu Herufi na Alama Maalum, Tahajia na Sarufi, Herufi kubwa, Vifupisho, Minyunyuko, Herufi Zinazotamkwa za Mtu Binafsi, Nambari, Maandishi, Vifupisho, Visivyoeleweka, Hotuba, Lugha Zisizoeleweka, Lugha Zisizolengwa, Lugha Isiyokuwa na Usemi n.k.

Ukaguzi wa Ubora na Maoni

  • Rekodi zote za kutathmini ubora na uthibitishaji, ni hotuba iliyoidhinishwa pekee itakayotolewa

Suluhisho

Kwa uelewa wetu wa kina wa AI ya mazungumzo, tulimsaidia mteja kukusanya, kugawanya na kunakili data na timu ya wakusanyaji wataalamu, wanaisimu na wafafanuzi ili kuunda mkusanyiko mkubwa wa mkusanyiko wa sauti katika lugha 8 za Kihindi.

Upeo wa kazi ya Shaip ulijumuisha lakini haukuwa mdogo tu katika kupata kiasi kikubwa cha data ya mafunzo ya sauti, kugawanya rekodi za sauti katika nyingi, kunakili data na kuwasilisha faili zinazolingana za JSON zilizo na metadata [Kitambulisho cha Spika, Umri, Jinsia, Lugha, Lahaja,
Lugha ya Mama, Sifa, Kazi, Kikoa, Umbizo la Faili, Masafa, Idhaa, Aina ya Sauti, Nambari ya wazungumzaji, Nambari ya Lugha za Kigeni, Mipangilio iliyotumika, Narrowband au Wideband audio, n.k.]. 

Shaip alikusanya saa 3000 za data ya sauti kwa kiwango kikubwa huku akidumisha viwango vinavyohitajika vya ubora vinavyohitajika ili kutoa mafunzo kwa teknolojia ya usemi kwa miradi changamano. Fomu ya Ridhaa ya Dhahiri ilichukuliwa kutoka kwa kila mshiriki.

1. Ukusanyaji wa Takwimu