Case: CONVENTICULUM intellegentiae artificialis

Plus 3k horas Datae Collectae, Segmentatae & Transcriptae ad aedificandum ASR in 8 linguis Indicis

Oratio collectio
Regimen intendit ut cives suos facili accessu ad interrete & digitales officia in propria lingua patria per Project Bhashini efficere possit.

BHASHINI, suggestum translationis linguae AI agitatae Indiae, pars vitalis incepti Digitalis Indiae est.

Disposuerat ad intellegentiam Artificialis (AI) et Linguae Naturalis Processus (NLP) instrumenta ad MSMEs, startups et novatores independens, suggestum Bhashini publicae subsidii inservit. Propositum est inclusionem digitalem promovere, ut cives Indicos inter se correspondeant cum inceptis digitalibus patriae in patria lingua.

Accedit, eo spectat ut signanter augeat promptitudinem penitus contentorum in linguis Indicis. Hoc maxime iaculis in locis rei publicae, ut regimen et consilium, scientias et technologias, etc. Quapropter hoc incitabit cives ad penitus in propria lingua utendum, eorum actuosam participationem promovendam.

Iunge NLP ut diversam ecosystematis contributorum, entium et civium communicationis ad claustra linguae transcendentium efficiat, per inclusionem digitalem & posse

Solutio in mundo Verus

Potentia localization cum Data evellens

India egebat suggestum quod intenderet ad datastas multilingales creandas et solutiones technologiae linguae AI-fundatae ad officia digitales linguas in Indiana praebendas. Ad hoc inceptum deducendum, Institutum Indicum Technologiae, Madras (IIT Madras) cum Shaip communicavit colligendi, segmenti et datastae linguae Indicae ad exempla multilingualis sermonis aedificandi.

challenges

Ad clientem adiuvandum cum technicae artis loquelae cursui pro linguis Indicis, manipulus ad acquirendum, segmentum et magna volumina tradendi notitias ad exemplar AI aedificandum transcribit. Requisita critica clientis erant:

Notitia collectio

  • Acquirere 3000 horas datas disciplinae in 8 linguis Indicis cum 4 dialectis per linguam.
  • Pro unaquaque lingua, supplementum Extemporali Orationis colliget et
    Colloquium de Aetate Circulorum 18-60 annorum
  • Diversa misce oratorum aetate, genere, educatione & dialectis
  • Ut varia misceantur notandi ambitus sicut per Specificationes.
  • Singulum audio recordationem saltem 16kHz, sed potius 44kHz . erit

Data Arthropoda

  • Facere sermonis segmenta de 15 secundis & indicatione soni ad milliseconds pro singulis datis loquentis, speciei soni (orationis, garriendi, musicae, strepitus), vices, locutiones, & locutiones in colloquio.
  • Partes singulas crea pro suo signo soni iaculi cum 200-400 millisecondo Nullam in initio & fine.
  • Ad omnia segmenta, quae sequuntur, implenda sunt id est, Tempus initium, Tempus Finis, Segmentum ID, Planities Loudness, Typus Sanus, Codex Linguae, Orator ID, etc.

Data Translation

  • Sequuntur singula transcriptionis guidelines circa Characteres et Symbola Specialia, Orthographia et Grammatica, Capitalisatio, Abbreviationes, Contractiones, Litterae Singulares, Numeri, Punctuationes, Acronyms, Disfluentes, Loquela, Intellectus, Loquela, Non-Target Linguae, Non Loquela etc.

Qualis Reprehendo & videre

  • Omnes tabulas subeant qualitatem taxationem & sanationem, solum orationem convalidari ut liberetur

Solutio

Cum profunda intelligentia sermonis AI, clientem collectam, segmentum et datam cum peritorum collectoribus, linguistis et annotatoribus datam transcribere adiuvimus ad construendum amplum corpus auditionis dataset in 8 linguis Indicis.

Scopus operis pro Shaip inclusus est sed non limitatus ad magnas voluminis notitiae disciplinae auditionis comparandas libros, in multiplici notitiarum tabularum segmenting, transcribenda data et tradenda correspondentia imagini JSON continens metadata [SpeakerID, Age, Gender, Language, Dialectica;
Mater Lingua, Qualificatio, Occupatio, Domain, Forma fasciculi, Frequentia, Channel, Typus Audio, No. oratorum, No. Linguarum Exterarum, Setup adhibitum, Narrowband vel Wideband audio, etc.]. 

Shaip 3000 horarum notitiarum auditionis in scala collegit, servatis optatis gradibus qualitatis, ut technologiam loquelae pro complexu incepta institueret. Explicit forma consensus ab unoquoque participantium desumpta.

1. Notitia collectio