Dirbtinio intelekto (DI) ir biometrinių technologijų įmonė „Neurotechnology“ išleido balso transkripcijos modelį (angl. Speech-to-Text) lietuvių kalbai, gebantį garso įrašus paversti tekstu. Ši technologija remiasi natūralios kalbos apdorojimu (NLP, angl. Natural Language Processing), kuris padeda kurti automatizuotas kalbines ir tekstines sistemas bei įrankius.
Demonstracinė modelio versija, galinti jūsų balso įrašą paversti tekstu, pasiekiama adresu: https://netgeist.ai/lt/stt. Galite pasirinkti vieną iš dviejų variantų — įkelti jau turimą garso failą iš savo įrenginio arba įrašyti balsą tiesiogiai per interneto naršyklę. „Mūsų balso transkripcijos modelis yra sukurtas naudojant pažangiausius giliojo mokymosi algoritmus ir apmokytas išsamiu, aukštos kokybės lietuvių kalbos duomenų rinkiniu. Dėl to modelis pasižymi išskirtiniu tikslumu transkribuojant kalbą net ir sudėtingomis sąlygomis, tarkime, esant pašaliniams garsams ar keliems kalbėtojams kalbant vienu metu“, – aiškino natūralios kalbos apdorojimo inžinierius Paulius Janėnas. Modelio treniravimo etape naudotas platus viešai prieinamų duomenų rinkinys, įskaitant „LIEPA-2“ garsyną, kuris buvo sukurtas Vilniaus universitete, vykdant projektą „Lietuvių šneka valdomų paslaugų plėtra“.. Siekiant užtikrinti efektyvumą, įmonė pasitelkė išskirtinę techninę įrangą – „NVIDIA H100 80GB SXM5“ grafinius procesorius, kurie pasižymi dideliu galingumu, yra skirti neuroninių tinklų mokymams, tad padėjo paspartinti mokymo procesą.
VersloSavaite.lt pasilieka teisę šalinti reklaminius, nekultūringus, įžeidžiančius ar kitaip įstatymus pažeidžiančius skaitytojų komentarus. Už komentarus atsako juos paskelbę skaitytojai. Paskelbusieji netinkamus komentarus gali būti patraukti baudžiamojon, administracinėn ar civilinėn atsakomybėn. |
|
Susiję straipsniai:
|