Rhagor o Leisiau i Common Voice – Blog Mozilla.org

Blogiad llawn Mozilla am y diweddaraf ar Common Voice –

Heddiw mae’n bleser gennym gyhoeddi fod Common Voice, menter Mozilla i dorfoli set ddata fawr o leisiau dynol ar gyfer eu defnyddio mewn technoleg lleferydd, yn mynd yn mynd i fod ar gael ar gyfer nifer o ieithoedd! Diolch i ymdrechion glew cymunedau lleoleiddio Mozilla a’n partneriaid iaith ymrwymedig gallwch nawr gyfrannu eich llais mewn Cymraeg, Almaeneg a Ffrangeg, ac rydym yn gweithio i lansio 40+ yn ychwanegol cyn bo hir. Ond dim ond y dechrau yw hyn. Rydym eisiau i Common Voice fod yn arf ar gyfer unrhyw gymuned i greu technoleg lleferydd yn eu hiaith eu hun.

Ers i ni lansio Common Voice fis Gorffennaf diwethaf, rydym wedi casglu cannoedd o filoedd o samplau llais yn Saesneg drwy ein gwefan ac ap iOS. Fis Tachwedd y llynedd, fe wnaethom ni gyhoeddi fersiwn cyntaf set ddata Common Voice. Mae’r  data hyn wedi cael eu llwytho lawr filoedd o weithiau, ac rydym wedi gweld y data yn cael eu defnyddio mewn cynnyrch llais masnachol fel Kaldi yn ogystal â’n meddalwedd cod agored ni ein hunain, Deep Speech.

Hyd yn hyn, mae Common Voice wedi bod ar gael dim ond ar gyfer cyfraniadau llais yn Saesneg. Ond nod Common Voice o’r dechrau oedd cefnogi llawer o ieithoedd er mwyn gwireddu ein gweledigaeth o wneud technoleg lleferydd yn fwy agored, hygyrch a chynhwysol i bawb. Dyna pam fod ein prif ymdrechion yn ystod y misoedd diwethaf wedi canolbwyntio ar dyfu a grymuso cymunedau iaith unigol i lansio Common Voice yn eu rhannau nhw o’r byd, yn eu hieithoedd a’u tafodieithoedd eu hunain.

Yn ychwanegol at leoleiddio’r wefan, mae’r cymunedau hyn yn helpu poblogi Common Voice gyda brawddegau i bobl eu darllen. Mae’r brawddegau hyn yn rhydd o hawlfraint, ac mae ganddyn nhw’r nodweddion cywir i greu set ddata o safon uchel. Mae’r cymunedau hyn hefyd yn helpu hyrwyddo’r wefan yn eu gwledydd eu hunain, gan adeiladu cymuned o gyfranwyr gyda’r nod o dyfu’r cyfanswm o oriau o ddata sydd wedi’u casglu ac sydd ar gael ym mhob iaith.

Yn ychwanegol at Saesneg, rydym nawr yn casglu samplau llais mewn Cymraeg, Ffrangeg ac Almaeneg. Ac mae mwy na 40 iaith arall eisoes ar y ffordd – nid dim ond ieithoedd mawr fel Sbaeneg, Tsieinëeg neu Rwsieg, ond hefyd ieithoedd llai fel Ffriseg, Norwyeg neu Chuvash. I ni, mae’r ieithoedd llai hyn yn bwysig oherwydd eu bod nhw yn aml heb gael digon o sylw gan y gwasanaethau adnabod lleferydd a digidol masnachol presennol. Gall bodolaeth data addas hefyd rymuso entrepreneuriaid a chymunedau i lenwi’r bwlch hwn eu hunain.

Mae mynd yn amlieithog yn gam mawr i Common Voice a gobeithiwn ei fod hefyd yn gam mawr i dechnoleg lleferydd yn gyffredinol. Bydd democrateiddio technoleg lleferydd nid yn unig yn lleihau’r rhwystr sy’n atal arloesedd byd-eang ond hefyd y rhwystr sy’n atal pobl rhag cael mynediad at y wybodaeth. Yn arbennig felly pobl sydd yn draddodiadol wedi cael llai o fynediad — er enghraifft, pobl â nam ar eu golwg, pobl na wnaeth erioed ddysgu darllen, plant, pobl hŷn, a llawer eraill.

Rydym yn falch iawn o weld y gefnogaeth gynyddol sydd i ni adeiladu’r set ddata amlieithog gyhoeddus fwyaf yn y byd, a gall pawb ein helpu i’w dyfu drwy gyfrannu eich llais. Os hoffech chi helpu i ddod â Common Voice a thechnoleg lleferydd i’ch iaith chi, ewch i’n tudalen iaith. Ac os ydych yn rhan o sefydliad a bod gennych syniad ar gyfer cymryd rhan yn y project hwn, cysylltwch â ni.

Mae ein Fforwm yn rhoi mwy o fanylion ar sut i helpu, yn ogystal â bod yn lle gwych i ofyn cwestiynau a chyfarfod â’r cymunedau.

Diolch Arbennig

Hoffem ddiolch i’n Grŵp Ymgynghorol Lleferydd, pobl sydd wedi bod yn gyfranwyr ac yn ymgynghorwyr arbenigol i’r project Common Voice:

  • Francis Tyers – Athro Cynorthwyol Ieithyddiaeth Gyfrifiadurol yn yr Ysgol Economeg Uwch yn Moscow.
  • Gilles Adda – Gwyddonydd lleferydd
  • Thomas Griffiths – Swyddog Gwasanaethau Digidol, Swyddfa’r Cynulliad Deddfwriaethol, Awstralia
  • Joshua Meyer – ymgeisydd PhD mewn Adnabod Lleferydd
  • Delyth Prys – Pennaeth Uned Technolegau Iaith, Prifysgol Bangor, Cymru
  • Dewi Bryn Jones – Prif Beiriannydd Meddalwedd, Uned Technolegau Iaith, Prifysgol Bangor, Cymru
  • Wael Farhan – MS mewn Dysgu Peiriant o UCSD, ar hyn o bryd yn gwneud ymchwil ar gyfer NLP Arabeg yn Mawdoo3.com.
  • Eren Gölge – Gwyddonydd dysgu peirianyddol sydd ar hyn o bryd yn gweithio ar destun i leferydd i Mozilla.
  • Alaa Saade – Uwch Wyddonydd Dysgu Peirianyddol yn Snips (Paris)
  • Laurent Besacier – Athro yn Université Grenoble Alpes, NLP, prosesu lleferydd, adnoddau llai eu hadnoddau
  • David van Leeuwen – Technolegydd Lleferydd
  • Benjamin Milde – ymgeisydd PhD mewn NLP/prosesu lleferydd
  • Shay Palachy – M.Sc. mewn Cyfrifiadureg, Gwyddonydd Data Arweiniol mewn cwmni cychwynnol

***

Mae Common Voice yn cefnogi gwaith Mozilla ym maes adnabod lleferydd, sy’n rhedeg dan yr enw project Deep Speech, model peiriant adnabod lleferydd cod agored sy’n dod yn agos at gywirdeb dynol, a ryddhawyd ym mis Tachwedd 2017. Ar y cyd gyda’r set ddata Common Voice rydym yn credu y gall ac y bydd y dechnoleg hon yn galluogi ton o gynnyrch a gwasanaethau arloesol, ac y dylai hyn fod ar gael i bawb.