15. D’fhiafraigh Deputy Aengus Ó Snodaigh den Taoiseach cén fáth nach bhfuil bogearraí ríomhaireachta OCR, atá in ann bun-siombail aibítir na Gaeilge, an fada, a aithint, ag an bPríomh-Oifig Staidrimh; agus an ndéanfaidh sé cinnte de go mbeidh a leithéid acu gan mhoill chun go gcomhlíonadh siad a mbun-dualgais ina n-iomláine go cruinn, go háirithe maidir leis an Teanga Náisiúnta. (Question 17814/18 asked on 02 May 2018)

Minister of State at the Department of the Taoiseach (Deputy Joe McHugh) (Deputy Joe McHugh): Bhain an CSO leas as bogearraí Aithint Optúil Carachtar (OCR) mar chuid den oibríocht próiseála i nDaonáireamh 2016.

Nuair a bhí na ceistiúcháin daonáirimh bailithe ón bpobal ag an bhfoireann allamuigh, cuireadh ar ais chuig an CSO iad agus scanadh iad. Is ionann na ceistiúcháin scanta go bunúsach is grianghraf de na freagraí lámhscríofa agus déanann siad taifeadadh go cruinn ar phríomhcharachtair na Gaeilge, an síneadh fada san áireamh.

Baintear úsáid as na híomhánna sin ansin chun an fhaisnéis lámhscríofa a ghabháil agus a phróiseáil. Baineadh leas as na bogearraí OCR chun an fhaisnéis seo a aistriú go sonraí digiteacha. Bíonn códáil agus seiceálacha rialaithe cáilíochta i gceist san oibríocht próiseála seo a mbíonn teaghráin téacs ó choda éagsúla de na foirmeacha daonáirimh agus as foinsí eile le meaitseáil. Bíonn éagsúlacht mhór ag baint le caighdeán na bhfreagraí lámhscríofa sa daonáirimh agus cuireann sin leis an gcastacht a bhíonn i gceist ag an OCR charachtair a aithint go huathoibríoch, diaicriticí go háirithe. Chun cur le héifeachtacht agus éifeachtúlacht na hoibríochta próiseála, rinneadh cumrú ar na bogearraí OCR chun diaicriticí mar an fada, umlaut agus aicinn a fhágáil ar lár as na sonraí a tógadh chomh maith le charachtair mar an chamóg, an fleiscín agus an uaschamóg. Tugadh próiseáil na sonraí chun críche i mí na Nollag 2016 agus d’éascaigh sin ansin foilsiú roinnt eisiúintí staidrimh le linn na bliana 2017. Tá díchoimisiúnú déanta anois ar na bogearraí OCR a úsáideadh sa bhliain 2016.

Mar chuid den réiteach atá ar bun chun sonraí Dhaonáireamh 2021 a ghabháil agus a phróiseáil, féachfaidh an CSO le bogearraí OCR a fhorbairt a dhéanfaidh taifeadadh ar dhiaicriticí a éascú. An fada mar a bheidh sé i bhfreagraí lámhscríofa ar fhoirmeacha daonáirimh san áireamh. Leis sin, beifear ábalta téacs ina bhfuil diaicriticí a stóráil mar chuid de na comhaid dhigiteacha sonraí daonáirimh a úsáidfear i ngach ábhar staidrimh i ndiaidh an daonáirimh.