Sign up & Download
Sign in

Dacco: Diccionari Anglès-Català de Codi Obert

by Carles Pina, Linda Oxnard
Jornades de Programari Lliure (2008)

Abstract

Dacco, Diccionari Anglès-Català de Cod Obert, és un diccionari lliure. Dacco ja té una història consolidada, així com una sèrie de recursos. Disposa de més de 30.000 paraules amb diversa informació com ara exemples, notes d'ús, enllaços, fotos... El projecte Dacco ofereix diversos recursos lingüístics, interessants tant per estudiants de català com d'anglès. En aquest article es comentarà què ofereix Dacco, la seva història, les seves motivacions i la importància de disposar de recursos culturals de lliure accés.

Author-supplied keywords

Cite this document (BETA)

Available from Carles Pina's profile on Mendeley.
Page 1
hidden

Dacco: Diccionari Anglès-Català de Codi Obert

Dacco: Diccionari Angles-Catala de Codi Obert
Projecte Dacco
http://www.catalandictionary.org
Carles Pina i Estany - carles@pina.cat
Linda Oxnard - catalandictionary@gmail.com
Abril 2008
Resum
Dacco, Diccionari Angles-Catala de Codi Obert, es un diccionari
lliure. Dacco ja te una historia consolidada, aix com una serie de
recursos. Disposa de mes de 30.000 paraules amb diversa informacio
com ara exemples, notes d'us, enllacos, fotos... El projecte Dacco
ofereix diversos recursos lingustics, interessants tant per estudiants de
catala com d'angles. En aquest article es comentara que ofereix Dacco,
la seva historia, les seves motivacions i la importancia de disposar de
recursos culturals de lliure acces.
1 Introduccio
Dacco es un acronim de \Diccionari Angles-Catala de Codi Obert". Va ser
el primer diccionari lliure de catala-altres llengues. Dacco va ser o cialment
alliberat el 2003, tot i que va comencar a nivell personal el 2001. Des de
llavors ha anat evolucionant dia a dia amb empenta i constancia.
Actualment consta d'unes 30.000 entrades en els dos idiomes, exemples,
notes d'us i d'altres recursos parallels com son vdeos de diferents dialectes
anglesos i catalans, programes per accedir al diccionari, txers PDF i molt
mes.
Dacco ja es una eina molt bona per cobrir les necessitats del dia a dia
d'usuaris tant angloparlants com catalanoparlants que necessiten d'un dic-
cionari bilingue o dels altres recursos que Dacco ofereix.
En aquest article es parlara de sobre que es Dacco, l'historia d'aquest i
com es treballa per aconseguir un bon resultat. A nivell tecnic es parlara de
com esta organitzat Dacco i com es generen les diferents sortides.
1.1 La importancia del catala a Europa
El catala a vegades es considerat llengua de segona, ns i tot per alguns
catalans. Un dels motius es que no hi ha cap estat que doni suport a la
VII Jornades de Programari Lliure. http://www.jornadespl.org 1
Page 2
hidden
llengua de forma o cial, exceptuant Andorra que es un principat forca petit.
No obstant aixo cal recordar que el catala, amb uns 5,5 o 6 milions de
parlants, es parlat aproximadament pel 2% de tot Europa, i te tants parlants
com ara el nlandes, el suec o el noruec que a vegades es consideren mes
prestigioses.
En l'ambit de les noves tecnologies, un altre tret diferencial del catala
i de la cultura catalana es, segurament, el fet d'haver aconseguit el primer
domini cultural: el .cat.
2 Que es Dacco
2.1 El diccionari
Dacco, tal i com s'ha comentat anteriorment, es un acronim de \Diccionari
Angles-Catala de Codi Obert". Dacco esta orientat a usuaris de qualsevol
dels dos idiomes.
Dacco te quatre diccionaris:
 Diccionari angles-catala per usuaris catalanoparlants
 Diccionari catala-angles per usuaris catalanoparlants
 Diccionari angles-catala per usuaris anglofons
 Diccionari catala-angles per usuaris anglofons
Aquesta diferenciacio es molt important ja que ns l'aparicio de Dacco hi
havia molt bons diccionaris catala-angles/angles-catala per catalanoparlants
degut a la gran demanada pero, en canvi, no hi havia gaires bons diccionaris
catala-angles/angles-catala per anglofons. I, tot i que comparativament hi
ha pocs usuaris, s que hi ha estudiants de catala anglesos i americans que
es trobaven davant d'una di cultat mes a l'hora d'aprendre l'idioma.
A part de la poca qualitat dels diccionaris, tambe hi havia el problema
d'acces als diccionaris: els diccionaris angles-catala mes coneguts per cata-
lanoparlants son difcils d'aconseguir fora de Catalunya. I altres diccionaris,
com son el Routledge[2] catala-angles son massa basics i de difcil acces.
La base de Dacco son uns txers en format XML amb totes les entrades
del diccionari, a partir dels quals es generen els txers PDF que son utilitzats
per altres eines.
2.2 Metodes de consulta
Per tal de facilitar al maxim l'acces a les dades del diccionari, des del projecte
Dacco s'han preparat diversos metodes de consulta com son:
 Formulari via Web a l'adreca http://www.catalandictionary.org.
VII Jornades de Programari Lliure. http://www.jornadespl.org 2
Page 3
hidden
 Motor de cerca pel Firefox i l'IE.
 iGoogle gadget. Un gran nombre d'usuaris avui en dia utilitzen aquest
enginy. Te mes usuaris que altres gadgets de mitjans de comunicacio
importants catalans.
 qdacco. Un programa que utilitza els txers XML sense necessitat de
connexio i multiplataforma.
2.3 Altres eines
Dacco no es nomes un diccionari, sino que tambe recull altres eines linguis-
tiques com ara:
 Conjugador de verbs. Molts usuaris utilitzen aquest conjugador de
verbs catalans.
 Una seleccio de vdeos per escoltar dialectes anglesos i catalans trans-
crits.
 CatFon. Un programa que fa la transcripcio fonetica de qualsevol
paraula o frase catalana.
 Phrasal verbs. Un llistat de mes de 2.000 phrasal verbs, properament
sincronitzat amb el diccionari mateix.
3 Historia de Dacco
Linda Oxnard estudiava lologia catalana a la Universitat de Sheeld, An-
glaterra quan durant els seus estudis de doctorat, mitjancant unes enques-
tes va intentar esbrinar quins eren els principals problemes dels estudiants
anglesos a l'hora d'aprendre catala. Un dels problemes que va detectar
va ser la falta de bons diccionaris en catala orientats a anglofons. Els
estudiants comentaven que els diccionaris bilingues eren poc utils i forca
estudiants treballaven amb diccionaris angles-castella o angles-frances per
despres traduir cap al catala. Es queixaven de la mala qualitat dels seus
materials per l'estudi, sobretot comparat amb altres llengues. Hi havia bas-
tants diccionaris monolingues pels estudiants d'angles catalanoparlants (p.
ex. The Oxford Advanced Learner's Dictionary[5], the Cambridge Advan-
ced Learners Dictionary[4] and the Longman Dictionary of Contemporary
English[6]), pero no hi havia cap diccionari monolingue per estudiants de ca-
tala anglofons. Els estudiants primer treballaven amb diccionaris bilingues
molt basics i despres amb diccionaris monolingues (com ara el DIEC[3]),
pero res cobria les seves necessitats durant l'etapa intermitja. La Linda
va tractar d'omplir aquesta necessitat amb Dacco incloent-hi els exemples i
notes d'us que trobaven a faltar a diccionaris com el Routledge.
VII Jornades de Programari Lliure. http://www.jornadespl.org 3
Page 4
hidden
Es per aixo que el 2001 va comencar a crear el diccionari. El 2003 va
alliberar la primera versio: amb unes 500 entrades per llengua, unes quantes
pero realment insu cient per un us real del diccionari.
El seu marit James Macgill, qui no te coneixements de catala pero s
d'informatica i de programari lliure, la va ajudar des del primer dia. Va ser
l'any 2003 quan es va alliberar la primera versio de forma publica i de mica
a mica mes gent s'hi va afegir.
La gent que collabora a Dacco es molt heterogenia: gent catalana o
angloparlant, d'entre 20 i 80 anys; de diferents dialectes, per exemple an-
gloparlants de Nova Zelanda, Australia, America, Canada o Anglaterra;
diferents punts de vista... es un diccionari plural que intenta abastar tota la
realitat lingustica.
Tambe cal destacar que el diccionari es descriptiu i no normatiu. Inten-
ta incloure les paraules que els usuaris necessiten, es per aixo que una de
les fonts son les paraules d'us cotidia de les dues llengues. Es construeix,
sobretot, un diccionari util.
Igual que molt programari lliure, el projecte no cal que tingui un rendi-
ment economic de tal forma que es poden dedicar esforcos a aspectes que
economicament no serien viables pero que son utils per els usuaris. Dacco
te com a objectiu oferir un diccionari lliure i util als usuaris.
4 Origen de les entrades
Les entrades no es copien de cap altre diccionari o lloc on ja puguin exis-
tir. Es justament la gent que fa servir el diccionari que, conscient (enviant
voluntariament) o inconscientment (per exemple buscant les paraules a la
Web) aporten les noves entrades i que son recollides i discutides amb els
collaboradors, o els mateixos collaboradors envien noves entrades.
S que es van incorporar les entrades d'alguns dels repertoris termi-
nologics oferts per Termcat com a \terminologia oberta". Tanmateix, des
del projecte Dacco, es va noti car a Termcat el fet que volia incorporar els
seus repertoris i con rmar que no hi havia cap problema. Els de Termcat
estan molt oberts a qualsevol comentari o suggerencia i, molt amablement,
ens van con rmar que no hi havia cap problema.
La introduccio d'una paraula al diccionari consta de tres passos:
 Trobar una paraula no existent a Dacco. Aquesta paraula es enviada
a la llista de correu, ja sigui utilitzant el formulari per enviar noves
paraules de la Web, utilitzant el llistat de paraules buscades i no tro-
bades, el sistema de seguiment d'incidencies JIRA [1] o altres fonts.
 A la llista de correu es parla informalment del signi cat de la paraula
i de quina n'es la traduccio, notes, exemples, dialecte i altres informa-
cions utils. Alhora que es te en compte que hi ha diferents dialectes,
VII Jornades de Programari Lliure. http://www.jornadespl.org 4
Page 5
hidden
edats, parlants,...
 Finalment la paraula es afegida als txers XML.
Tot el proces es transparent i facilment comprensible. Hi ha un facil acces
a les entrades pendents d'afegir aix com a les entrades acabades d'afegir.
D'aquesta manera s'assegura que hi ha molta visibilitat als canvis. Aixo
es fa mitjancant el sistema JIRA, un sistema de gestio d'incidencies que
s'ajusta molt a les necessitats de Dacco. D'aquesta manera, ns i tot sense
apuntar-se a cap llista de correu es pot seguir l'evolucio del diccionari. Es
fa un diccionari lliure i a la vegada es potencia la cultura lliure.
5 Llicencies de Dacco
Dacco com a projecte es lliure, pero no totes les parts tenen la mateixa
llicencia. Les parts principals son els txers XML, els txers PDF i qdacco:
5.1 Fitxers XML
Els txers XML estan alliberats sota la llicencia LGPL 2.0. Aixo permet
que tothom en pugui fer us, dins de projectes lliures o no lliures. Es vol
potenciar l'us d'eines amb Dacco, aix com potenciar la cultura catalana en
tants llocs com sigui possible.
5.2 Fitxers PDF
Els txers PDF tenen llicencia Creative Commons Atribucio-Compartir
Igual. Creative Commons es una llicencia molt adequada per txers que
no son codi font, i la variant utilitzada permet fer qualsevol cosa sempre i
quan hi hagi atribucio al projecte original i es comparteixi amb la mateixa
llicencia o amb una compatible.
5.3 qdacco
Aquesta aplicacio esta alliberada amb llicencia GPL 3, la versio mes recent
de GPL i garantitza que sempre seguira sent lliure alhora que es pot apro tar
el codi per altres usos, seguir-lo millorant, i en de nitiva assegurar-ne la
llibertat.
6 Caracterstiques especials de Dacco
Dacco te una serie de caracterstiques que el diferencien d'altres diccionaris.
Aquestes son la seva llibertat, el nombre d'entrades, els quatre diccionaris i
la informacio addicional que disposa a les seves entrades.
VII Jornades de Programari Lliure. http://www.jornadespl.org 5
Page 6
hidden
6.1 Llibertat
Dacco es un dels primers diccionaris bilingues lliures. Aixo el fa especi-
alment atractiu. Es possible utilitzar-lo en qualsevol ambit, hi ha grans
possibilitats d'adaptacio, no hi ha gairebe restriccions i s'esta sempre obert
a modi cacions i millores. Igual que la llibertat en el programari que ja hi
estem acostumats pero aplicat a un diccionari.
6.2 Nombre d'entrades
El gran nombre d'entrades de Dacco (unes 30.000 en els dos idiomes) el
fan tambe molt atractiu. Es un diccionari ja madur i complet, que es pot
utilitzar en el dia a dia sense problemes, cosa que no treu que segueixi
creixent i millorant.
6.3 Quatre diccionaris
Dacco te quatre diccionaris: adaptacions per la gent catalanoparlant o be
per anglofons de l'angles-catala i catala-angles. Tambe te altres diccionaris
mes simpli cats per gent que tot just esta aprenent les bases dels idiomes.
6.4 Altre informacio, camps semantics
S'intenta apro tar al maxim les capacitats del medi on es troba el diccionari,
el medi digital: ordinadors, normalment connectats a Internet. Aix doncs hi
ha enllacos a fotos, enllacos a vdeos, exemples, notes d'us o altres recursos
per ajudar a entendre el signi cat de les paraules. No hi ha les limitacions
d'espai que hi podria haver a altres medis.
Per exemple, traduir la paraula \ensamada"es difcil (podria ser \pasts
mallorqu en forma d'espiral"). Si tenim una foto ho aclareix forca mes.
Cada paraula tambe conte, en els txers XML, la frequencia que apareix
a Google i el camp semantic (per exemple, \poma"esta al camp semantic
\fruita", el qual esta al camp semantic \menjar"). Aixo permet construir
petits diccionaris o vocabularis per temes espec cs. S'ha vist que aquests
llistats de paraules agrupades per temes son populars als estudiants de les
dues llengues, i, si es miren els logs de Dacco, ns i tot es veuen estudiants
no catalans que aprenen angles que utilitzen aquests llistats de paraules com
a eina d'aprenenatge, construint el seu propi diccionari bilingue a partir de
les llistes de Dacco com a punt d'entrada.
El fet de marcar les paraules dins un camp semantic permet incoporar
llistes de nou vocabulari espec ques de temes en concret i treballar amb elles
amb les eines de Dacco, per exportar-les temps despres cap a altres llistats.
Per exemple, s'esta en proces d'incorporar una extensa llista d'ocells en
Angles-Catala-Llat. Ja que la llista es treballada i millorada dins de Dacco,
VII Jornades de Programari Lliure. http://www.jornadespl.org 6
Page 7
hidden
les dades poden ser exportades un altre cop cap als projectes que havien
originat les llistes.
7 Futur
L'esquema XML utilitzat a Dacco ha anat evolucionant al llarg del temps
per incoporar les noves caractersitques que eren necessaries. En els propers
mesos, s'espera fer un depurat dels XML i produir un esquema XSD formal.
D'aquesta manera es facilitara la creacio d'altres eines que importin i expor-
tin dades i oferir un marc de treball a altres diccionaris bilingues. Tambe es
dissenya una base de dades que contindra les entrades per permetre, ns i
tot, generar diferents txers XML en funcio de com han de ser fets servir.
Una altra part del treball de refactoritzacio es facilitar als usuaris nals
afegir noves entrades, canviar les entrades existents i en general millorar el
diccionari. Igualment, els canvis seran accessibles mes rapid tot i mantenir el
proces de revisio per seguir tenint una alta qualitat i tenir canvis correctes.
8 qdacco
Una de les eines de Dacco es qdacco: un programa que consulta directament
els txers XML de Dacco per tal d'accedir al diccionari sense connexio.
Proporciona una interfcie d'usuari mes comode, per a consultes puntuals,
que els txers PDF. Tambe te algunes caracterstiques que el diferencien
d'altres programes, com ara:
 Es un programa multiplataforma. Funciona a plataformes Unix (entre
elles Linux) i Microsoft Windows.
 Esta completament integrat amb els txers de Dacco i utilitza tots els
seus recursos (exemples, notes d'us, enllacos a pagines Web...
 Permet enviar paraules que falten o suggeriments al projecte Dacco
per a la millora d'aquest.
 Integracio amb el sintetitzador de veu Festival: pot llegir-nos paraules
per aprendre a pronunciar-les.
 La versio principal es gra ca pero avui en dia tambe inclou una versio
text: es pot utilitzar sense entorn gra c o be integrar-lo amb altres
sistemes de forma molt facil.
 Esta disponible als repositoris de Debian.
 Esta llicenciat amb GPL 3.
VII Jornades de Programari Lliure. http://www.jornadespl.org 7
Page 8
hidden
L'idea inicial de qdacco era ser el programa de referencia de Dacco, per
donar una empenta mes al projecte en s i poder apro tar tots els recursos
que ofereix.
9 Conclusions
Dacco es un diccionari lliure util amb mes de set anys que ofereix una gran
quantitat d'eines i informacio a molta gent.
La cultura lliure es troba en un estat una mica mes prematur que el
programari lliure, que te mes acceptacio i historia. Dins la cultura lliure hi
ha projectes insgnies com la Wikipedia, Wiktionary, Creative Science... Tot
i aix encara hi ha moltes arees on cal creixer, una d'aquestes arees son els
diccionaris oberts, ja siguin bilingues o monolingues. Esperem que Dacco
estigui obrint cam i que properament hi hagi altres diccionaris oberts, ja
sigui apro tant l'experiencia de Dacco o part de la seva infraestructura.
Tambe cal destacar que hi ha almenys dos projectes de diccionaris lliures
catalans, que son:
 GPL Deutsch-Katalanisches Worterbuch: http://www.aldeaglobal.
net/diccionari/index.php . Es un diccionari catala-alemany amb
llicencia GPL.
 Wiktionary (http://ca.wiktionary.org/wiki/Portada, http://
en.wiktionary.org/wiki/Main_Page) a diferencia de Dacco esta mes
focalitzat en de nicions que en traduccions. Algunes entrades tenen
traduccions cap a altres llengues pero no es el seu objectiu princi-
pal ni el seu millor valor. Una de les claus que diferencien Dacco i
Wiktionary es com es presenten les traduccions. A Wiktionary, les
traduccions son enllacos a altres termes i de nicions en altres llengues
-i d'aquesta manera es promou que l'usuari explori d'una pagina a una
altra pagina. Per l'altre costat, Dacco, se centra en la creacio d'entra-
des autonomes amb unes extensives notes d'us en la mateixa llengua
que l'usuari, aix com exemples i frases clau. Es possible que en un
futur hi hagi collaboracio entre els projectes adaptant entrades.
10 Llicencia de l'article
Aquest article es distribueix sota una llicencia Creative Commons
Reconeixement-Compartir amb la mateixa llicencia 2.5 Espanya. Ve-
ieu http://creativecommons.org/licenses/by-sa/2.5/es/deed.ca per
mes informacio.
VII Jornades de Programari Lliure. http://www.jornadespl.org 8
Page 9
hidden
Referencies
[1] http://www.atlassian.com/software/jira/.
[2] Catalan Dictionary: English-Catalan, Catalan-English. Routledge, Lon-
don, UK, 1994.
[3] Diccionari de la Llengua Catalana de l'Institut d'Estudis Catalans. En-
ciclopedia Catalana / Edicions 3 i 4 / Edicions 62 / Editorial Moll /
Publicacions de l'Abadia de Montserrat, 1995.
[4] Cambridge Advanced Learner's Dictionary. Cambridge University Press,
Cambridge, UK, 2005.
[5] Oxford Advanced Learner's Dictionary. Oxford University Press, Oxford,
UK, 2005.
[6] Longman Dictionary of Contemporary English. Pearson ESL, London,
UK, 2006.
VII Jornades de Programari Lliure. http://www.jornadespl.org 9

Sign up today - FREE

Mendeley saves you time finding and organizing research. Learn more

  • All your research in one place
  • Add and import papers easily
  • Access it anywhere, anytime

Start using Mendeley in seconds!

Already have an account? Sign in

Readership Statistics

1 Reader on Mendeley
by Discipline
 
by Academic Status
 
100% Other Professional
by Country
 
100% United Kingdom