Dictionario francese-interlingua de Piet Cleij

Le 15–18 de januario 2020. Un articulo scribite per Ruud Harmsen (como totes in iste sito web, si non alteremente indicate).

Consultar es apprender

Pro le successo de un lingua le disponibilitate de bon dictionarios es importante. Quando io comenciava a apprender interlingua, io poteva contar con le grande dictionarios nederlandese-interlingua, e vice versa, de Piet Cleij. Un bon maniera de melior maestrar un lingua es essayar pensar e scriber in illo. Assi es que io ha apprendite le anglese, al etate de 16 o 17 annos: io voleva pensar in anglese, e pro toto que io non poteva pensar per manco de parolas, al arrivar in casa io cercava los in le dictionario.

Parolas que es importante in le vita del apprenditor, naturalmente retorna in su pensamentos, e assi es automaticamente repetite, usque illos ha firmemente devenite parte del vocabulario.

Proque le dictionario nl>ia>nl de Piet Cleij contine un vaste numero de parolas, ma anque multissime exemplos e expressiones, le nuances e subtilitate de mi expression in interlingua es fortemente adjutate per le accesso a iste dictionarios. Mesmo nunc, plus que sex annos post mi prime passos in interlingua, a vices io consulta le dictionarios. Satis subinde, de facto.

Linguas in le mundo

Le nederlandese non es un parve lingua, essente parlate in le tres paises Surinam, Belgica e Nederland, per circa 24 milliones personas. Comparate con le totalitate del population de Europa e del mundo, illo non es multe. Pro qui non sape le nederlandese, le dictionarios de Piet Cleij es inutile. Tamen Thomas Breinstrup me ha dicite que ille los usa, proque ex su maestria del danese (lingua materne), svedese e anglese, parolas nederlandese es sovente recognoscibile.

Le francese ha plus parlatores, in Francia, Belgica (Wallonia e Bruxelles), Suissa, Canada e varie paises in Africa, e ha un rolo international plus importante e versatile que le nederlandese. Le accessibilitate de un ponte ab le lingua francese al vocabulario international de interlingua pote dunque promover le bon cosa de interlingua ancora plus.

Le mesme Piet Cleij del dictionarios nederlandese ha anque create un grande e bon dictionario francese-interlingua. Un publication como libro de papiro es disponibile del UMI via Lulu.com, e on pote anque discargar e consultar le files PDF in le sito del UMI.

Maniera de cercar

Io voleva facer iste dictionario anque accessibile via mi interfacie ja facite pro altere dictionarios – intertanto novem in total, in illo includite un sin connexion con interlingua, esperanto-anglese, ma que refere a Paul Denisowski, de qui io ha le idea de facer le interfacie in le forma que illo habe.

Personalmente io prefere le accesso electronic al vocabulos, per ration del celeritate, le possibilitate de trovar variantes per expressiones regular (patronos; in anglese: regular expressions), e proque on non solo cerca in le entratas in ordine alphabetic, ma in le material textual complete.

Fonte e volumine del material

Le 6 de septembre 2015 le filio de Piet Cleij, Vincent, inviava un e-mail a me e alteres, con un ligamine a Dropbox ubi esseva files del computer de Piet Cleij. Le documento le plus nove quanto al francese in iste material habeva qua data le 6 de april 2014. Dunque usque menses ante su morte, le 7 de januario 2015, Piet Cleij ha ancora travaliate al dictionario, in un periodo quando su sanitate jam non esseva optime.

Io ha usate iste documento, un file MSWord de plus que 11 megabytes. Ja in le prime paginas il es clar que iste version contine plus entratas, e super toto plus exemplos e expressiones, que le PDFs in le sito del UMI.

Ora, con le conversion technic completate, io conta 60.160 lemmas. Nos debe nonobstante considerar que in francese, multe parolas pote esser adjectivo o substantivo, in forma identic. In le dictionario istos es generalmente presentate como lemmas separate.

In addition il ha 10.162 variantes de significato, e le numero impressionante de 58.883 expressiones e exemplos!

Converter le material

Documentos MSWord, PDF, HTML, etc. non es usabile pro mi interfacie de cerca, proque internemente le motor de querer es grep (plus specificamente: egrep, le version extendite). Iste typo de programmas, ja disponibile in variantes matutin de UNIX, es designate pro operar sur lineas de texto, e nihil altere.

Pro isto io ha aperite le documento de 11 MB in MSWord, pro salvar lo como HTML, sperante que io poterea simplificar le HTML e finalmente arrivar a lineas de texto usabile. Le grandor del file HTML resultante esseva 30.655.562 bytes. Tosto post illo, Windows 10 collabeva, e le 26 de julio 2019 un altere computer con Windows 8, post un cadita infortunate, refusava me servir. Desde alora io non ha usate MSWord, ben que forsan illo es possibile anque in successor Linux Mint, usante Wine.

Pro LibreOffice (version 6.2.5.2) le documento MSWord de 11 MB es troppo pesante. Post circa un minuto, com jam 900 megabytes de memoria residente allocate, io ha (anque hodie, de novo) terminate le processo. Le schermo ancora esseva completemente vacue. Anque files de texto presenta grande problemas. Aperir un file de quasi 7 megabytes finalmente succedeva, ma requireva le uso de 1,134 gigabytes de memoria.

Le editor de texto xed, presente como standard in Linux Mint, pote tractar tan files de texto, ma aperir, cercar e salvar es multo lente.

Mi salvator era le editor de texto nano, que es alique particular quanto al maneamento, ma que carga, cerca, cerca&reimplacia, e salva multo rapidemente, sin esser intimidate per grande files. Un test: 105 MB, plus que 2 million lineas de texto: cargate in 4,5 secundas. Uso de memoria: 244 MB. (Nota: ed tamben.)

Exemplo del codification HTML como MSWord lo salvava, ex le lemma ‘parler’:

<p class=MsoNormal style='margin-left:14.15pt'><span class=exemplo1><span
lang=FR style='font-size:8.5pt;mso-bidi-font-size:10.0pt'>~ en interlingua</span></span><span
lang=FR style='font-size:8.5pt;mso-bidi-font-size:10.0pt'> </span><span
class=exemplo2><span style='font-size:8.5pt;mso-bidi-font-size:10.0pt'>parlar
in interlingua<o:p></o:p></span></span></p>

Post mi manipulationes illo esseva reducite a:

<dd>~ en interlingua : parlar in interlingua

Le ‘bidi’ in ‘mso-bidi-font-size’ probabilemente sta pro ‘bidirectional’. Microsoft Word tene conto del possibilitate que sia presente texto in lingua arabe o hebree, que es alora presentate con litteras plus grande. 154 mille vices illo es indicate. In realitate il ha nulle tal texto oriental, le dictionario exclusivemente contine francese e interlingua.

Le numero de bytes de 30.655.562 post mi editar habeva devenite 6.791.916, o 22%.

Un altere exemplo:

<p class=Entrata0><span class=entrata><span lang=FR>abdos</span></span><span
lang=FR> </span><span class=gram>s. </span>exercitios pro le musculos abdominal</p>

(Nota que le parola ‘abdos’ es marcate como francese, ma separatemente anque le spatio post le parola. Que es le relevantia? Ha il un differentia inter un spatio francese, un spatio interlingual, e un spatio in general, sin indication de lingua? Io vide illo como un exemplo del mentalitate de Microsoft, hic prolongate usque le lunatic, de ‘big is beautiful’ e ‘more is better’. Io al contrario adhere al principio KISS, ‘keep it simple, stupid’.)

Postea illo ha devenite:

<dt>abdos</dt> <dd><i>s.</i> : exercitios pro le musculos abdominal

que le navigator (browser) monstra como:

abdos: s. : exercitios pro le musculos abdominal

Proque le complexitate del codification non esseva consistente e veridic, multe passos de conversion e controlo esseva necesse. Io usava un combination de cercar e substituer con expressiones regular in nano, parve programmas specialisate que io scribeva in C, e correctiones manual pro situationes restante. Le avantage de manipulationes relativemente parve, passo a passo, es que le errores ancora pote esser corrigite, que in caso de discoperta tarde non plus serea possibile.

Le resultato final de tote mi manipulationes del codices (sin toccar le contento, salvo in le caso de obvie errores que per hasardo io videva) es consultabile hic. Un avantage de iste presentation es que on vide un pagina complete, con lemmas, explicationes e exemplos in contexto. Un disavantage es on non pote distinguer inter un cerca de tote le texto, e cercar solo le lemmas, como es possibile in le interfacie. Un altere disavantage es que le dictionario complete prende 6,8 megabytes de datos, que es bastante grande pro un sol pagina web, e pote causar un deceleration.

Structura

Le dictionario complete es structurate como un definition list, un lista de definitiones, ergo es inter le elementos HTML <dl> e </dl>. Intra isto es le lemmas o entratas. Cata entrata es inter tags HTML <dt> e </dt>. Le entrata es le parola o expression francese que va esser translatate o explicate.

Le prime explication, o definition in terminos del tags HTML, seque post un spatio e le tag <dd>, in le mesme linea. (Spatios e lineas es irrelevante in HTML, ma relevante in le file de texto pro le interfacie de cerca, que sera postea derivate de iste file HTML. Le ration es que egrep cerca sempre per linea de texto.)

Le definition inter <dd> e </dd> (le end tag </dd> pote esser omittite in HTML4, que io usa) es structurate assi:

Quasi sempre il ha un indication del categoria grammatical del parola o combination de parolas, e.g. v. verbo, sub. substantivo, adj. adjectivo, adv. adverbio, v. verbo, prép. preposition, num. numeral, conj. conjunction, interj. interjection. Iste indicationes es abbreviate, sequite per un puncto, in francese (hinc le accento super le é de préposition), e italic = cursive, isto es, in HTML inter  e .
Sovente il ha un o plus themas, campos de studio, disciplinas, manieras de uso, etc. como (bot.) botanic, (cul.) culinari, (astron.) astronomic, (math.) mathematic, (anat.) anatomic, (zool.) zoologic, (sport) sportive, (jur.) juridic, (fig.) figurate, (ling.) linguistic. Iste indicationes es italic, inter parentheses, sequite per un puncto si il se tracta de un abbreviation, e in francese.
A vices un clarification in francese es addite, que explica o limita le situation, le signification partial, le uso, etc. Isto es non-cursive, e inter parentheses. Exemplos: (rendre sourd) e (frapper de stupeur).
Si il ha plus que un variante de signification, illos es numerate, le sequentes in un linea precedite non per le codice HTML <dt>, ma per <dd>. Un exemplo, como vidite in le navigator:

abasourdir

1. v. (rendre sourd) : assurdar, render surde

2. v. (fig.) (frapper de stupeur) : consternar, disconcertar

e como codificate in HTML:
```
<dt>abasourdir</dt> <dd>1. v. (rendre sourd) : assurdar, render surde
<dd>2. v. (fig.) (frapper de stupeur) : consternar, disconcertar
```
(Le exemplo io ha trovate in le interfacie, assi.)
Como vos vide in le exemplo in alto, ubi le francese fini e le interlingua comencia, il ha le indication " : ", spatio, duo punctos, spatio. Iste idea io ha de Paul Denisowski, e iste indication non esseva presente originalmente in le material de Piet Cleij.
Post le sol significato, o cata un de plure significatos numerate, pote sequer expressiones e exemplos que usa le lemma. Il ha multissime de istos, cosa que face tote le dictionarios de Piet Cleij particularmente utile e usabile.

De HTML a texto

Del file HTML pote esser derivate un file de texto, apte pro uso in mi interfacie de cerca. Pro isto io ha scribite un programma simplice in C. Le codice fonte es hic. Le programma face le sequente (vide frhtmtxt.c):

Le HTML que precede <dl>, e que seque </dl>, es removite, como es iste tags mesme;
Lineas vacue es removite. In le HTML, illos es sin signification, ma presente pro plus facilemente vider ubi comencia un lemma, in un situation de controlo visual.
Lo que es inter <dt> e </dt> es salvate in un tampon (buffer), pro uso sequente.
Le tags es removite, e le lemma e traduction es ponite in le linea, con un extra comma e spatio in le caso que le traduction es numerate (1.), pro esser consistente con 2., 3. etc., si presente.
Lineas que comencia con <dd> es precedite per le lemma, un comma e un spatio. Assi le resultato de un cerca sera ancora comprensibile, si le linea con le lemma non es seligite.
Un mesura special es necesse pro vocales que es sublineate pro indicar un accentuation que devia del regulas basic. Qui in un navigator (browser) cerca ‘oceano’, trova anque ‘oceano’. Le navigator sape que le sublineation del littera ‘e’ debe esser ignorate in le cerca.

Sed egrep, usate per le interfacie per realisar le cerca, non sape de isto. Toto es texto pro egrep, e on poterea solo trovar le parola per includer le codification, assi. Claro illo non es acceptabile. Le solution es includer in le linea, e le parola calve, e le parola con vocal sublineate: oceano (oceano).
Le function RepeatWordsWithUnderlining, realisate in le file fonte repundrl.c, face isto. (Previemente iste function esseva parte del programma extrwkia pro le dictionarios nederlandese. Ora separate.)

`ed` tamben

Nota addite le 3 de julio 2021:
Non solo le editor de texto nano pote ben manear files de texto de multe megabytes, anque ed. Iste programma es multo vetule, era ja disveloppate in augusto de 1969, como un del prime componentes de UNIX! Le autor era Ken Thompson.

Malgrado su etate, ed es hodie bastante moderne pro poter manear multe scripturas, gratias a Unicode e UTF8. Quando io adressava un linea in mi file de annotationes musical, ponente le nomine grec Φασουλάκη post le symbolo ‘/’ pro introducer un expression regular, ed lo trovava e monstrava. Ma le commando l pro listar rendeva le nomine como:
\316\246\316\261\317\203\316\277\317\205\316\273\316\254\316\272\316\267,
que es le codification UTF-8 del litteras, con le duo bytes de cata littera in representation octal. Inambigue, ma non multe practic. Ma le commando alternative n monstra le numero del linea, con le texto in greco normal e legibile. Iste software de 52 annos ancora es bon!