Het blijkt mogelijk met Google te zoeken op zoekwoorden geschreven in Unicode, in andere alfabetten dan het Latijnse. Met andere zoekmachines, zoals AltaVista of Northern Light lukte dit niet.
De simpelste manier zou uiteraard zijn om zo'n zoekwoord gewoon in te tikken, en er dan op te zoeken. Waarschijnlijk werkt dat ook, maar ik heb het niet getest, bij gebrek aan toetsenbordindelingen die tekens in andere alfabetten kunnen maken.
Wel lukte het een naam te kopiëren uit browser of tekstverwerker,
en die in de browser dan te plakken in het zoekvenster van Google.
Google vindt dan inderdaad teksten in de betreffende taal, die het
zoekwoord bevatten!
Of dit bij het Russisch, Oekraiens e.d. ook goed werkt met sites die
in het gebruikelijker KOI8 zijn gecodeerd weet ik niet.
Iemand anders wel?
.
Hier volgen enkele voorbeelden om het mee uit te proberen. Markeer en kopieer een naam uit de linkerkolom, surf naar Google, plak daar de naam in het zoekvenster, en start de zoekactie.
בראשית ברא אלהים את השמים ואת הארץ. | Het eerste vers uit de Bijbel, in het Hebreeuws:
Bereshit bara elohim et hashamayim weët haäretz –
In den beginne schiep God den hemel en de aarde. |
فصيح | Een Arabisch woord, faṣīḥ in transcriptie, met als betekenis "in zuiver, correct Arabisch". |
بِسـْمِ اٱلّٰهِ | bismillahi - In naam van God |
٠١٢٣٤٥٦٧٨٩
۰۱۲۳۴۵۶۷۸۹ ٢٠٠٦ ۲۰۰۶ |
Arabische Arabische cijfers, die anders zijn dan de Latijnse Arabische cijfers. Daarna: Oosterse Arabische cijfers. |
Хрущёв | Naam van vroegere Russische president: Chroesjtsjov. |
Milošević | Naam van een vroegere Joegoslavische en Servische president: Milosevic, geschreven in het Latijnse alfabet met diacritische tekens, zoals gebruikt in Bosnië, Kroatië en Servië. |
Милошевић | Dezelfde naam in Servische Cyrillische spelling.
Dit Cyrillische alfabet lijkt weliswaar sterk op dat voor het Russisch, maar is toch niet in alle details daaraan gelijk. Zo wordt het teken ћ niet gebruikt in het Russisch, dit zou daar geschreven worden als ть. |
Krstić, Крстић | Nog een naam uit die streken: Krstic, ook weer in beide in ex-Joegoslavië gebruikte alfabetten. |
Łódź | De Poolse plaats Lodz (klinkt zo'n beetje als Woetsj), zoals de Polen het zelf schrijven. |
Kettő, KETTŐ | Het Hongaarse woord voor "twee", en nogmaals met alleen hoofdletters. |
Bucureşti, Chişinău, Constanţa, Timişoara, Buzău, Nicolae Ceauşescu of beter, met een komma onder de letter in plaats van cedille: București, Chișinău, Constanța, Timișoara, Nicolae Ceaușescu. | Enkele Roemeense (Română) en Moldavische (plaats)namen. |
Ĉ Ĝ Ŝ Ĵ Ĥ Ŭ, ĉ ĝ ŝ ĵ ĥ ŭ. | Speciale tekens voor Esperanto. |
Antonín Dvořák | De beroemde Tsjechische componist. |
Ů, ů | Speciale tekens voor het Tsjechisch: u met ring. |
Inteŀligent, INTEĿLIGENT Intel·ligent, INTEL·LIGENT |
Dit Catalaanse woord (het betekent, je raadt het al, "intelligent") wordt geschreven met een stip tussen de l'en, om aan te geven dat het een lange normale l-klank heeft, niet een enkele palatale l, die (net als in Castiliaans Spaans) geschreven wordt als ll. Er zijn twee manieren om dit te schrijven: met een speciaal teken "l met stip", of met twee normale l'en en een stip als speciaal teken ertussen. |
IJsland in de ijzertijd.
IJsland in de ijzertijd. |
"IJsland in de ijzertijd". Het bijzondere is dat de I en de J samen hoofdletters zijn. Sommigen vinden het een aparte letter, anderen zien er twee. Unicode heeft er speciale symbolen voor, namelijk hex 0132 IJ en 0133 ij. Maar ze worden zelden gebruikt, omdat de combinatie van i en j, zoals hier duidelijk te zien is, hetzelfde effect geeft, alleen met een iets andere "kerning". Vraag (niet eerst naar de html-code kijken): in welke regel zitten de speciale tekens, de onderste of de bovenste? |
Μίκης Θεοδωράκης | De beroemde Griekse componist Mikis Theodorakis |
Als u in de linkerkolom hierboven niet de juiste tekens
ziet, maar bijvoorbeeld vierkantjes, dan is uw browser
hier niet geschikt voor. MS Explorer 5.0 en 5.5 (en ook
Word 97) onder Win98 zijn door Microsoft voorzien van
Unicode-ondersteuning, ook al is de ondersteuning
hiervoor in Windows 98 vrijwel afwezig.
De Windows-API, geschikt voor alle 32-bits Windows-varianten,
biedt een eenvoudige manier om voor functies zoals SetDlgItemText
overal "wide character" versies te laten gebruiken.
Maar dan nog werkt het onder Windows 95 en 98 niet.
Of dit technisch onvermogen is, of alweer een poging
om concurrende browser-makers op achterstand te zetten
- Opera 5 en Netscape 3 bieden geen Unicode ondersteuning -
ik weet het niet.
Het is mooi dat Word 97 en Explorer wel Unicode ondersteunen,
maar het is technisch gezien een slechte oplossing, want dit is
typisch iets dat in een besturingssysteem thuishoort,
en niet in elk afzonderlijk applicatieprogramma.
Bij gebrek aan applicaties en toetsenbordindelingen
om rechtstreeks tekst in andere alfabetten te kunnen
intikken - ze bestaan wel, maar ik heb ze zelf niet,
heb ze normaal ook niet nodig - heb ik de zoekwoorden
hierboven als volgt gemaakt:
Zoek in de codetabellen van Unicode de betreffende letters op. Bijvoorbeeld de c met kuut (accent aigu - acute accent) aan het eind van veel Joegoslavische namen blijkt de code 0107 te hebben.
Zet deze code met een teksteditor in de vorm
ć in een html-bestand. De naam Krstić
wordt dan bijvoorbeeld Krstić.
(Zie ook manieren
om Unicode te coderen).
Roep dit bestand (rechtstreeks van lokale schijf, of
na het op internet geplaatst te hebben) op in Explorer 5.
De tekst verschijnt met de juiste tekens.
Een codering als ć lijkt op dingen
(de zogenoemde entities
als ü voor een ü (u met umlaut of trema), en
ő, waarin 369 de decimale code is voor
de Hongaarse u (ű) met "lange" umlaut (dubbele kuut),
in de tekenset Windows 1252.
De tekens & en ; omsluiten dus de codering.
Een eventueel hekje # geeft aan dat een codegetal
volgt, niet een symbolische aanduiding zoals amp
voor ampersand of gt voor "greater than".
Zo'n code
is zonder verdere vermelding decimaal, maar door
er een x voor te zetten wordt aangekondigd dat
een hexadecimale weergave van de code volgt.
Het is ook mogelijk om HTML-pagina's te schrijven in UTF-8 (met de juiste kop, natuurlijk), waardoor entiteiten niet meer nodig zijn.
Zie ook A Unicode test page
Copyright © 2001 by R. Harmsen