Zoeken met Unicode-zoekwoorden in Google

13 oktober 2001

Het blijkt mogelijk met Google te zoeken op zoekwoorden geschreven in Unicode, in andere alfabetten dan het Latijnse. Met andere zoekmachines, zoals AltaVista of Northern Light lukte dit niet.

De simpelste manier zou uiteraard zijn om zo'n zoekwoord gewoon in te tikken, en er dan op te zoeken. Waarschijnlijk werkt dat ook, maar ik heb het niet getest, bij gebrek aan toetsenbordindelingen die tekens in andere alfabetten kunnen maken.

Wel lukte het een naam te kopiëren uit browser of tekstverwerker, en die in de browser dan te plakken in het zoekvenster van Google. Google vindt dan inderdaad teksten in de betreffende taal, die het zoekwoord bevatten!
Of dit bij het Russisch, Oekraiens e.d. ook goed werkt met sites die in het gebruikelijker KOI8 zijn gecodeerd weet ik niet. Iemand anders wel? .

Hier volgen enkele voorbeelden om het mee uit te proberen. Markeer en kopieer een naam uit de linkerkolom, surf naar Google, plak daar de naam in het zoekvenster, en start de zoekactie.

בראשית ברא אלהים את השמים ואת הארץ.	Het eerste vers uit de Bijbel, in het Hebreeuws: Bereshit bara elohim et hashamayim weët haäretz – In den beginne schiep God den hemel en de aarde.
فصيح	Een Arabisch woord, faṣīḥ in transcriptie, met als betekenis "in zuiver, correct Arabisch".
بِسـْمِ اٱلّٰهِ	bismillahi - In naam van God
٠١٢٣٤٥٦٧٨٩ ۰۱۲۳۴۵۶۷۸۹ ٢٠٠٦ ۲۰۰۶	Arabische Arabische cijfers, die anders zijn dan de Latijnse Arabische cijfers. Daarna: Oosterse Arabische cijfers.
Хрущёв	Naam van vroegere Russische president: Chroesjtsjov.
Milošević	Naam van een vroegere Joegoslavische en Servische president: Milosevic, geschreven in het Latijnse alfabet met diacritische tekens, zoals gebruikt in Bosnië, Kroatië en Servië.
Милошевић	Dezelfde naam in Servische Cyrillische spelling. Dit Cyrillische alfabet lijkt weliswaar sterk op dat voor het Russisch, maar is toch niet in alle details daaraan gelijk. Zo wordt het teken ћ niet gebruikt in het Russisch, dit zou daar geschreven worden als ть.
Krstić, Крстић	Nog een naam uit die streken: Krstic, ook weer in beide in ex-Joegoslavië gebruikte alfabetten.
Łódź	De Poolse plaats Lodz (klinkt zo'n beetje als Woetsj), zoals de Polen het zelf schrijven.
Kettő, KETTŐ	Het Hongaarse woord voor "twee", en nogmaals met alleen hoofdletters.
Bucureşti, Chişinău, Constanţa, Timişoara, Buzău, Nicolae Ceauşescu of beter, met een komma onder de letter in plaats van cedille: București, Chișinău, Constanța, Timișoara, Nicolae Ceaușescu.	Enkele Roemeense (Română) en Moldavische (plaats)namen.
Ĉ Ĝ Ŝ Ĵ Ĥ Ŭ, ĉ ĝ ŝ ĵ ĥ ŭ.	Speciale tekens voor Esperanto.
Antonín Dvořák	De beroemde Tsjechische componist.
Ů, ů	Speciale tekens voor het Tsjechisch: u met ring.
Inteŀligent, INTEĿLIGENT Intel·ligent, INTEL·LIGENT	Dit Catalaanse woord (het betekent, je raadt het al, "intelligent") wordt geschreven met een stip tussen de l'en, om aan te geven dat het een lange normale l-klank heeft, niet een enkele palatale l, die (net als in Castiliaans Spaans) geschreven wordt als ll. Er zijn twee manieren om dit te schrijven: met een speciaal teken "l met stip", of met twee normale l'en en een stip als speciaal teken ertussen.
Ĳsland in de ĳzertĳd. IJsland in de ijzertijd.	"IJsland in de ijzertijd". Het bijzondere is dat de I en de J samen hoofdletters zijn. Sommigen vinden het een aparte letter, anderen zien er twee. Unicode heeft er speciale symbolen voor, namelijk hex 0132 Ĳ en 0133 ĳ. Maar ze worden zelden gebruikt, omdat de combinatie van i en j, zoals hier duidelijk te zien is, hetzelfde effect geeft, alleen met een iets andere "kerning". Vraag (niet eerst naar de html-code kijken): in welke regel zitten de speciale tekens, de onderste of de bovenste?
Μίκης Θεοδωράκης	De beroemde Griekse componist Mikis Theodorakis

Als u in de linkerkolom hierboven niet de juiste tekens ziet, maar bijvoorbeeld vierkantjes, dan is uw browser hier niet geschikt voor. MS Explorer 5.0 en 5.5 (en ook Word 97) onder Win98 zijn door Microsoft voorzien van Unicode-ondersteuning, ook al is de ondersteuning hiervoor in Windows 98 vrijwel afwezig.
De Windows-API, geschikt voor alle 32-bits Windows-varianten, biedt een eenvoudige manier om voor functies zoals SetDlgItemText overal "wide character" versies te laten gebruiken. Maar dan nog werkt het onder Windows 95 en 98 niet. Of dit technisch onvermogen is, of alweer een poging om concurrende browser-makers op achterstand te zetten - Opera 5 en Netscape 3 bieden geen Unicode ondersteuning - ik weet het niet.
Het is mooi dat Word 97 en Explorer wel Unicode ondersteunen, maar het is technisch gezien een slechte oplossing, want dit is typisch iets dat in een besturingssysteem thuishoort, en niet in elk afzonderlijk applicatieprogramma.

Bij gebrek aan applicaties en toetsenbordindelingen om rechtstreeks tekst in andere alfabetten te kunnen intikken - ze bestaan wel, maar ik heb ze zelf niet, heb ze normaal ook niet nodig - heb ik de zoekwoorden hierboven als volgt gemaakt:

Zoek in de codetabellen van Unicode de betreffende letters op. Bijvoorbeeld de c met kuut (accent aigu - acute accent) aan het eind van veel Joegoslavische namen blijkt de code 0107 te hebben.
Zet deze code met een teksteditor in de vorm ć in een html-bestand. De naam Krstić wordt dan bijvoorbeeld Krstić.
(Zie ook manieren om Unicode te coderen).
Roep dit bestand (rechtstreeks van lokale schijf, of na het op internet geplaatst te hebben) op in Explorer 5. De tekst verschijnt met de juiste tekens.

Een codering als ć lijkt op dingen (de zogenoemde entities als ü voor een ü (u met umlaut of trema), en ő, waarin 369 de decimale code is voor de Hongaarse u (ű) met "lange" umlaut (dubbele kuut), in de tekenset Windows 1252.
De tekens & en ; omsluiten dus de codering. Een eventueel hekje # geeft aan dat een codegetal volgt, niet een symbolische aanduiding zoals amp voor ampersand of gt voor "greater than". Zo'n code is zonder verdere vermelding decimaal, maar door er een x voor te zetten wordt aangekondigd dat een hexadecimale weergave van de code volgt.

Het is ook mogelijk om HTML-pagina's te schrijven in UTF-8 (met de juiste kop, natuurlijk), waardoor entiteiten niet meer nodig zijn.

Zie ook A Unicode test page