Ordem alfabética no locale pt_BR – atualização

Achei de onde vem a ordem alfabética estranha que separa os acentos e mistura minúsculas e maiúsculas: do francês!
O cara que criou o arquivo iso14651_t1_commom, de onde quase todos os demais locales herdam a sua ordenação, vive na Bélgica, segundo o blogue dele http://walon.org/~srtxg/ e, por algum motivo, colocou a ordenação padrão em francês como o padrão, e ponto.
Vejam esse documento aqui:

http://www-clips.imag.fr/geta/gilles.serasset/tri-du-francais.html

Agora, peguem essa lista de palavras:
cote
côte
Côte
coté
Coté
côté
Côté
coter
Coloquem num arquivo texto, e deem um
LC_ALL=en_US.UTF-8 sort
Vão ver que ficou igualzinho, a regra de ordenação considera o último acento da palavra como primeiro critério na ordem, exatamente como o definido por padrão no arquivo iso14651_t1_common.
Agora, se em português as letras com acento devem ser tratadas como se não tivessem acento, como é que o primeiro critério de desempate em caso de homografia na ordenação alfabética é justamente o acento, ao invés de considerar a oposição maiúscula/minúscula?

Esperanto en ArchLinux

Saluton!

Komence ĉijare mi decidis starigi blogon en esperanto, kaj jen mia unua artikolo en Esperanto.

Mi supozas, ke vi jam scias kiel instali kaj agordi la tutan sistemon (tty kaj x11), laŭ la instruoj el la Oficialaj ArchLinux-Instalinstruoj.

Kion ni bezonas por esperantigi Linukson, Bertilo Wennergren jam listis en lia retejo: Esperanto en Linukso. Kvankam liaj instruoj estas principe validaj por kiu ajn distribuaĵo, ĝi uzis nur Debian-derivaĵojn (Debian, Ubuntu, Kubuntu), kiuj havas esperanto-lokaĵaron jam en siaj paketejoj. ArchLinux estas principe “vanilla” (komentu, ĉu vi sugestas pli bonan tradukon) distribuaĵo, kaj esperanto ne estas akceptebla lokaĵaro por la zorganto de glibc (nome iu Ulrich Drepper, guglu lian nomon + Esperanto), kaj tiel ArchLinux ankaŭ ne havas esperanto-lokaĵaron.

Samideano kaj ArchLinux-uzanto Fractal kreis AUR-paketon por solvi tiun problemon, sed estas problemo kiun li kredeble ne spertis, eble ĉar li supozeble estas anglalingvano: ĉiuj senpaŝaj klavoj en x11 ne funkcias, se vi agordas lokaĵaron, kiu ne estas el glibc origine.

Aldone al solvi tiun problemon pri la klavaro, mi kreis iomete personan lokaĵaron, ĉar mi ŝanĝis kaj perfektiĝis la laŭ-alfabeta ordenigado (pri tio, vidu mian blogaĵon en la portugala Aperfeiçoamento na ordenação alfabética no locale pt_BR.UTF-8. Miaj lokaĵaroj eo kaj eo_BR uzas la dosieron latin_order_case_first listigita en tiu blogaĵo.
Continue reading

Aperfeiçoamento na ordenação alfabética no locale pt_BR.UTF-8

Eis aqui um pequeno aperfeiçoamento para a ordenação alfabética no locale pt_BR.UTF-8 no linux (Archlinux, que é o que eu uso). Estou assumindo que o locale pt_BR.UTF-8 já foi corretamente configurado e ativado, e que você sabe o que está fazendo, certo? :D

A alteração é para ordenar espaços em branco antes das letras, e tratar as maiúsculas e minúsculas antes dos acentos. A ordenação padrão do locale pt_BR ordena esta sequência:
abcdefghijklmnopqrstuvwxyzáàâãéêíóôõúüçABCDEFGHIJKLMNOPQRSTUVWXYZÁÀÂÃÉÊÍÓÔÕÚÜÇ
Assim:
aAáÁàÀâÂãÃbBcCçÇdDeEéÉêÊfFgGhHiIíÍjJkKlLmMnNoOóÓôÔõÕpPqQrRsStTuUúÚüÜvVwWxXyYzZ
Misturando maiúsculas e minúsculas, mas separando os acentos. Depois da alteração, a ordem passa a ser:
AÂÀÁÃaâàáãBbCÇcçDdEÊÉeêéFfGgHhIÍiíJjKkLlMmNnOÔÓÕoôóõPpQqRrSsTtUÚÜuúüVvWwXxYyZz
Nada de extraordinário, mas eu precisava de uma ordenação assim para um trabalho que estou fazendo, usando um banco de dados Postgres que está com o collation definido para pt_BR.UTF-8. Espero que seja útil para mais pessoas.
Continue reading