Datasvammel

UTF-8 överallt

Nu har jag snart konverterat min sista desktop-miljö till att köra UTF-8 fullt ut. Det som släpar efter är alla filsystem som fortfarande har filnamn lagrade som ISO-8859-1. Dessvärre finns ingen information i filsystemet om hur det hanterar kodning av filnamn. Så det verkar som om det blir väldigt mycket jobb att konvertera alla dessa namn till UTF-8.

En snabb genomletning i Debians programarkiv ger att det finns ett litet program som heter convmv. Efter ett par provkörningar så har jag kommit fram till att det inte går att köra på en hel partition, då den gärna översätter redan översatta namn en gång till (om man konverterar latin-1 till UTF-8). Då får man ännu värre filnamn med helt utomjordiska tecken. Så det enda vettiga sättet att göra det är att översätta kataloger man har full koll på vad de innehåller. /home/mp3 blir rätt jobbig att översätta med andra ord.

En liten önskning är att framtida filsystem har betydligt bättre metainformation om saker som filnamn.

One Response to “UTF-8 överallt”

  1. Datasvammel » Blog Archive » Unicode och gammalt data Says:

    [...] Jag har som jag skrivit förut beslutat mig för att helt gå över till UTF-8. Mina desktop-miljöer kör sedan dess helt och hållet UTF-8, men jag har fortfarande inte orkat konvertera filsystemen. Vad jag dessutom upptäckte var en hel drös med webbsidor som fortfarande är kodade i Latin-1. Vilket gör att det blir jobbigt att uppdatera dem. Någon strategi för konvertering där har jag inte ännu. [...]

Leave a Reply