[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Re[2]: сравнение кодировок: таблица



Eugene Osintsev <osgene@omskelecom.ru> wrote:


>> - ВСЕГДА использовать только полную форму locale в России :
>> LANG=ru_RU.KOI8-R или там LANG=ru_RU.CP1251 e.t.c. и никаких
>> сокращений "ru" или "ru_RU".
>
>А где-нибудь ещё такую полную форму используют?

 В смысле, где ? В каких разновидностях Unix ?

 Во FreeBSD уже лет пять как, в Linux -- зависит от дистрибутива.
В коммерческих -- у меня нет статистики.

>> - ВСЕГДА проставлять MIME Charset в e-mail, NNTP
>> и заголовках HTTP. Без Charset-а -- считать это Latin-1.
>
>Вроде как это норма.

 Увы, не всегда. Вспомните несчастное и внутренне
противоречивое творение Russian Apache. Такое, извините,
не от хорошей жизни пишут. А возможность явно задавать
Charset в нормальном apache появилась только в 1.3.12 .
Полноценного же Contenet Negotiation там нет до сих пор.

> А вот что делать с программами, где кодировка
>задаётся в неявном виде, так сказать de facto? DXF формат,
> текущий стандарт MP3 тегов (будущий, слава Богу, будет
> много лучше по части задания Charset и использования
>Unicode), ICQ?

 Давить ! ;-))   Даже GSM SMS теперь в UNICODE (UCS-2).

 Дело в том, что если при операции енкодинга "буква" --> "число"
потерять табличку, обратная операция становится невозможной.
Умолчание только одно : Latin-1 . Собственно, см. у меня
http://www.sensi.org/~alec/locale/ глава [Языки, символы и кодировки].


--
-=AV=-