[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [Fwd: NEW charset!!! Было: Re: KOI8]



>> Но надо отдать должное, что г-н Бырганов
>> по крайней мере знает, что новые charset-ы надо
>> регистрировать в IANA... Это *уже* хорошо.
>Не уверен, что это хорошо. Но вот заведомо плохо будет ,
> если господа из IANA зарегистриуют charset, который
> просто придуман.


 Дело в том, что по статусу IANA - это чисто *регистрационный*
орган. И зарегистрировать в нем новый charset весьма легко.
Для этого нужно : a) уникальное имя б) mapping на unicode.
Но другое дело, что производители софта вовсе не обязаны
его поддерживать. Собственно, больше половины charset-ов
в этом registry -- мертвые.

 А в KSI все было по другому : там под хорошо известным
именем "KOI8-R" выступал совсем другой charset, с другими
значениями codepoints. А это никуда не годится.

>Переходить на 1251. По крайней мере в тех приложениях, в которых нужен
>EURO. Это не так сложно, но требует создания небольшой группы
>единомышленников, которые будут патчить все библиотки, работающие с
>кодировками. Если заодно добавить 1250, то восточноевропейцы будут нам
>благодарны. Криков будет много, так как это шаг по пути свободы выбора,
>а не по Unix way.


 Настоящая свобода выбора была бы в том случае, если у нас
была бы возможность *свободно* выбирать *любую* кодировку.
А если ее нет на локальной системе -- возможность быстро ее
*подключить*. Собственно, POSIX locale почти так и работает :
см. утилиту localedef.

 А самый писк был бы в том случае, если при поступлении
документа в незнакомой кодировке система ходила бы в
репозиторий и динамически незаметно нам бы эту раскладку
подкачивала. Сама. :-) Но можно и ручками...

 К сожалению, X-ы не содержат такой возможности *расширения*.
Собственно, на этом, мне кажется, и надо сосредоточить усилия.
Разработать механизм динамического подключения любых кодировок.
Тогда и Windows-1251 и Windows-1250 и любые User Defined
подключались бы легко. А нам осталось бы только написать
файлики с раскладкой. Типа xlocaledef.

 А лучше сделать X-ы полностью UNICODE. И не UTF-8, а
настоящий UCS-2. Хватит таскать I18N через игольное ушко
8-ми битного байта. Долой char, даешь wchar_t  !   ;-)

>> P.S. Кстати, побочный результат моей командировки в г.Сыктывкар:
>> Язык Коми - национальный язык РК (Республика Коми).
>Неужели Билл не придумал для них кодировки?

 Если честно, не знаю. Газеты-то как-то выпускают ?

> Вот для татар -- придумал!

 А какой у татар CP ? Не турецкий ли ?

> А в Unicode их ы с двумя точками входит?

 Ну, я не уверен что Ы: в Коми есть ;-) Газет забыл накупить.
А вообще в UNICODE можно с помощью COMPOUND
сгенерировать *любой* символ из основного и
COMBINING MODIFIER LETTERS (Null-Wide).
По-моему, до 4-х. Так что Ы с умляутом, тильдой и
рингом можно *сделать*... :-) Но вообще-то
в UNICODE масса PRECOMPOSED символов.
Например, наш Й U+0419 - это типичный PRECOMPOSED,
который раскладывается на U+0418 U+0306.

>Конечно, обязательно надо включить недостающие символы в Unicode.
> И дай Бог, чтобы ими пользовались не только филологи.

 Имеется в виду, зарегистрировать их как PRECOMPOSED, да ?
Тогда уж всех народов (бывшего) СССР. ;-)

>Русский язык у нас не знают только в глухих деревнях. Во Львове, кстати,
>вы русский почти не услышите. Что говорить о коми, если белорусы вообще
>не задумываются о локализации.

 Ну, пройдет лет 10 и привет. Мне нередко приходится общаться
с эстонцами, мужики лет 30. Вполне нормальные мужики.
Русского они просто не знают. Не из за национализма. Просто
в школе плохо русский учили :-) Общаемся на кривом английском.
10 лет уж прошло с независимости Эстонии.



--
-=AV=-