UNICODE in Windows'95.

    You can trananslate this page with  http://www.promt.ru  [on-line].


  1. Windows'95 API
  2. Фонты
  3. Clipboard
  4. Charmap
  5. Keyboard
  6. Другие утилиты
  7. MS Office'97
  8. Internet Explorer 4
  9. Outlook Express
  10. Front Page
  11. Продукты Adobe

Windows'95 API. Техническая информация.

    UNICODE в Windows 95/98/ME - довольно странная вещь. Подобно причудливому сочетанию 32- и 16-битной архитектуры, в Windows 95 содержится не менее причудливое сочетание UNICODE, Codepages и просто 8-ми битного (OEM) текста.

*    Когда-нибудь я помещу сюда обзор по поддержке UNICODE в Win32s, в Win32(95) и в Win32(NT)... А пока Quick'n'Dirty информация. /* Если мне кто-нибудь поможет -- Welcome ! */

    Основное : вся возможность Windows'95 работать с UNICODE оcнована на том, что Windows'95 модуль GDI поддерживает функцию TextOutW(). Именно эта функция позволяет отображать символы из UNICODE TrueType фонтов. Кроме этой GDI поддерживает функции GetCharWidthW() и GetTextExtentPointW() которые позволяют получить инфомацию о фонте. Буква W на конце означает Wide (широкий), что предполагает 16-битный аргумент вместо 8-ми битного.

   Таким образом, Windows'95 содержит весьма урезанную поддержку UNICODE на уровне системы - только отображение UNICODE символов в окне. Всю внутреннюю работу с UNICODE приложение должно осуществлять само.

    Настоятельно рекомендую книгу :
Charles Petzold
Programming Windows
Глава 17 "Text and Fonts" есть в свободном доступе.

    Рекомендуется также ознакомиться со статьей А.В. и Г.В. Фроловых  из журнала "Мир ПК":
http://www.osp.ru/pcworld/1998/11/134.htm   , продолжение :
http://www.osp.ru/pcworld/1998/12/128.htm

    Если уж применять UNICODE, то для чего-нибудь серьезного, например для работы с японским языком. :-)
Смотри например "Японский для всех" А.Н. Колесникова.

Или здесь : http://www.rinet.ru/~vit/jsoft.htm

Или здесь : Japanese software


Фонты.

    В Windows'95 фонты True Type сменили формат на UNICODE (точно такой же, как в Windows NT). Однако осталась возможность работы и со старыми, не-UNICODE TrueType фонтами.

    Для изучения Вашей коллекции фонтов существует очень полезная утилита :
Font Properties Extension, ttfext.exe - 338KB - 22 October 1997 .
Взять можно на http://www.microsoft.com/typography/free.htm .

property3.gif (3079 bytes)

    Еще одна неплохая утилита : ListFont.

    Там же, на Microsoft Typography можно скачать очень неплохие TrueType UNICODE "Microsoft Core Fonts", фонты, содержащие так называемый WGL4 (Windows Glyph List 4) character set, который включает в себя 653 символа : Basic Latin, Latin-1 Supplement, Latin Extended-A, Basic Greek, Cyrillic и символ валюты EURO.

    Внимание! Microsoft убрала данные шрифты из свободного доступа. Тем не менее, согласно лицензии, данные шрифты можно свободно распространять и выкладывать на WEB, как например сделано тут : http://corefonts.sourceforge.net/ . Кроме того, полный набор этих фонтов входит в MS IE 6 или Windows XP.

    К сожалению, редко какой UNICODE TrueType шрифт содержит все 65.535 возможных символов. Как правило, этот список гораздно меньше. Тот же WGL4 и его 653 символа - это ~1% от полного UNICODE.

    С другой стороны, в дистрибутив Windows'98/ME/XP входит один довольно объемистый UNICODE TrueType шрифт : Lucida Sans Unicode :  LSANSUNI.TTF - 298К, сожержащий более 1700 UNICODE символов. Например, HEBREW символы, BOX DRAWING, BLOCK ELEMENT, e.t.c.

    Узнать, какие именно блоки символов содержатся в UNICODE TrueType фонте можно с помощью функции GetTextCharsetInfo() которая заполняет структуру FONTSIGNATURE. Подробности можно узнать на MSDN (поиск).

    "Старые" приложения также могут использовать новые фонты, путем организации "логических" фонтов, иногда называемые также "логическими сечениями". Логические фонты задаются в файле
C:\WINDOWS\WIN.INI :

[FontSubstitutes]
Times=Times New Roman
Times New Roman Baltic,186=Times New Roman,186
Times New Roman CE,238=Times New Roman,238
Times New Roman Cyr,204=Times New Roman,204
Times New Roman Greek,161=Times New Roman,161
Times New Roman Tur,162=Times New Roman,162

    Загадочные цифры после имени шрифта - кодировка "сечения". Цифры скорее всего взяты с потолка... :) Так : 204 = 0x0CC (Cyrillic Code), 238 = 0x0EE (Europe), 186 = 0x0BA (Baltic) . Некоторые приложения (например Word'95) существенно зависят от этих "логических сечений". Подробности см. на страничке Константина Казарновского

    См. также TrueType and Unicode.

    Удивительно, но на том же сайте Microsoft можно бесплатно скачать UNICODE TrueType шрифты, содержащие иероглифы ! Файл с этими шрифтами входит в комплект так называемого Internet Explorer Multilanguage Support (или из комплекта Micosoft Explorer 4.0 Addon (ссылка работает для 4-го Explorer-а)) :

Japan Language Support 2092K
Korean Language Support 1786K
Chinese (Traditional) Language Support 3323K
Chinese (Simplified) Language Supporf 2418K

    На самом деле, эти файлы состоят из огромных UNICODE TrueType фонтов с иероглифами (MS Gothic : MSGOTHIC.TTF - 4170144 bytes) и файлов локализации (Codepage CP_932.NLS ) : ja_ttf.zip (устанавливать через .inf). И "японизируют" они вовсе не Internet Explorer (вернее, не только), а СИСТЕМУ Windows'95 ! Естественно, без Input Method-ов. Возмем этот факт на заметку.

    В полный комплект MS Office и пакет интернационализации IIS входит еще один неплохой шрифт, содержащий иероглифы : MS Mincho msmincho.zip.

     Еще UNICODE фонты с иероглифами :  Cyberbit Unicode Font, TwinBridge


Clipboard.

    В Windows'95 поддержка UNICODE появилась также в Clipboard. Вернее, появились новые форматы : CF_UNICODETEXT (в Windows NT) и CF_HTML содержимого Clipboard. Объекты CF_HTML помещаются в  Clipboard в UNICODE, в кодировке UTF-8. А совместно с каждым объектом CF_TEXT помещается объект CF_LOCALE (описание текущей кодовой страницы). Подробности см. на MSDN (нажмите "TOC"). Таким образом, существует возможность (потенциальная) обмениваться между программами UNICODE текстом.

    Одно весьма полезное свойство Clipboard -- это возможность хранить один и тот же объект сразу в нескольких форматах. Поэтому "умная" программа может помещать в Clipboard тот же самый текст в различной форме : например CF_TEXT + CF_HTML. А другая "умная" программа выберет из Clipboard тот формат, который наиболее ей подходит (или обладает наибольшими возможностями форматирования). Например, скопируем в Clipboard фрагмент текста из MS Word и попытаемся вставить этот фрагмент в Notepad и в FrontPage. Мы получим : в первом случает простой текст без форматирования, а во втором случае -- текст с сохранением разметки (поскольку FrontPage прочитает CF_RICHTEXT и запустит конвертер RTF --> HTML, а Notepad умеет работать только с CF_TEXT).

    Естественно, каждая программа может объявить свой собственный формат данных для хранения в Clipboard.

    К сожалению, мне так и не удалось найти номальный Clipboard Viewer, хотя всяких Clipboard Manager-ов огромное количество.

    Один из Viewer-ов - программа CLIPBRD.EXE - 17376 bytes входящая в дистрибутив Windows'95. Позволяет увидеть содержимое Clipboard (но только увидеть). Не позволяет посмотреть структуру содержимого Clipboard (в виде списка CF_* ). Позволяет выбрать один из объектов CF_*, если их несколько (пункт меню "Вид"), причем поддерживает OLE. Позволяет записать содержимое Clipboard в виде файла .CLP . Позволяет прочитать ранее записанный .CLP файл и поместить его в Clipboard.

    Структура .CLP файла описана например на GFF.

    Другой viewer идет в комплекте с Microsoft Visual Stidio. Он позволяет увидеть структуру Clipboard, но не позволяет увидеть сами объекты, а также не понимает новых форматов CF_ * . Предназначен скорее для тестирования OLE приложений.

    Если кто знает, где взять нормальный Clipboard Viewer, или напишет сам -- дайте знать ! Пожалуйста ! ;-)
См. например Example Of Clipboard Viever .

    Подробности функционирования Clipboard подробно изложены на MSDN (не забудьте кнопку TOC).


Charmap.

    В комплект Windows'95 входит довольно примитивная утилита CHARMAP.EXE которая позволяет помещать произвольный текст в Clipboard. Однако, такое впечатление, что она перекочевала сюда из Windows 3.11 - она позволяет выбирать только первые 256 символов шрифта (даже из Lucida Sans Unicode) и "видит" виртуальные TrueType шрифты, типа Arial Cyr, Arial Greek. Тот же CHARMAP.EXE из Windows NT более умный, но к сожалению не работает под Windows'95.

   Гораздно более продвинутая утилита : Bjondi Character Agent ca111w.exe (бесплатно). Всем, изучающим UNICODE, настоятельно ее рекомендую. Узнаете много нового и интересно про свои фонты, да и про UNICODE собственно. Эта утилита, как и CHARMAP.EXE также позволяет помещать выбранные символы в Clipboard (и делает это в полном соответствии с новыми стандартами).


Клавиатура.

    Как мы уже выяснили, приложение Windows'95 может выводить (рисовать в окне) любые символы, содержащиеся в UNICODE True-Type фонте через вызовы TextOutW() GDI. К сожалению, со вводом символов не все так просто.

    Windows'95 не имеет средств для ввода UNICODE-символов. Тем не менее в системе существует такое понятие, как "язык (раскладка) клавиатуры" и в каждый момент времени клавиатура может быть переключена на этот определенный язык и может вводить символы только из определенной Codepage.

    Вот описание соответствия LCID, кода клавиатуры, языка и "сечения" фонта UNICODE. Информация взята из файла MiltiLanguage Support Mullango.zip (практически он же лежит на MS : LANG.EXE). В Windows'98 все эти клавиатуры есть прямо в дистрибутиве.

==========
Baltic		cp_1257		Arial Baltic,186=Arial,186

kbdes.kbd    0425   00000425    ;Estonian
kbdlv.kbd    0426   00000426    ;Latvian
kbdlv1.kbd   0426   00010426    ;Latvian (Latin)
kbdlt.kbd    0427   00000427    ;Lithuanian
==========
CE		cp_1250		Arial CE,238=Arial,238

kbdal.kbd    041C   0000041C    ;Albanian
kbdcr.kbd    041A   0000041A    ;Croatian
kbdcz.kbd    0405   00000405    ;Czech
kbdcz1.kbd   0405   00010405    ;Czech 101
kbdhu.kbd    040E   0000040E    ;Hungarian
kbdhu1.kbd   040E   0001040E    ;Hungarian 101
kbdpl.kbd    0415   00000415    ;Polish
kbdpl1.kbd   0415   00010415    ;Polish Programmers
kbdro.kbd    0418   00000418    ;Romanian
kbdsl.kbd    041B   0000041B    ;Slovak
kbdsl1.kbd   041B   0000041B    ;Slovak 101
kbdsv.kbd    0424   00000424    ;Slovenian
==========
Cyrillic	cp_1251		Arial Cyr,204=Arial,204

kbdblr.kbd   0423   00000423    ;Belarusian
kbdbul.kbd   0402   00000402    ;Bulgarian (Latin)
kbdbll.kbd   0402   00000402    ;Bulgarian (Cyrillic)
kbdru.kbd    0419   00000419    ;Russian
kbdru1.kbd   0419   00010419    ;Russian (Typewriter)
kbdur.kbd    0422   00000422    ;Ukrainian
kbdycc.kbd   0C1A   00000C1A    ;Serbian (Cyrillic)
kbdycl.kbd   0C1A   00010C1A    ;Serbian (Latin)
==========

    Можно установить несколько клавиатур одновременно, но активной может быть только одна. Ее параметры прописаны в Windows'95 Registry и таким образом, зная активную клавиатуру, мы можем получить --> код языка Language ID, а из него --> используемую Codepage. Старые программы (Office'95) могут использовать "сечение" фонта (ArialCyr, ArialCE e.t.c.) для данного языка, а новые (типа MS IE или Office'97/2000/XP) - преобразовать Codepage в UNICODE.

     Прямой ввод значений UNICODE в общем случае, увы, невозможен. Как некую замену можно использовать ввод через Clipboard, например выбирая нужный символ с Web-старницы (Select + Copy) или из Bjondi Character Agent. При этом в Clipboard будет помещен CF_HTML в UNICODE UTF-8. Однако для японского языка этот метод практически неприемлем, поскольку символов просто очень много (>10.000).

    Для решения этой проблемы Microsoft предлагает утилиту MS IME (Input Method Editor).

    MS IME - это средство фонетического ввода символов. То есть, сначала латиницей набирается звучание иероглифа, а потом IME пребразует его в иероглиф.

    MS IME - это приложение (фактически набор DLL), которое в PanEuro и русской Windows'95 функционирует только под MS Internet Explorer. Остальные программы его "не видят". Тем не менее это дает возможность набирать японский текст в письме Outlook Express, а потом переносить его, например в MS Word, через Clipboard. (ПРИМЕЧАНИЕ) Новый MS Word 2000/XP тоже видит MS IME. Описание работы с MS IME есть на MSDN.

Редакторы раскладок клавиатуры:

    В Windows'95 подключение раскладок клавиатуры не сводится только к редактированию файлов *.KBD. Помимо этого нужно будет еще прописать соответствие языка, Codepage и "сечения" фонта в Registry.

    К сожалению, практически все "free" редакторы не умеют редактировать раскладки с DeadKeys (буквы с диакритикой). Формат файла *.KBD подробно описан на MSDN.

    Еще интересная страница : Paul's Guide to Cyrillic and Polish for Windows 95


Microsoft Office.

    Microsoft Office'97 и Microsoft Office 2000/XP имеют весьма мощную поддержку UNICODE. Более того, по видимому все внутреннее представление символов происходит в UNICODE (Но не сохранение *.DOC и .RTF файлов на диске!).

    Надо признать, что в общем, переход на UNICODE -- довольно верное направление. Теперь буквы в документе на любом (из WGL4) языке, набранные одинаковым шрифтом (Arial, Times) имеют одинаковый стиль, поскольку берутся из того же самого (фирменного) файла UNICODE TrueType шрифта.

    Конечно, этот переход не дался легко. Например, при работе со старыми не-UNICODE TrueType шрифтами  и при импорте старых Word'95 документов возникают проблемы. В этом пиcьме Alex Vakulenko объясняет, почему. Кроме того, вы можете отконвертировать ваш любимый шрифт в современный UNICODE формат.

    Можно убедиться, что внутри MS-Word работает в UNICODE : можно вставить любой UNICODE символ в документ Word через макрос :

Selection.InsertSymbol CharacterNumber:=8212, Unicode:=True

    Все компоненты Office, например MS-Word, совершенно правильно поддерживают Clipboard и UNICODE. Более того, часто это единственный способ ввести в документ какой-нибудь экзотический символ. Например, установив Bjondi Character Agent и Japan Language Support из Internet Explorer Multilanguage Support мы может совершенно свободно вводить японские символы (и kana и kanji !) в документ MS-Word. И это на обычной PanEuro или русской Windows'95 ! Не очень удобно, конечно, искать нужный иероглиф среди 5000 других, но можно ! (ПРИМЕЧАНИЕ: используйте. Input Method).

    Как вставить иероглиф? С помощью Bjondi Character Agent нужно выбрать нужный символ из шрифта MS Gothic и поместить его в Clipboard. А в MS-Word-e -- вставить символ из Clipboard и поменять шрифт на тот же MS Gothic. Все ! В нашем документе красуется иероглиф. Этот документ в формате .DOC можно сохранять, передавать и т.д. Естественно, у Ваших корреспондентов на компьютере тоже должен быть японский шрифт MS Gothic.

    Конечно, в MS-Word и других программах Office есть пункт меню Insert-->Character. Но к сожалению, некоторые символы, содержащиеся в шрифте, вставить таким способом не удается. Со шрифтом Lucida Sans Unicode все еще более менее нормально, но вставить символы иероглифов можно, увы, только через Clipboard.

    Другая, крайне полезная возможность Office -- HTML Authoring. Если eго добавить во время установки Office, появляется возможность сохранять документы в виде HTML (File-->Save As HTML) прямо из Word-a. Причем разметка передается довольно точно. К сожалению, русский текст сохраняется только в кодировке Windows-1251, но зато она честно проставляется в META. (А вот для японского текста кодировок целых три : EUC, JIS и Shift-JIS и конечно же UNICODE UTF-8). (Обычно для публикации HTML на японском выбирают Shift-JIS. См. Японские кодировки).

    Самая полезная возможность HTML Authoring -- это возможность сохранять многоязычный UNICODE HTML документ в кодировке UTF-8. В настоящее время это пожалуй единственная возможность изготавливать многоязычные (русский+японский+английский+e.t.c.) HTML документы.


Internet Explorer 4/5

    Самая, пожалуй UNICODE-овая программа -- это Internet Explorer. начиная с версии 4 MS IE  работает с UNICODE очень хорошо.

    Вот что пишет по поводу MS IE 4 Константин Казарновский :

     Internet Explorer 4, включая большинство его компонент: browser MSIE, mail&news Outlook Express, в несколько меньшей степени HTML-editor Frontpage Express, использует Unicode как основную кодировку внутреннего представления и окна ввода. Судя по ряду статей в Microsoft Knowledge Base, в MSIE реализовано понятие "многоязычного объекта": определен класс и функции для работы с ним. Все это позволяет поддерживать практически любые, в том числе юникодовые (UTF-7 и UTF-8) кодировки Интернет, причем для изображения символов языка (набора символов), который не поддерживается шрифтом по умолчанию, выбирается шрифт, где этот язык есть. Такая подмена шрифта работает для тех юникодов, которые могут быть сопоставлены определенному набору символов (задача, аналогичная задаче распознавания доступных наборов символов шрифта), и она не производится, если набор символов в шрифте есть, но некоторые символы из этого набора отсутствуют - тогда они изображаются квадратиками.

    Другими словами, понятия "фонт" и "кодировка" запрятаны достаточно глубоко. Для отображения UNICODE информации Internet Explorer сам подберет фонты, в которых есть необходимые символы.

    После установки Internet Explorer Multilanguage Support, Internet Explorer 4 начинает распознавать страницы в японских кодировках (iso-2022-jp или x-sjis и т.д.). Точно так же, как в русском языке, если на странице не проставлен тэг META, автоматика иногда ошибается и нужно выбрать кодировку через View --> Fonts. Большинство японских WEB-страниц написано в Shift-JIS, например http://www.asahi.com/ (кодировка проставлена через META) , хотя например http://www.yahoo.co.jp работает в EUC (и кодировка не проставлена). См. Японские Кодировки.

    Internet Explorer 4 замечательно понимает UNICODE HTML страницы  в кодировках UTF-7 и UTF-8. Естественно, эта кодировка должна быть проставлена, например через тэг META или в заголовке HTTP.

<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
 А эти кодировки в настоящий момент утарели :
<meta http-equiv="Content-Type" content="text/html; charset=UNICODE-1-1-UTF-8">
<meta http-equiv="Content-Type" content="text/html; charset=utf-7">

    См. например : Cyrillic Alphabet in UNICODE UTF-8 form или Cyrillc Alphabet in UNICODE UTF-7 form (UTF-7 устарел). Загляните внутрь HTML !

    Точно таким же образом Internet Explorer 4 может отображать любые символы UNICODE, например арабские или иероглифы. Смотри например The Multilingual Web Guide или The World Speaks UNICODE. При этом срабатывает замечательное свойство Internet Explorer : если в текущем шрифте нет необходимых символов, они будут взяты из другого шрифта UNICODE TrueType, где они есть. Если в системе нет ни одного шрифта, содержащего нужный символ, вместо него появится пустой квадратик : [] .

    Одно из весьма приятных свойств Internet Explorer 4 - это так называемые Named Entities из SGML. Как известно, HTML (SGML) поддерживает Named Entities-форму записи символов, например &Aacute;. См. например : ISO LATIN-1. Также можно задавать коды символов Latin1 в виде Numerical Character Reference (NCR), например 'A' -- &#65; . Но в HTML 4.0 точно так же можно задавать и 16-разрядные коды UNICODE ! Например NCR &#1041; (U+0411) будет UNICODE значением русской буквы 'Б' (cмотри примеры здесь). Причем будет показан UNICODE-символ независимо от текущей кодировки документа или тэга META HTML. Естественно, через NCR можно набирать и иероглифы, через их UNICODE значения (см. пример : Японские кодировки, вид NCR). Однако это весьма полезное свойство нельзя рекомендовать к широкому использованию, поскольку другие броузеры могут его не поддерживать.

    Полный список символов UNICODE можно посмотреть на : http://charts.unicode.org/. Для перевода hex-->dec можно использовать обычным Calculator из Windows , переведя его в "инженерный" режим.

    См. также UNICODE support in WEB Browsers.

    Internet Explorer также совершенно правильно работает с Clipboard. Он относится к тем "умным" программам, которые помещают выделенный текст в нескольких форматах. Поскольку его "родной" формат -- HTML, то в Clipboard помещается среди прочих и объект CF_HTML в кодировке UTF-8, даже если исходная WWW страница была в другой кодировке, например в Shift-JIS или даже NCR. Как несложно догадаться, это содержимое Clipboard можно потом вставить например в Word из Office (и не забыть выбрать шрифт).

    Internet Explorer начиная с версии 4 позволяет работать с URL в UNICODE. Более того, согласно международным стандартам это предпочтительный метод работы с не-латинскими буквами. В этом случае символы преобразуются в UTF-8, который в свою очередь преобразуется в URL-escape форму : "%20%80%90" и так далее.


Outlook Express

    Весьма полные средства поддержки UNICODE имеет Outlook Express, входящий в состав Internet Explorer.

   Самое важное свойство Outlook Express - возможность создавать письма в формате HTML. То есть фактически при создании письма работает маленький HTML-редактор (riched32.dll и mshtml.dll). Таким образом можно пользоваться возможностями HTML для придания письму более удобочитаемого вида (шрифты, выделение цветом).

    Но даже если при создании письма выбран формат Plain Text, внутреннее редактирование все равно происходит в UNICODE. И только в момент отсылки письма происходит преобразование в нужный нам Charset Format-->Language.

    Самая пожалуй интересная возможность Outlook Express - это возможность создавать письма в UNICODE в кодировке UTF-8 для обеих форматов : и HTML и Plain Text. В первом случае мы получим нормальный UTF-8 HTML "пристегнутый" к письму, а во втором случае мы получим обычное MIME-письмо с текстовым содержимым, но в UTF-8 :
Content-Type: text/plain; charset="utf-8"

    См. примеры : MIME UTF-8 e-mail : alph_1.eml и MIME UTF-7 (устарел) e-mail : alph_2.eml

    Как нетрудно догадаться, Outlook Express совершенно правильно работает с Clipboard и позволяет вставлять в процессе редактирования любые UNICODE символы. (Поскольку "внутри"-то он работает в UNICODE ).

    Проблема здесь может быть только одна : если мы вставим некий определенный символ, а потом попытаемся отправить письмо с использованием набора символов (Charset), где этого символа нет. Например, вставим кириллицу или греческие буквы, а потом попытается отправить письмо в ISO_8859-1. В этом случае все "несуществующие" символы будут заменены на  "?" . (Например, в кодировке Windows-1251 есть символ "номер", а в KOI8-R нету). Естественно, если мы будем отправлять письмо в UTF-8, то допустимыми будут любые символы. В том числе и иероглифы.

    И в заключение следует отметить, что согласно требованиям Internet Mail Consortium поддержка UNICODE и UTF-8 обязательна в любой современной почтовой программе.


Другие утилиты.

    Здесь приведен небольшой обзор утилит для работы с UNICODE под Windows 95/98/ME, найденный в Internet.

ListFont

    Крошечная утилитка ListFont может быть весьма полезна для быстрого просмотра и выбора установленных шрифтов. Понимает UNICODE TrueType шрифты и показывает "логические сечения" этих UNICODE шрифтов. Есть исходные тексты. Бесплатно.
http://www.heiner-eichmann.de/software/listfont/listfont.htm

SC UniPad

    SC UniPad 1.0 - A Unicode Text Editor
    (C)1998,1999 by Sharmahd Computing GmbH

    Бесплатный UNICODE текстовый редактор : http://www.unipad.org . Сделан максимально независимым от Windows'95. Пользуется собственным UNICODE bit-map шрифтом (и не умеет TrueType) и читает scan-коды клавиатуры (точнее WM_MESSAGE). Содержит собственные раскладки под все европейские языки. К сожалению, не поддерживает японский язык вообще. Поддерживает кучу форматов файлов для UNICODE текста. Поддерживает Clipboard, но работает только с объектами CF_TEXT через встроенный перекодировщик (Paste As). Позволяет открывать и редактировать файлы HTML в UTF-8, например такого вида. Знает кодировку KOI8-R. Раньше раздавался бесплатно, но с ограниченным сроком действия. Теперь бесплатная версия имеет ограничение на длину текста, 1000 символов.

UniRed

    Еще один неплохой UNICODE редактор с поддержкой UTF-8 :
http://www.esperanto.mv.ru/UniRed/RUS/index.html
Бесплатно. Имеются исходные тексты.

mined 2000

http://towo.net/mined/

Unitype Global Writer

http://www.unitype.com/

Tango Creator

http://www.alis.com/

Другие :

UNICODE Programs and Utilities


Front Page


Продукты Adobe

    Компания Adobe продвигает свою собственную технологию масшатбируемых шрифтов : Adobe Type1. Старые версии Type1 фонтов и растровых процессоров (RIP) могли поддерживать только 256 символов в фонте и содержали так называемый Encoding Vector.

StandartEncoding
ISOLatin1Encoding
MacRomanEncoding
WinAnsiEncoding
PDFDocEncoding
Expert
ExpertSubset
Symbol
...

    Новая технология Adobe Type1 фонта предполагает, что доступ к символам внутри фонта осуществляется не по номерам, а по именам. А приложение сам должно формировать "вектор кодировки" первыми строками в *.PS файле.

    В настоящее время Adobe Glyphs List содержит более 260 кириллических (сербских, чешских e.t.c.) символов, поэтому-то невозможно в принципе изобрести универсальную 8-ми битную кириллическую кодировку.

http://partners.adobe.com/asn/developer/technotes.html    [Fonts section]
http://partners.adobe.com/asn/developer/PDFS/TN/5013.Cyrillic_Font_Spec.pdf

TODO: Разобраться с японским PS... (CMAP)


at_work.gif (252 bytes)     Не разобрано.

http://crl.nmsu.edu/Research/Projects/oleada/

Sample Unicode Documents : http://www.lang.duke.edu/unichtm/unichtm.htm

 

http://www.czyborra.com/yudit/
http://www.czyborra.com/unicode/editors.html


alec@sensi.org

--
-=AV=-


Last change : 30-01-2004