www.mari-language.com - Трохи теорії

  1. кодування символів
  2. шрифти
  3. розкладки клавіатури

Так, доказ - символи, які ви бачите тут: «ӧ», «ӱ», «ҥ», «ӓ», «ӹ». Незважаючи на отсутcтвіе інтерфейсів марійською мовою і деякі обмеження, що виникають при роботі з марійським алфавітом в Windows, MacOS і Linux, в цілому сучасні операційні системи в стані розпізнавати всі марійські символи. У цьому розділі описані загальні принципи кодування мовних символів в комп'ютерних системах, а також особливості кодування марійських символів.

Здатність комп'ютера розпізнавати символи залежить від трьох чинників: системи кодування символів, шрифту і розкладки клавіатури.

кодування символів

Мінімальною одиницею кількості інформації в комп'ютерних системах є біт. Один біт дозволяє зберігати одну цифру двійковій системи числення: «0» або «1». Для перетворення цієї двійковій числової системи в звичні нам текстові символи необхідна система кодування символів. Кількість символів, які можна закодувати в тій чи іншій системі кодування, залежить від кількості біт, що використовуються для кодування одного символу. Так, наприклад, система, в якій кожен символ представлений 5 бітами, в стані кодувати 32 (25 = 2 * 2 * 2 * 2 * 2) різних символу.

00000 = a 01000 = i 10000 = q 11000 = y 00001 = b 01001 = j 10001 = r 11001 = z 00010 = c 01010 = k 10010 = s 11010 =? 00011 = d 01011 = l 10011 = t 11011 =? 00100 = e 01100 = m 10100 = u 11100 =? 00101 = f 01101 = n 10101 = v 11101 =? 00110 = g 01110 = o 10110 = w 11110 =? 00111 = h 01111 = p 10111 = x 11111 =?

За допомогою даної системи кодування слово «hello» буде представлено в комп'ютері в такий спосіб «00111 | 00100 | 01011 | 01011 | 01110».

Цього достатньо для кодування 26 букв стандартного латинського алфавіту (6 символів залишаються в запасі), але недостатньо для кодування цього алфавіту у вигляді малих і великих літер.

Загальноприйнятим світовим стандартом кодування символів довгий час служив формат ASCII (American Standard Code for Information Interchange). У ньому кожен символ представлений 7 битами, тобто в цілому цей формат забезпечує можливість кодування 128 (27 = 2 * 2 * 2 * 2 * 2 * 2 * 2) різних символів. Цього достатньо для кодування всіх малих і великих літер стандартного латинського алфавіту, цифр від 0 до 9 і знаків пунктуації. Проте, такий формат непридатний для кодування діактріческіх знаків та інших алфавітів, наприклад, російського. Згодом з'явилося безліч форматів, що дозволяють кодувати символи різних мов. На жаль, ці формати часто несумісні один з одним.

Останнім часом найбільшого поширення набув формат Unicode. Це єдиний формат, призначений для кодування алфавітів всіх мов, що існують на нашій планеті. У форматі Unicode кожен символ може бути представлений 32 бітами, що дозволяє кодувати мільйони різних символів, що належать практично всім відомим людству алфавитам - будь то японський, грузинський, давньоєгипетський, готський або марійський. Формат Unicode підтримується всіма сучасними операційними системами і інтернет-браузерами. Таким чином, як бачите, комп'ютер сам по собі в змозі впоратися з марійським алфавітом.

Проблеми з кодуванням марійських символів виникають в тому випадку, коли файл збережений не в форматі Unicode. У багатьох програмах (наприклад, Microsoft Word) файл автоматично зберігається в форматі Unicode. У деяких програмах зберегти файли в форматі Unicode неможливо, що, природно, призводить до труднощів при роботі з марійськими символами (зі зростаючою тенденцією використання Unicode у всіх програмах можна сподівається, що в найближчому майбутньому цієї проблеми не буде). Є також програми, в яких формат Unicode хоча і не встановлено за замовчуванням, але може бути обраний користувачем при зберегти файл.

Наприклад, при збереженні текстових або html файлів в програмі Microsoft Editor користувачеві надається можливість вибрати необхідний формат. Часто пропонуються різні варінт Unicode, з яких ми рекомендуємо UTF-8 (Unicode Transformation Format).

Вище представлений скріншот для Windows XP. Зовнішній вигляд скриншота може варіюватися в різних операційних системах, але основний принцип залишається. Якщо ви зберегли файл у форматі UTF-8, у вас не повинно виникнути проблем з марійськими символами.

шрифти

Системи кодування символів є формою подання інформціі всередині комп'ютера. Сам же комп'ютер не «знає», як виглядають, наприклад, літери «a», «b», «c» і т. Д. Щоб надати інформації, хрянящейся в комп'ютері в формі біт, графічний вигляд, необходими шрифти. За допомогою шрифтів задається той чи інший зовнішній вигляд символів.

Жоден з існуючих шрифтів не підтримує повний набір символів формату Unicode. Деякі шрифти підтримують виключно стандартний латинський алфавіт (і тому непридатні, наприклад, для німецької мови), деякі підтримують латинський алфавіт з діактріческімі символами, але не підтримують кирилицю (що робить їх придатними для німецького, але непридатними для російської мови). На жаль, навіть при використанні формату Unicode лише далеко не всі шрифти підтримують розширений набір кирилиці з марійськими символами, що, природно, призводить до численних ускладнень. Наслідки нераспознавание певного символу в певному типі шрифту варіюються в залежності від шрифту і використовуваної програми. Так, замість потрібного символу може з'явитися порожнє місце або порожня клітка (див. Нижче). При відображенні потрібного символу також може використовуватися інший шрифт (в якому підтримується даний набір символів), в результаті чого порушується одноманітність написання тексту (див. Нижче).

Щоб уникнути цих проблем ми рекомендуємо використовувати поки обмежений (але постійно збільшується) набір шрифтів, що підтримують марійський алфавіт. Ось деякі з них:

Якщо ви збираєтеся використовувати один з цих шрифтів, але не можете знайти його на вашому комп'ютері, поверніться до списку необхідних дій вище і натисніть на відповідні посилання, яка допоможе вам знайти і встановити бажаний шрифт.

Зверніть увагу, що при обміні документами Word і веб-сторінками з іншими користувачами на комп'ютері одержувача повинні бути встановлені ті ж шрифти, які були використані автором документа. Тільки в цьому випадку вдасться уникнути проблем при відображенні марійських символів. Для створення таких документів ми рекомендуємо шрифт Microsoft Sans Serif, який підтримує марійський алфавіт і, як правило, входить в стандартний пакет всіх сучасних операційних систем.

Природно, у багатьох ситуаціях не хочеться обмежуватися одним шрифтом. Використання більш рідкісних шрифтів, таких як, наприклад, DejaVu, не представляє складнощів в так званих «статичних» документах. Якщо ви хочете, щоб ваш документ при перегляді на інших комп'ютерах виглядав точно так же, як на вашому, ви можете:

  • роздрукувати документ;
  • зберегти документ у форматі .pdf. Файли .pdf, як правило, містять повну інформацію про використані в них шрифтах і виглядають однаково на всіх комп'ютерах. Одним словом, якщо ви задоволені зовнішнім виглядом файлу .pdf на вашому комп'ютері, можете не сумніватися, що користувач, який переглядає цей файл на іншому комп'ютері, теж залишиться задоволений. тут ви дізнаєтеся, як створити файл .pdf.

розкладки клавіатури

Для зручності набору тексту певною мовою непогано мати клавіатуру, яка містить всі необхідні символи. Зверніть увагу, що розкладка клавіатури ніяк не пов'язана з кодуванням символів і шрифтами. Іншими словами, відсутність необхідних символів на клавіатурі ще не означає, що комп'ютер не здатний розпізнавати і відображати ці символи. Уявіть собі, що ви працюєте з документом на німецькій мові, сидячи за американським комп'ютером. В цьому випадку, німецькі літери «ä», «ö», «ü» і «ß» будуть без проблем відображатися на екрані, але можливість прямого введення цих символів з клавіатури буде обмежена.

У жодній з основних операційних систем не передбачена розкладка клавіатури, необхідна для марійської мови. Її потрібно спеціально встановлювати або на додаток до основної розкладці (в цьому випадку користувач може перемикатися між двома розкладками), або замість основної клавіатури. На нашому сайті ви знайдете файли для Windows (XP, Vista, 7) і MacOS X.

Самі марійці, як правило, користуються російською клавіатурою, яка містить майже всі (за винятком небагатьох) марійські символи. Виконавши необхідні дії, описані тут (Для Windows XP, Windows Vista, Windows 7 і MacOS X), ви зможете вводити відсутні марійські букви шляхом одночасного натискання клавіші Alt - праворуч від знака пробіл - і букв «а», «о», «у», «н», «и» на російській клавіатурі.

Зверніть увагу, що ці зміни ніяк не позначаться на використанні клавіатури для набору тексту на російській мові, так як вони задіяні лише при роботі з марійським мовою.

Пропоновані нами розкладки клавіатури містять також деякі нестандартні символи кирилиці, які не належать марійського алфавітом: «ӝ», «ӟ», «ӥ», «ӵ», що є літерами удмурсткого мови. Таку розкладку можна використовувати для всіх основних фінно-угорських мов Російської Федерації - марійського, комі, мордовського і удмуртського.

Для користувачів, що ніколи не працювали з російською клавіатурою, існують спеціальні розкладки . Їх відмінність від звичайної російської клавіатури в тому, що вони максимально наближені до розкладці QWERTY, тобто літери кирилиці розташовані на клавішах відповідних їм (якщо це відповідність є) латинських букв. Середній ряд розкладки, таким чином, являє собою послідовність «асдфгхйклӧ», відповідну «asdfghjkl (ö)» на латиниці. Букви кирилиці, що не мають відповідностей в латиниці, розташовуються або на клавішах букв латиниці, яких немає в кирилиці (наприклад, «я» в лівому верхньому кутку на місці латинської «q»), або по краях клавіатури. Користувачам німецької клавіатури, наприклад, пропонується наступна розкладка:

При одночасному натисканні клавіші Shift розкладка набуває вигляду:

При одночасному натисканні клавіші Alt Gr розкладка виглядає наступним чином:

Якщо одночасно натискати клавіші Alt Gr і Shift:

На нашому сайті ви знайдете кілька дуже схожих варіантів розкладки. Це пов'язано з тим, що навіть якщо розташування букв на багатьох клавіатурах однаково, як, наприклад, на німецькій і фінською, вони все-таки різняться розташуванням розділових знаків.

На даний момент ми пропонуємо розкладки для наступних мов:

  • німецький
  • угорський
  • фінський / шведський / естонський
  • англійська (американський / британський)

За бажанням ми можемо розробити розкладки і на основі інших мов. Якщо вам потрібна розкладка на основі, наприклад, італійської клавіатури, зверніться до нас.



A 01000 = i 10000 = q 11000 = y 00001 = b 01001 = j 10001 = r 11001 = z 00010 = c 01010 = k 10010 = s 11010 =?
D 01011 = l 10011 = t 11011 =?
E 01100 = m 10100 = u 11100 =?
F 01101 = n 10101 = v 11101 =?
G 01110 = o 10110 = w 11110 =?
H 01111 = p 10111 = x 11111 =?