ПРЕДСТАВЛЕНИЕ  ИНФОРМАЦИИ 

В  КОМПЬЮТЕРЕ  

Кодирование текста

 

Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов). Для кодирования одного символа требуется один байт информации. Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 256 различных символов.
28=256
При двоичном кодировании текстовой информации каждому символу ставится в соответствие своя уникальная последовательность из восьми нулей и единиц, свой уникальный код от 00000000 до 11111111 (десятичный код от 0 до 255).
Присвоение символу конкретного двоичного кода – это вопрос соглашения, которое фиксируется в таблице. Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется кодировочной таблицей. Для разных типов ЭВМ используются различные кодировки.
С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена. Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Первые 32 кода (с 0 до 31) соответствуют не символам, а операциям (перевод строки, ввод пробела и т.д.). Коды с 32 до 127 соответствуют символам латинского алфавита, цифрам, знакам арифметических операций, знакам препинания, скобкам и некоторым другим символам.
Коды с 128 по 255 являются национальными, т.е. в разных национальных кодовых таблицах одному и тому же коду соответствуют различные символы. В настоящее время существует 5 различных кодовых таблиц для русских букв, поэтому тексты созданные в одной кодировке, будут неверно отображаться в другой.
Хронологически одним из первых стандартов кодирования русских букв на компьютерах был код КОИ–8 («Код обмена информационный – 8 битный»). Эта кодировка применяется в компьютерах с операционной системой UNIX.
Для работы в среде операционной системы MS-DOS используется «альтернативная» кодировка, в терминологии фирмы Microsoft – кодировка CP 866.
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859–5.
 
Стандарты кодировок:
  • КОИ-8
  • UNIX CP1251 («CP» означает «Code Page»)
  • Microsoft Windows CP 866
  • MS-DOS Mac
  • Macintosh ISO 8859 – 5
В последнее время появился новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, и поэтому с его помощью можно закодировать не 256 символов, 216=65536 различных символов.
Сегодня очень многие люди для подготовки писем, документов, статей, книг и пр. используют компьютерные текстовые редакторы. Компьютерные редакторы, в основном, работают с алфавитом размером 256 символов. В этом случае легко подсчитать объем информации в тексте. Если 1 символ алфавита несет 1 байт информации, то надо просто сосчитать количество символов; полученное число даст информационный объем текста в байтах.
Пусть небольшая книжка, сделанная с помощью компьютера, содержит 150 страниц; на каждой странице — 40 строк, в каждой строке — 60 символов. Значит страница содержит 40x60=2400 байт информации. Объем всей информации в книге: 2400 х 150 = 360 000 байт.
Обратите внимание!
Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и когда они встречаются в тексте. Если цифры участвуют в вычислениях, то осуществляется их преобразование в другой двоичных код.
Возьмем число 57. При использовании в тексте каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII. В двоичной системе это – 0011010100110111. При использовании в вычислениях, код этого числа будет получен по правилам перевода в двоичную систему – 00111001.
 
Задание 1: Определите символ по числовому коду.
    1. Запустите программу БЛОКНОТ
    2. Нажмите ALT и 0224 (на дополнительной цифровой клавиатуре).
    3. Появится символ а.
    4. Повторите эту операцию для числовых кодов от 0225 до 0233.
    5. Появятся символы в кодировке (CP 1251 Windows).
    6. Запишите их в тетрадь.
 
Задание 2: Определите символ по числовому коду.
    1. Запустите программу БЛОКНОТ
    2. Нажмите ALT и 161 (на дополнительной цифровой клавиатуре).
    3. Появится символ.
    4. Повторите эту операцию для числовых кодов 160, 169, 226.
    5. Появятся символы в кодировке (CP 866 MS-DOS).
    6. Запишите их в тетрадь.
Дата последнего обновления страницы 10.06.2018
Сайт создан по технологии «Конструктор сайтов e-Publish»