Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.
Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.
Понятно, что это дело условное, можно придумать множество способов кодировки.
Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу.
Удобство побайтового кодирования символов очевидно, поскольку байт - наименьшая адресуемая часть памяти и, следовательно, процессор может обратиться к каждому символу отдельно, выполняя обработку текста. С другой стороны, 256 символов это вполне достаточное количество для представления самой разнообразной символьной информации.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Таким образом, человек различает символы по их начертанию, а компьютер - по их коду.
Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.
Каким же образом текстовая информация представлена в памяти компьютера?
Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.
Единице измерения 8 бит присвоили название 1 байт:
Т.к. 256 = 28, то вес 1 символа 8 бит.
В алфавит мощностью 256 символов можно поместить практически все необходимые символы. Такой алфавит называется достаточным.
b количество бит (информационный вес символа).
Формула определения количества информации: N = 2b, где N мощность алфавита (количество символов),
Число символов в алфавите это его мощность.
Множество символов, с помощью которых записывается текст, называется алфавитом.
Вспомним некоторые известные нам факты:
С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа "=", "(", "&" и т.п. и даже (обратите особое внимание!) пробелы между словами. Да, не удивляйтесь: пустое место в тексте тоже должно иметь свое обозначение.
Кодирование текстовой информации
Кодирование текстовой информации
Комментариев нет:
Отправить комментарий