Каждый человек воспринимает информацию через её
свойства: актуальность, достоверность,
полезность и так далее, поэтому одно и тоже сообщение
для разных людей может передавать информацию в большей
или меньшей степени. Например, сообщение о том, что при
включении компьютер издает два звуковых сигнала и дальше
не работает, для мастера сервисного
центра по обслуживанию вычислительных
систем будет нести гораздо больше информации, чем для
вахтера, сидящего на входе в то же сервис-центр.
Использование терминов «больше» или «меньше» информации
подразумевает некую возможность измерения количества
информации.
Сегодня существуют два основных подхода к измерению
количества информации: вероятностный и алфавитный.
Алфавитный подход к
измерению количества информации являлся непосредственным
следствием развития вычислительной техники.
Алфавитный подход к
измерению информации является наиболее простым, он очень
напоминает процесс измерения, например длины или массы.
При измерении этих параметров мы сравниваем длину или
массу нашего объекта с длиной или массой эталона,
принятых за единицу, как известно единицей длины
является 1 метр, а единицей массы 1 килограмм. Точно так
же надо выбрать единицу измерения информации и
сравнивать хранимую или передаваемую информацию именно с
этой единицей.
На практике,
оказалось, очень удобно связать единицу измерения
информации со способом представления информации в ЭВМ.
Дело в том, что вся информация в ЭВМ представляется
(кодируется) последовательностью состоящей из 0 и 1.
Поскольку вся информация кодируется всего лишь с помощью
двух знаков, то такая кодировка получила название
двоичной, а сами знаки называют битами (от английского «binary»
- двоичный). Таким образом, простейшей единицей для
измерения информации является – бит.
С помощью одного бита можно
закодировать только два состояния объекта, одному из
которых будет соответствовать бит 1, а другому – бит 0.
Последовательность из двух бит позволяет закодировать
уже четыре состояния объекта (состояния – 00, 01, 10,
11), а последовательность из трех бит позволяет
закодировать восемь состояний объекта
(000,001,010,011,100,101,110,111). Для представления
любой информации этого конечно мало, поэтому
договорились кодировать каждый знак, хранимой или
передаваемой информации, последовательностью состоящей
из восьми бит. Оказывается, что таким способом
кодирования можно составить 256 различных
последовательностей такого типа, это означает, что можно
закодировать 256 различных символов. Этого оказывается
достаточно для представления всех символов русского и
латинского алфавитов, символов цифр и знаков препинания,
знаков обозначения арифметических действий и специальных
знаков.
Такой способ
кодирования информации, при котором, каждому символу в
соответствие ставится последовательность из 8 бит,
получил название КОИ-8. Кроме этого способа есть еще
несколько способов кодирования, о которых речь пойдет в
дальнейшем, сейчас же упомянем еще только один способ
кодирования, в котором каждый символ кодируется
последовательностью из 16 бит, такой способ получил
название
Unicode. Таким образом, в
кодировке
Unicode можно закодировать
65536 различных символов.
Последовательность,
состоящую из восьми бит, называют байтом. Таким
образом, для измерения количества информации на основе
алфавитного подхода используются две единицы измерения
количества информации бит и байт. Для
измерения больших объемов информации используются
кратные единицы измерения количества информации:
1 кбит =1024 бита 1 кбайт =1024
байта
1 Мбит =1024 кбита 1 Мбайт =1024
кбайта
1 Гбит =1024 Мбита 1 Гбайт =1024 Мбайта
1
Тбайт = 1024 Гбайта
Десятичные приставки
читаются следующим образом: к – кило, М – мега, Г – гига,
Т – тера. Таким образом, запись, 512 Мбайт читается как
512 мегабайт, аналогично получаются обозначения гигабайт
и терабайт. Возникает правомерный вопрос, насколько
велики объемы информации в мега, гига и терабайтах? Для
сравнения приведем такой пример: количество информации,
содержащейся в 20-ти томном издании Большой Советской
Энциклопедии, составляет примерно двадцать мегабайт.
В упрощенном варианте, для
подсчета количества информации
в
кодировке КОИ – 8, можно пользоваться соотношением 1
символ = 1 байт, а в кодировке
Unicode
1 символ = 2 байта. Таким образом, что бы
подсчитать количество информации содержащейся в
некотором сообщении нужно подсчитать количество символов
в этом сообщении. Следует помнить, что знаки препинания,
пробел и другие специальные знаки также являются
символами, а значит, так же имеют информационный вес
(иногда словосочетание «количество информации» заменяют
сочетанием «информационный вес»).
В вычислительных системах
измерение количества информации основано именно на
алфавитном подходе.
Основоположником вероятностного подхода к измерению
количества информации является один из основателей
кибернетики американский математик Клод Шеннон. |
Пусть в результате бросания
монеты выпал «орел», таким образом, неопределенность
знаний уменьшилась ровно в два раза, таким образом, мы
можем утверждать, что в результате бросания монеты мы
получили 1 бит информации.
Рассмотрим
другой пример. Пусть у нас есть тетраэдр, каждая грань
которого окрашена разными цветами, например, одна грань
красная, вторая - синяя. третья - зеленая,
четвертая - желтая. Вероятность того, что в результате
броска выпадет грань зеленого цвета равна одной
четвертой, следовательно неопределенность знаний
уменьшается в четыре раза или в 22 раза,
следовательно мы получили 2 бита информации.
Анализирую
приведенные примеры мы приходим к формуле, позволяющей
рассчитывать количество информации при вероятностном
подходе к измерению количества информации.
I=log2N
где
I
- количество
информации (информационный вес),
N
- количество равновероятных событий.
Приведенная
формула представляет собой упрощенный вариант формулы,
предложенной К.Шенноном. |