Единицы измерения информации
Краткое описание работы
Всем известно, что 1 килограмм – это 1000 граммов. Потому что приставка "кило" в Международной системе единиц (СИ) означает 1000. Однако, почему-то, 1 килобайт – это не 1000, а 1024 байта. Обычно предлагают простое объяснение: "так принято в компьютерной технике". Простые объяснения грешат неточностями, часто вводят в заблуждение и потому вредны. В настоящей работе показано, что в информационных технологиях используются не только числовые приставки, кратные 1024 (210), но и приставки, кратные 1000 (103). Порождаемый этим обстоятельством хаос должен быть каким-то образом разрешен.
В работе приводится критика, введенного в марте 1999 года Международной электротехнической комиссией (МЭК) нового стандарта по именованию двоичных чисел. Приставки МЭК схожи с СИ: они начинаются на те же слоги, но второй слог у всех двоичных приставок – би (binary — "двоичный" на английском).
КОГДА ПРЕКРАТИТСЯ ХАОС?
нет такой мелочи, которая, будучи помножена на необъятные просторы нашей родины, не давала бы миллионы рублей экономии. Или убытка.
А. Крон, "Бессонница"
Небольшой экономический расчет (постановка задачи)
23 января 2006 за 2284 рублей был куплен жесткий диск: HDD SATA Seagate Barracuda 80Gb ST380817AS, 7200rpm, NCQ. Несложные вычисления показывают, что стоимость одного гигабайта (Gb) составила 28,55 рублей (1 доллар США по курсу ММВБ). Диск установлен в персональный компьютер, работающий под управлением локализованной для России операционной системы Microsoft Windows 2000. Операционная система вместо ожидаемой емкости в 80 гигабайт показывает 74,5ГБ. Куда, интересно, пропали 5,5 гигабайта?
Может, все дело в том, что "Gb" и "ГБ" – разные единицы измерения объема информации? Но почему тогда и та, и другая произносятся одинаково – "гигабайт"?
Наша учительница по информатике утверждает, что 1ГБ = 1024МБ, 1МБ = 1024кБ, 1кБ = 1024байта, то есть 1ГБ = 1073741824байта. А продавец компьютерной техники говорит, что 1Gb = 1000000000байтов. Продавца, конечно, можно понять. Особенно, если переплаченные 157,025 рублей (28,55х5,5) "помножить на необъятные просторы нашей Родины". Но за продавцом стоит уважаемая фирма «Seagate Technology LLC». Учительнице мы тоже привыкли доверять. Кто же из них прав?
Информация
В современном мире информация стала синонимом власти. Чем большей информацией Вы владеете, тем большими возможностями Вы располагаете.
Чтобы сказать, на сколько у Вас информации "больше", нужны единицы ее измерения. Для этого требуется определить элементарную (эталонную) информацию – по аналогии с тем, как для измерения расстояния был введен эталонный метр (лежит в музее, где-то под Парижем).
Удивительно, но не только эталонной, но и четкого определения просто информации найти не удалось Например, Большая советская энциклопедия предлагает несколько статей:
«Генетическая информация» (147 слов);
Информация (в кибернетике) (1236 слов);
Информация (изложение) (648 слов);
Информация (обществ. -политич. ) (171 слов);
Семантическая информация (198 слов);
Сигнальная информация (103 слов);
Экономическая информация (845 слов);
Экспресс-информация (99 слов); и т. д.
Чтобы понять предлагаемые определения и разобраться в способах измерения информации, похоже, надо быть большим ученым.
Вот, например, цитата: "Существуют разные подходы к измерению семантической информации (С. и. ). В концепции И. Бар-Хиллела (США) и Р. Карнапа (Австрия) сообщение понимается как пропозициональная формула (высказывание), а С. и. измеряется числом состояний универсума, при которых эта формула ложна. Это реализация идеи Г. В. Лейбница о том, что логически истинные предложения, верные во всех возможных мирах, не могут нести фактической информации. А. А. Харкевич предложил измерять ценность информации через изменение вероятности достижения определённой цели, возникающее под воздействием данного сообщения. С. и. сообщения любой природы можно оценивать как степень изменения системы знаний (тезауруса) адресата в результате восприятия данного сообщения. Эта мера одновременно оценивает новизну и доступность сообщения относительно данного адресата, тем самым такая трактовка С. и. является в значительной мере прагматической (см. Прагматика). Отправитель сообщения тоже получает С. и. , которая характеризуется возникшим у него новым знанием о состояниях тезаурусов адресатов. " Без комментариев!.
Другая цитата: "Информация – это сведения, передаваемые одними людьми другим людям устным, письменным или каким-либо другим способом". Уже лучше, но чем измерить эти сведения?
Рассмотрим пример. Скажите, в каком сообщении больше информации: "В Москве – минус 28" или "Над всей Испанией безоблачное небо"? Последнее было передано всеми радиостанциями Испании 18 июля 1936 года. О чем оно? Думаете, это о погоде? Нет, это был сигнал к фашистскому мятежу под руководством генерала Франко. Сравнивать невозможно
Как же тогда нам, в обыденной жизни, измерять информацию? Ответ: никак! Измерять нужно не информацию, а данные.
Каждое информационное сообщение может быть записано с помощью символов: букв, цифр, знаков препинания и пробелов. Объем данных – это общее количество символов, использованных в сообщении.
В компьютерной технике принято любой символ кодировать с помощью набора из восьми нулей и единиц. Примеры двоичных кодов.
Символ Двоичный код
A (большая латинская) 01000001
B (большая латинская) 01000010
5 (арабская цифра) 00110101
(пробел) 00010100
, (запятая) 00100111
Отдельная двоичная позиция называется битом ("б" в кратком обозначении) – базовая единица измерения объема данных. 8 (=23) битов называется байтом ("Б"). Следовательно, любой символ (будь то "большая" буква "А" или "маленькая" запятая) имеет объем в 1 байт. Нетрудно подсчитать, что сообщение "В Москве – минус 28" имеет объем 19Б, что меньше 34 байтов объема фразы "Над всей Испанией безоблачное небо". Ура, можно сравнивать!
Сообщение "Над всей Испанией безоблачное небо" по-испански имеет вид: "Sobre toda Espaňa el cielo esta despejado". Любопытно, что с точки зрения информации оба варианта эквивалентны, а с точки зрения данных русскоязычный вариант имеет меньший объем (34Б), чем испаноязычный (41Б).
Производные единицы измерения данных
Для больших объемов данных можно использовать стандартные ("десятичные") приставки-множители, рекомендованные Международной системой единиц.
Кратность Приставка Обозначение Пример русская международная русское международное
102 гекто hecto г h га – гектар
103 кило kilo к k кг – килограмм
106 мега mega М M Мт – мегатонна
109 гига giga Г G Гб – гигабит
1012 тера tera Т T ТБ – терабайт
1015 пета peta П P Пфлоп – петафлоп
1018 экса exa Э E
1021 зетта zetta З Z
1024 йотта yotta И Y
Например, 1МБ = 106Б = 1000000байт.
Примечание. Кроме приставок, обозначающих числа, которые в целое число раз превышают основную единицу измерения, существуют приставки, обозначающие определенную долю (часть) от установленной единицы измерения. При этом все метрические обозначения нужно писать правильно, так как от этого зависит смысл: μозначает микро=10-6, мозначает милли=10-3, а М– мега=106.
В программировании и индустрии, связанной с компьютерами, те же самые приставки кило-, мега-, гига-, тера- и т. д. в случае применения к величинам, кратным степеням двойки (напр. , байт), могут означать кратность не 1000, а 1024=210. Такие приставки принято называть "двоичными", например:
1 двоичный килобайт = 10241 = 210 = 1 024 байт
1 двоичный мегабайт = 10242 = 220 = 1 048 576 байт
1 двоичный гигабайт = 10243 = 230 = 1 073 741 824 байт
1 двоичный терабайт = 10244 = 240 = 1 099 511 627 776 байт
1 двоичный петабайт = 10245 = 250 = 1 125 899 906 842 620 байт
Слишком длинное обозначение единиц измерения – очень неудобно. Если же опустить слово "двоичный", то о применении какой именно системы идет речь должно быть ясно из контекста. Например, следует запомнить, что применительно к объёму оперативной памяти используется кратность 1024, а применительно к объёму дисковой памяти – 1000. Это тоже не очень удобно: попробуйте догадаться из контекста, какому значению равны "скорость передачи данных в 10Мб/с" или "объем дискеты в 1,44 МБ".
Чтобы выйти из этой хаотической ситуации, Международная электротехническая комиссия попыталась в марте 1999 года навести порядок. Было предложено использовать новые названия для двоичных измерений: двоичный килобайт предлагалось переименовать в кибибайт (КиБ), двоичный мегабайт – в мебибайт (МиБ) и т. д. В ноябре 2000 года эти изменения были официально внесены в международный стандарт.
Приведена взаимосвязь трех указанных подходов для наиболее распространенных единиц измерения объема данных.
Название Аббревиатура СИ Значение Стандарт МЭК
бит б (бит) 0 или 1 бит байт Б 8 б Б
килобит (десятичный) кб 1000 б килобит (кбит)
килобит (двоичный) Кб (Кбит) 1024 б кибибит (Кибит)
килобайт (десятичный) кБ 1000 Б килобайт (кБ)
килобайт (двоичный) КБ (Кбайт) 1024 Б кибибайт (КиБ)
мегабит (десятичный) Мб 1000 кб мегабит (Мбит)
мегабит (двоичный) Мб (Мбит) 1024 Кбит мебибит (Мибит)
мегабайт (десятичный) МБ 1000 кБ мегабайт (МБ)
мегабайт (двоичный) МБ (Мбайт) 1024 Кбайт мебибайт (МиБ)
гигабит (десятичный) Гб 1000 Мб гигабит (Гбит)
гигабит (двоичный) Гб (Гбит) 1024 Мбит гибибит (Гибит)
гигабайт (десятичный) ГБ 1000 МБ гигабайт (ГБ)
гигабайт (двоичный) ГБ (Гбайт) 1024 Мбайт гибибайт (ГиБ)
Хорошая по замыслу идея, к сожалению, пока не прижилась. 25 января 2006 г. «Яндекс» по запросу "мибибайт" выдал всего 21 сайт, а на "мегабайт" – 2138 сайтов. Не желает "народ" знать ни о МЭК, ни о ее стандартах. Поэтому вопрос, вынесенный в заголовок, боюсь, еще долго будет актуальным.
Информация о МЭК
Международная Электротехническая Комиссия (МЭК), International Electrotechnical Commission (IEC) – международная организация стандартов, имеющая дело с электрическими, электронными и связанными технологиями. Некоторые из его стандартов развиты совместно с Международной Организацией по Стандартизации (ISO).
МЭК составлена из представителей национальных служб стандартов. МЭК была основана в 1906 году и в настоящее время имеет более 60 стран участников. Первоначально расположенная в Лондоне, комиссия с 1948 года имеет штаб в Женеве.
МЭК способствовала развитию и распределению стандартов для единиц измерения, особенно гаусс, герц, и вебер. Они также сначала предложили систему стандартов, которая в конечном счете стала единицами СИ. В 1938, издан международный словарь, чтобы объединить электрическую терминологию. Эти усилия продолжается и Международный Электротехнический Словарь остается важной работой в электрических и электронных отраслях промышленности.
Стандарты МЭК имеют числа в диапазоне 60000-79999, и их названия принимают форму, типа МЭК 60411 Графические символы. Числа старых стандартов МЭК были преобразованы в 1997, добавлением 60000, например МЭК 27 стала МЭК 60027. Стандарты, развитые совместно с Международной Организацией по Стандартизации (ISO) названы, типа ISO/IEC 7498-1:1994 Open Systems Interconnection: Basic Reference Model.
Комментарии