В информатике текстом считают последовательность любых символов. Сейчас компьютеры в основном пользуются алфавитами, содержащими 256 знаков1. Каждому из символов соответствует свой восьмиразрядный двоичный код. Таким образом любой символ текста, включая пробелы, занимает 8 бит (1 байт) в памяти компьютера. Зная это, можно легко оценить объем памяти, необходимый для хранения того или иного текстового документа.
Вспомним, как связано количество бит в коде с тем, сколько требуется различных кодов.
Один бит (двоичная цифра) может принимать два значения, добавление каждого разряда в код удваивает количество получаемых комбинаций: двухбитовый код -- четыре варианта, трехбитовый -- восемь, четырехбитовый -- шестнадцать и т. д.
Рассмотрим пример. Машинописная страница стандартного формата (Рђ4) содержит около 55 строк. РќР° каждой строке помещается РІ среднем 60 символов2. Подсчитаем количество текстовой информации РЅР° такой странице. Каждый СЃРёРјРІРѕР» -- 1 байт информации, Р° всего символов -- 60*55=3300. Значит, РЅР° странице 3300 байт (около 3 Кбайт). Как связаны двоичные РєРѕРґС‹ Рё соответствующие РёРј символы? Рто определяется таблицей РєРѕРґРёСЂРѕРІРєРё. Р’СЃРµ используемые РЅР° персональных компьютерах таблицы3 основаны РЅР° американском стандарте ASCII4. РћРЅ определяет первые 128 РєРѕРґРѕРІ: для латинских Р±СѓРєРІ, цифр, основных знаков препинания Рё математических операций. Остальные 128 РєРѕРґРѕРІ используются для специальных символов Рё Р±СѓРєРІ национальных алфавитов (РІ том числе, СЂСѓСЃСЃРєРѕРіРѕ). Р, поскольку общепринятого стандарта для этого РЅРµ было, возникло РјРЅРѕРіРѕ различных РєРѕРґРёСЂРѕРІРѕРє, РІ том числе, несколько -- для кириллицы5. Рменно поэтому, получив РѕС‚ РєРѕРіРѕ-РЅРёР±СѓРґСЊ текст Рё попытавшись прочесть его РЅР° своем компьютере, РјС‹ зачастую РІРёРґРёРј РЅР° экране набор непонятных "закорючек".
РєРѕРґ | CP866 | CP1251 | KOI-8R | Mac |
01011010 | Z | Z | Z | Z |
10001111 | Рџ |  |  | Рџ |
11111101 | $ | СЌ | Р© | СЌ |
Р’ такой ситуации РЅР° помощь РїСЂРёС…РѕРґСЏС‚ программы-конверторы6. РћРЅРё заменяют двоичный РєРѕРґ каждого символа РЅР° РєРѕРґ, которым такой СЃРёРјРІРѕР» представляется РІ РґСЂСѓРіРѕР№ РєРѕРґРёСЂРѕРІРєРµ. Рто соответствие определяется таблицей перекодировки. Обычно пользователь должен указать, РёР· какой РєРѕРґРёСЂРѕРІРєРё РІ какую идет преобразование, однако появились Рё программы, умеющие автоматически определять РєРѕРґРёСЂРѕРІРєСѓ РёСЃС…РѕРґРЅРѕРіРѕ текста.
Стремление упростить работу с различными текстами (сперва текстами программ, затем служебными документами, газетами, журналами, книгами и т.д.) привело к созданию множества программ, специально ориентированных на это -- текстовых редакторов (или текстовых процессоров).
Какими же данными оперируют эти программы? Очевидно, что наименьшим объектом будет символ. Однако можно работать не только с отдельными символами, но и со словами, строками, абзацами, произвольными фрагментами и текстом в целом. Некоторые действия можно выполнить с любой из этих структур, другие -- только с какй-то определенной. Обрабатываемый текст представляется как бы в виде рулона "бумаги", который можно прокручивать на экране вперед и назад. Большинство современных программ позволяет одновременно работать с несколькими текстами, каждый из которых выводится в отдельное окно. Кроме основных "листов" текстовый процессор, как и другие программы использует "конверт" (или "карман"), в котором можно временно хранить фрагмент текста при его копировании или перемещении.
Текстовый процессор -- РЅРµ просто заменитель пишущей машинки, Р° универсальное средство для работы СЃ текстами. РћРЅ предоставляет очень широкие возможности манипулирования текстовыми документами. РљСЂРѕРјРµ таких очевидных операций как набор текста, удаление, копирование Рё перемещение его фрагментов, Р° также сохранение РЅР° РґРёСЃРє Рё печать, имеется возможность изменять шрифт, его начертание, цвет Рё размер. Текстовый процессор может автоматически форматировать текст (включая установку абзацного отступа Рё выравнивание). Можно сразу РІРѕ всем тексте заменить РѕРґРЅРѕ заданное слово РЅР° РґСЂСѓРіРѕРµ. Например, поменять "РР’Рњ" РЅР° "компьютер". РњРЅРѕРіРёРµ редакторы умеют проверять орфографию: компьютер ищет каждое слово РІ своем словаре Рё, если РЅРµ находит, сообщает РѕР± этом пользователю, предлагая возможные варианты исправления.
Примечания
Новый стандарт Unicode, на который осуществляется постепенный переход, позволяет использовать 216=65536 (а в последней версии -- 232) символов. Текст в такой кодировке будет занимать существенно (в среднем -- вдвое) больше памяти. [Примечание к примечанию: реальные системы используют не непосредственно Unicode (UTF-32), а представления UTF-8 и UTF-16. В первом из них символ может занимать от 1 до 6 байт, во втором -- 2 или 4 байта]
Рто -- примерные значения для СЂСѓСЃСЃРєРѕР№ пишущей машинки. Р’ англоязычных странах обычно используют более мелкий шрифт.
Речь идет о "стандартных" шрифтах. Кроме них существуют также шрифты, содержащие (вместо букв и цифр) специальные, например декоративные, символы.
American Standard Code for Information Interchange -- Американский стандартный код обмена информацией.
В России широко используются в настоящее время четыре кодировки:
CP866 ("DOS-альтернативная". Для PC-совместимых компьютеров под MS-DOS и OS/2, а также в любительской компьютерной сети Fido);
CP1251 (Для PC-совместимых компьютеров под Windows, а также на большинстве сайтов WWW);
KOI-8R (Компьютеры под UNIX, электронная почта и конференции Internet);
Mac-Cyrillic (Макинтош-совместимые компьютеры).
Converter (англ.) -- преобразователь.
Список литературы
Для подготовки данной работы были использованы материалы с сайта http://macedu.narod.ru