Немного о сканировании
История сканирования берет свое начало в далеком 1857 году и первое устройство, напоминающее сканер, называлось пантелеграф. Потом в 1902 был изобретен телефакс и только с открытием полупроводников появились сканеры в том виде, в котором их привыкли видеть мы, но принцип работы всех сканеров остается неизменным. Свет, отраженный от объекта, через систему зеркал попадает на чувствительную матрицу, далее на АЦП и передается в компьютер.
В современном мире используются самые различные форматы для хранения или обработки сканированных файлов. В этой статье мы расскажем о наиболее распространенных форматах сканирования, для того чтобы проанализировать их и оценить положительные и отрицательные их черты.
Изображение всегда сканируется в формат RAW - а затем конвертируется в обычный графический формат с применением текущих настроек яркости, контрастности, и т.д.
А вот видов графических форматов очень много:
- Формат TIFF - этот формат был самым первым и используется для хранения графических изображений в виде матрицы пикселей (растровый). Он используется как основной для изображений факсов, сканированных файлов, но в последнее время уходит в тень.
- Формат JPEG -широко используется для сжатия фотоизображений. Алгоритм JPEG является форматом сжатия с потерей качества т.е. при сильном уровне сжатия Вы будете видеть блочную структуру Вашего файла (Ваш файл будет дробиться на квадратики). Однако, несмотря на недостатки, этот формат сегодня очень распространен из-за экономности и вместимости.
Ну а если Вам необходимо отсканировать текстовый документ и в нем существуют различные форматы, наиболее распространенный из которых: PDF и DjVu.
- Формат PDF (Portable Document Format) - кроссплатформенный формат электронных документов. В первую очередь предназначен для представления в электронном виде полиграфической продукции, - значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Имеется возможность импорта из большинства современных форматов текстовых документов, векторных и растровых графических форматов. В этом формате распространяется большое количество сопутствующей документации. Недостатком этого формата является невозможность форматирования текста, для этих целей обычно применяют распознаватели текста. А также то, что бесплатно распространяются только читатели этого формата Acrobat Reader, а для создания подобных файлов необходима специальная программа Adobe Acrobat.
- Формат DjVu - технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов - книг, журналов, рукописей и пр., где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознание. Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов где важное значение имеет не только содержание, а цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами. Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.
Кроме этого все форматы после распознавания можно хранить и в стандартных форматах Microsoft Office: Word и т.п.
Таким образом Вы должны вначале определить, то что Вам необходимо и исходя из этого определиться с форматом сканирования.

