продажа и доставка пиломатериалы Краснодарский край  |  Экологически чистый перлит обладает отличными звукоизоляционными характеристиками.  |  Посетите кафе рядом с метро 1905 года

Формат данных

Выбору оптимального формата хранения электронных книг было уделено много времени в ходе подготовки проекта. Обсуждались самые разные форматы, взвешивались различные мнения. При этом к формату предъявлялись следующие требования (у порядке важности):

Разрешение

Важнейшим условием является удобство работы с электронной книгой на экране. Практика показывает, что когда страницы книги масштабируются перед выводом на экран, они читаются значительно хуже, чем при выводе в масштабе 1:1. Поэтому выбор разрешения в большинстве случаев диктуется экранным разрешением. Мы считаем оптимальным разрешением для работы с электронными книгами 1024х768, но стараемся учитывать, что многие предпочитают работать в режиме 800х600.

Конкретное разрешение для каждой книги выбирается индивидуально. Оно зависит от формата книги, числа и ширины текстовых колонок, используемого в книге шрифта, характера иллюстраций и ряда других факторов. Обычно разрешение находится в диапазоне от 150 до 200 dpi. Высокие разрешения (300 dpi) неудобны при чтении книг с экрана и важны лишь для целей распознавания текста. При необходимости распознать небольшой фрагмент текста для целей цитирования используемых разрешений вполне достаточно.

Формат файлов

Для хранения отсканированных страниц можно использовть практичеки любой растровый графический формат. Мы в большинстве случаев отдаем предпочтение формату .jpg. Проведеные тесты показали, что при даже при относительно высокой степени сжатия изображения в этом формате (качество 2 или 3 в PhotoShop) изображением на экране практически не уступает по качеству форматам, сохраняющим изображение бехз потерь. При этом получается некоторый выигрыш по объему данных и, что важнее, по скорости открытия страницы.

Еще одно важное достоинство формата .jpg — возможность просмотра файлов с помощью браузера. Этим же преимуществом обладают также формата .gif и .png. Однако .gif дает возможность использовать не более 256 цветов, а .png заметно медленнее обрабатывается. Тем не менее в некоторых случаях предпочтение может отдаваться этим форматам.

Объем данных

Книги имеют весьма различные размеры

На один компакт-диск обычно помещается от двух до пяти отсканированных книг или журналов. Каждое издание хранится в отдельном каталоге в виде постраничных (или поразворотных) графических файлов, ориентированных на экранный просмотр с разрешением 1024х768.

Формат .pfd

Неоднократно поднимался вопрос о переводе отсканированных книг в формат .pdf, и это предложение внимательно анализировалось. В конце концов, мыотказались от использования формата .pdf по следующим причинам:

При работе с отсканированными книгами всем этим недостаткам формат .pdf не может противопоставить соразмерных достоинств. А если кому-то все же очень нужен файл .pdf, то его всегда можено создать из файлов с отсканированными страницами.

Распознавание

Иногда нам задают вопрос, почему бы не распознавать тексты книг и не распространять их в текстовом формате, как это делает, например, Максим Мошков.

Ответ состоит в специфике научной и научно-популярной литературы, в ее отличии от литературы художественной и публицистической. В научной литературе используется сложная верстка, встречается много формул, таблиц и иллюстраций. Распознавание таких текстов имеющимися средствами зачастую вообще невозможно. Более того, для хранения таких текстов нет достаточно удобного формата. TeX — в основном инструмент профессионалов, а мы стремимся обеспечить в первую очередь любителей. MS Word не обеспечивает достаточной надежности.

Большое значение имеет трудоемкость процедуры подготовки электронных книг. Распознавание сделало бы ее слишком высокой (кроме тех случаев, когда в книге используется только обычный текст).

И наконец, последний аргумент состоит в аутентичности. Отсканированная книга выглядит также, как на бумаге. Распознаннавание фактически влечет за собой новую верстку. При этом утрачивается возможность корректно ссылаться на страницы изданий, а это очень важно в научном обороте.

Перевод

Иногда нам задают вопрос, нельзя ли обеспечить англоязычные издания переводом на русский язык. К сожалению трудоемкость ручного перевода совершенно необозрима, качество же, которое дают существующие автоматические переводчики не удовлетворит даже самого невзыскательного читателя.