Loading...
Error
 

Скачать торрент Форматы книг и качество текста

 
Автор Сообщение

Marlboro

post 09-Май-10 12:27

Форматы электронных книг



Ц Цитата:

Попробуем сформулировать потребительские требования к электронным книгам.
Читабильность. Легкость и удобство чтения текста. Поскольку это обеспечивают программные и аппаратные средства для чтения, от самого формата требуются несколько иные качества, а именно два нижеследующих:
Полиграфичность. Возможность отформатировать текст, выделить заголовки, вставить иллюстрации, содержание и. т.д. То есть то, что делает книгу книгой.
Масштабируемость. Возможность читать e-book при разных разрешениях экрана и размерах рабочего окна.
Кроссплатформенность. Электронная книга в идеале должна одинаково легко читаться на различных устройствах — от специализированной "читалки" до персонального компьютера.
Конвертируемость. Очень важный параметр, учитывая постоянно меняющиеся стандарты, операционные системы и "железо".
Гипертекст. Тоже весьма существенный для e-book параметр. Возможность мгновенно переходить в нужное место книги, щелкнув по ссылке.
Возможность редактирования. Не обязательно, но желательно. Учитывая «какчество» текстов в онлайн-библиотеках. Хотя, для «лицензионных» книг, эта фича и не актуальна. Там достаточно возможности делать закладки и пометки на полях, предоставляемыми софтом для чтения.

Профессиональный издатель обязательно добавил бы в этот список возможность установки DRM (Digital Rights Management — управление цифровыми правами — говоря проще, защита от несанкционированного копирования), но я, как и большинство наших любителей чтения, считаю этот элемент совершенно излишним:))). Дай волю издателям, они и на бумажные книги начнут ставить защиту, например, покрывать страницы гильоширной сеткой, чтобы затруднить распознавание текста программой OCR…
Обычный текст (Plain Text) (.TXT)


Описание: Как говорится, текст - он и в Африке - текст... Простая последовательность восьмибитных (как правило) кодов, каждый из которых соответствует либо символу, либо управляющему коду. Отличается лишь кодировкой и способом перевода строки.

Полиграфичность: Низкая. Набор средств разметки у текста весьма невелик. Форматирование абзацев, отступы и выделение заглавными буквами - вот, пожалуй, и все.
Масштабируемость: Все зависит, от того, как сформатирован текст. Если он аккуратно отформатирован по абзацам с выравниванием, то очень низкая. Если же разбиения на строки нет - «один абзац - одна строка» - тогда высокая.
Кроссплатформенность: Практически абсолютная.
Конвертируемость: Практически абсолютная.
Гипертекст: Нет.
Возможность редактирования: Абсолютная.

Формат txt активно использовался на заре электроных библиотек, при создании всевозможных сборников книг («Библиотека в кармане», «HarryFan Text Collection», и прочие). Сейчас книги в формате txt можно найти, пожалуй, лишь в библиотеке Максима Мошкова, (да и то перед подачей их пользователю они преобразуются в HTML) и в некоторых небольших библиотеках.

Rich Text Format (.RTF)


Описание: Этот формат был специально разработан компанией Microsoft в 1987 году для переноса текста с разметкой из одной программы в другую. В таком качестве он используется и по сей день.

Полиграфичность: Выше среднего.
Масштабируемость: Почти абсолютная.
Кроссплатформенность: Очень высокая.
Конвертируемость: Практически абсолютная.
Гипертекст: Нет.
Возможность редактирования: Абсолютная.

RTF до сих пор широко используется в русскоязычных онлайн-библиотеках. Главным образом, именно из-за его хорошей совместимости с различным программным обеспечением.

Документ Microsoft Word (.DOC)


Описание: Формат DOC - это внутренний формат Microsoft Word и предназначен для хранения текстовых документов, подготовленных в этой программе. Распространенность Microsoft Office и Microsoft Word как его части обусловила распространенность формата DOC.

Полиграфичность: Высокая.
Масштабируемость: Высокая.
Кроссплатформенность: Ниже среднего.
Конвертируемость: Высокая.
Гипертекст: Присутствует.
Возможность редактирования: Абсолютная.

По скромному мнению автора, документы Word используют в качестве e-book только по одной причине — авторам книги (или сканнеристам ;)) ) просто-напросто лень конвертировать его в более удобочитаемый формат.

Документы Html (.HTM; .CHM; .MHT)


Описание: Язык HTML (HyperText Markup Language) используется для отображения информации в сети Интернет. Хотя НTML позволяет неплохо оформить текстовый документ, он все же не слишком подходит для e-book. Далеко не всем нравится читать книги в браузере. При использовании же программы-ридера HTML конвертируется в обычный текст и теряет все свои преимущества. А вот формат CHM, первоначально предназначавшийся для подготовки файлов справки к программному обеспечению, - дело иное. Компактность и высокая интерактивность делают его весьма удобным для различных электронных руководств и справочников.
У всех вышеперечисленных форматов есть один существенный недостаток - они ИЗНАЧАЛЬНО НЕ ПРЕДНАЗНАЧАЛИСЬ для создания электронных книг. Созданные на их основе файлы даже не являются книгами - это просто текстовые документы. Но, как ни странно, из этого же недостатка вытекает и достоинство: чтобы читать их, не требуется специального программного обеспечения. Достаточно стандартных средств, встроенных в операционную систему.

Полиграфичность: Высокая.
Масштабируемость: Очень высокая.
Кроссплатформенность: Практически абсолютная.
Конвертируемость: Практически абсолютная.
Гипертекст: Разумеется, есть.
Возможность редактирования: Абсолютная.

Хотя НTML позволяет неплохо оформить текстовый документ, он все же не слишком подходит для e-book. Далеко не всем нравится читать книги в браузере. При использовании же программы-ридера, HTML конвертируется в обычный текст и теряет все свои преимущества.
А вот формат CHM, первоначально предназначавшийся для подготовки файлов справки к программному обеспечению, — дело иное. Компактность и высокая интерактивность делают его весьма удобным для различных электронных руководств и справочников.
В частности, очень эффектно смотрятся в CHM компьютерные руководства издательства O'Reilly.
Однако, при всех этих достоинствах, у CHM есть и очень большой недостаток. Это формат справки и он жестко привязан к Windows. Решит Microsoft поменять формат справки в следующей версии «форточек» и с накопленным объемом книг придется попрощаться.

***


У всех вышеперечисленных форматов есть один существенный недостаток — они ИЗНАЧАЛЬНО НЕ ПРЕДНАЗНАЧАЛИСЬ для создания электронных книг. Созданные на их основе файлы даже не являются книгами — это просто текстовые документы.
Как ни странно, из этого же недостатка вытекает и достоинство — чтобы читать их не требуется специального программного обеспечения. Достаточно стандартных средств, встроенных в операционную систему.
Форматы, описанные далее, уже требуют установки специальных программных средств для их просмотра.

Adobe Acrobat (.PDF)


Описание: Первоначально этот формат разрабатывался для нужд полиграфии - в основном для платформонезависимого переноса макетов. В последние годы интенсивно продвигается как формат для создания e-book.
Основной аргумент против применения PDF для изготовления e-book - большой объем файла и неудобство чтения на портативных устройствах. Говоря о PDF, нельзя не упомянуть и аналогичные форматы. Например, формат Zinio, который, в отличие от PDF, предназначен специально для выпуска в электронном виде периодических изданий - в частности, глянцевых журналов.

Полиграфичность: Абсолютная. Для того и был разработан. Как следствие .PDF-файлы могут быть весьма увесистыми.
Масштабируемость: Низкая! На портативных устройствах читать достаточно проблематично.
Кроссплатформенность: Ниже среднего.
Конвертируемость: Низкая.
Гипертекст: Есть.
Возможность редактирования: Низкая. К тому же, для этого нужно устанавливать громоздкий Adobe Acrobat PRO.

Основной аргумент против массового применения PDF для изготовления e-book — это большой объем файла и неудобство чтения на портативных устройствах.
Впрочем, качественные книги и журналы, сформатированные на страницы размером более A5, трудновато читать даже на 21'' мониторах.
Вообще, формат PDF предназначен, в первую очередь, ДЛЯ ВЫВОДА НА ПЕЧАТЬ.
Существуют и другие форматы, аналогичные PDF. Например, формат Zinio, предназначенный специально для выпуска в электронном виде периодических изданий, в частности глянцевых журналов.

Dejavu (.DJVU)


Описание: Формат DJVU был создан компанией АТ&T специально для компактного представления информации в Internet. Формально файлы, созданные с его использованием, трудно назвать книгой. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением, что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при приемлемом качестве изображения. Эти свойства делают его идеальным для множества сканированных компьютерных (и не только) руководств.
Ведь если книга содержит примеры исходников программ, формулы, схемы или сложные таблицы, то даже незначительные ошибки при OCR могут непоправимо испортить ее. A DJVU позволяет представить книгу "как есть".

Полиграфичность: Высокая.
Масштабируемость: Средняя. Зависит от того, насколько хорошо программа-просмотрщик поддерживает anti-aliasing.
Кроссплатформенность: Средняя.
Конвертируемость: Ниже среднего.
Гипертекст: Есть подобие.
Возможность редактирования: Средняя.

Формально, файлы созданные с использованием DJVU трудно называть книгами. Это, по существу, растровый многостраничный графический файл. При его создании специальные алгоритмы отделяют текст от фона и иллюстраций, после чего они сжимаются с различным разрешением. Что и обеспечивает чрезвычайно высокое сжатие картинки (примерно 1:500) при более чем приемлемом качестве изображения. Эти свойства делают его идеальным для множества сканированных компьютерных (и не только) руководств и пособий, которыми сейчас завалены варезные сайты (такие книги еще называют «освобожденными» ;)) ). Ведь, если книга содержит примеры исходников программ, формулы, схемы или сложные таблицы, то даже незначительные ошибки при OCR могут непоправимо испортить ее. A DJVU позволяет представить книгу «как есть».
Причем интересы читателей, привыкших парой щелчков копировать нужный кусок текста в буфер, тоже учтены. Последние версии формата DJVU могут содержат чисто текстовый слой.
Справедливости ради, следует заметить, что DJVU, более чем хорошо справляющийся с текстами и штриховыми иллюстрациями, пасует перед цветными картинками и глянцевыми журналами. Выглядят такие издания в DJVU весьма непрезентабельно.

Закрытые специализированные форматы


Описание: Существует довольно много форматов электронных книг, созданных для одного конкретного устройства или программы. К ним можно отнести Rocket e-book (.rb), Microsoft Reader (.lit), PalmDoc, MobiPocket (.prc) и т.д. Плюс некоторые программы для чтения норовят сконвертировать текст в свой собственный ни с чем не совместимый формат. (IceBook Professional на PC, iSilo и Weasel на Palm и пр.). Правда, при ближайшем рассмотрении оказывается, что это все те же HTML, RTF или txt (некоторое исключение составляет формат ExeBook, который конвертирует текст книги в набор растровых картинок), как правило, упакованные для компактности и снабженные служебной областью, где могут храниться, например, закладки. Также может быть добавлена DRM.

Полиграфичность: Зависит от конкретного формата. Средняя или выше среднего.
Масштабируемость: Средняя или выше среднего.
Кроссплатформенность: Низкая. Часто такие форматы создавались для одного конкретного устройства или программы. Просмотр на PC или,
соответственно, КПК нередко возможен только с помощью программ, написанных энтузиастами.
Конвертируемость: Низкая. Обычно только через софт, опять же, написанный энтузиастами.
Гипертекст: Чаще всего есть.
Возможность редактирования: Низкая или вообще никакая.

Специализированные открытые форматы на основе XML


Описание: Расширяемый язык разметки (eXtensible Markup Language) XML предназначен для хранения структурированных данных в текстовом формате.
Теоретически файлы XML должны легко читаться как программным обеспечением, так и человеком. В отличие от HTML, набор средств разметки (тегов) в XML не фиксирован и определяется лишь файлом-спецификацией schema (.XSD). Допустимы теги вроде <my_love_tag>, <superiortag> и т.д. Документы XML имеют иерархическую древовидную структуру. При помощи XML можно легко создавать новые форматы данных, которые будут простыми, переносимыми и независимыми как от операционной системы, так и от приложения, эти данные создавшего. Но, давая свободу, XML одновременно предъявляет к документу гораздо более жесткие требования, чем HTML. Все элементы должны быть правильно закрыты. Конструкции типа <i><b>Text</i></b>, которые легко "проглатывает" HTML, в XML считаются ошибкой. Гибкость в сочетании со строгостью оформления делает возможным использование XML для самых разнообразных задач, а также его обработку практически на любых аппаратных и программных конфигурациях. Возможности использования XML для создания e-book:

Полиграфичность: Высокая. Правда, всецело зависит от программы-ридера.
Масштабируемость: Почти абсолютная.
Кроссплатформенность: Практически абсолютная.
Конвертируемость: Практически абсолютная.
Гипертекст: Есть.
Возможность редактирования: Как правило, абсолютная.

Как видим, язык XML имеет наилучшее сочетание качеств, необходимых для e-book. Поэтому попытки делать e-book на его основе предпринимались не один раз, и небезуспешно. Известны форматы OEB (Open E-Book), DocBook и другие. Но самым удачным (и самым распространенным) из них является формат FictionBook (FB2).

Fictionbook (.FB2)


Описание: Формат FictionBook был разработан Дмитрием Грибовым с несколькими соавторами при поддержке группы энтузиастов. Он полностью базируется на XML. На данный момент это самый прогрессивный и перспективный формат для электронных книг. Единственный его недостаток, как признают сами авторы, - бОльшие временные затраты при подготовке начального текста. Впрочем, он легко окупается удобством чтения. В отличие от всех не-XML- форматов, которые ориентированы на оформление текстовых данных, в FictionBook упор сделан на структурирование документа. То есть с помощью тегов выделяются области текста: это - глава, это - заголовок, это - эпиграф, а вот это - цитата. А как все это будет выглядеть на экране, зависит от программы-ридера. На случай, если потребуется оформить книгу строго определенным образом, предусмотрена возможность присоединения таблицы стилей.
В формате FictionBook можно создать четко структурированную книгу (именно книгу, а не просто электронный документ), которую удобно читать в специализированной программе-читалке, а в случае надобности можно легко сконвертировать в любой популярный формат. Как правило, без потери разметки. Возможности FictionBook позволяют выделить заголовки, эпиграфы, стихи, цитаты, вставить в текст иллюстрации и сноски и, что немаловажно, внести все выходные данные книги. Все компоненты книги (описание, непосредственно текст, иллюстрации) хранятся в одном файле, который можно упаковать архиватором. Большинство программ-читалок для FB2 умеют напрямую работать с архивами. За прошедшие несколько лет стандарт уже успел устояться. Несмотря на то, что он включает сравнительно немного элементов, в него трудно добавить что-то действительно новое и полезное.
Еще одно достоинство FictionBook - книги в этом формате отлично поддаются каталогизации. Опираясь на встроенную систему описания книги, можно с легкостью создать как домашнюю, так и сетевую электронную библиотеку любого масштаба. Учитывая объем электронных книг, накопленный до появления FictionBook, первый вопрос, который возникает при знакомстве с новым форматом, - это возможность конвертирования книг из других форматов. Никаких проблем!

Полиграфичность: Высокая.
Масштабируемость: Высокая.
Кроссплатформенность: Высокая.
Конвертируемость: Высокая.
Гипертекст: Есть.
Возможность редактирования: Высокая.

Качество текста
  • Отсканированные страницы
    Представляет собой, как следует из названия, отсканированные страницы. Для данного качества обязательно необходимо представить пример страницы (скрин) - для оценки качества текста.
  • e-Book (изначально компьютерное)
    Это файл из издательства или от автора, возможно только для относительно новых книг, и то крайне маловероятно. В подавляющем большинстве - это хорошо вычитанный OCR.
  • OCR
    OCR - это распознанный текст. Наиболее часто встречающееся качество. Делится на два вида - с ошибками (не вычитанный) и без них (вычитанный).
Автор: Юзич



Текущее время: 18-Апр 07:35

Часовой пояс: GMT + 3



Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы