Когда целесообразно использовать программу DJVUmark ?
Когда была написана первая версия этой программы ( она называлась GENER_VIEW_DJVU)такой вопрос не возникал, так как не было других программных средств для просмотра файлов формата DJVU с использованием электронных средств навигации, ни одного вьювера, кроме plug-in from Lizard не существовало.
В настоящее время просмотр Djvu-копий книг ( в дальнейшем Djvu-книг) ведется или с помощью Интернет броузера с плагином или одной из специальных программ-просмотрщиков файлов формата Djvu (DjVuReader, WinDjView, djvu fancy viewer 1.5 и т.п.). Для навигации по документу эти программы используют bookmarks ( электронные оглавления), внедренные в Djvu-книги или механизм перекрестных ссылок. Между тем, в оригиналах книг есть еще один инструмент для навигации - это предметные указатели (Subject index ). Этот тип навигаторов в дальнейшем будем называть индекс-файлами. От оглавлений индекс-файлы отличаются форматом передствления ссылок на страницы книги. Оглавление это список строк, некоторые из них оканчиваются числами, которые являются номерами страниц книги. В индекс-файлах, являющимися также списком строк в конце некоторых строк могут быть не только одиночные ссылки, но целые списки чисел-номеров страниц или чисел-номеров страниц с номерами томов. Еще есть одно важное отличие. Это размер файлов. Размеры индекс-файлов во много раз превышают размеры оглавлений. Они могут занимать несколько сотен страниц. Например, кумулятивный индекс-файл Химической энциклопедии под ред. Кнунянц занимает 220 страниц текста.
Известные программы (EmbedBookmarks-1.0, Djvused, Djvubookmark ) внедрения bookmarks допускают только внедрение bookmarks-оглавлений. Чтобы внедрить индекс-файл этими программами, его надо преобразовать в формат оглавления. Конечно, из-за большого размера этих файлов сделать это можно только программным путем. Такое преобразование используется в программе DJVUmark.Появление в программе DJVUmark функции генерации файла bookmarks.htm для программы EmbedBookmarks-1.0 превратило bookmarks в полноценные средства навигации. Файл bookmarks.htm, создаваемый программой DJVUmark, содержит:
1. структурированный файл оглавления книги;
2. структурированный на уровне букв алфавита(ов) файл предметного указателя.Недавно появилась программа DjvuHypEdit для создания гиперссылок в оглавлениях и предметных указателях. Эта программа обрабатывает только стандартно оформленные файлы в смысле нумерации страниц и адресации термов, файлы обязательно должны иметь OCR-слой текста, "правильно привязанный к изображению текста", в файлах не должно быть пропуска страниц. К сожалению, как показывает практика слишком много встречается файлов, которые не обладают такими качествами.
Хотя с появлением большого количества вьюверов и программы DjvuHypEdit, программа DJVUmark потеряла некоторую актуальность, но есть ряд функций, которые пока выполняет только она.
Это следующие функции:
1. Структурирование оглавлений для их внедрения в файлы DJVU.
2. Преобразование предметных указателей для их внедрения в файлы DJVU.
3. Приведение оглавлений и предметных указателей к стандартным формам нумерации страниц и адресации.
4. Создание интерфейса для просмотра многотомных файлов как единого целого с использованием кумулятивных предметных указателей.
5. Создание интерфейса для просмотра файлов формата DJVU на web-страницахВозникновение необходимости в выполнении этих функций и определяет целесообразность использования программы DJVUmark.
Программа DJVUmark генерирует html-интерфейс для работы в двух режимах ON-Line и OFF-Line. Работа в этих режимах совершенно одинакова по внешнему виду. Эти режимы отличаются только алгоритмами вызова заданной страницы книги. В режиме OFF-Line применяется алгоритм на основе тэга embed, в ON-Line используется CGI-Bin -Type вызов аргументов.
Очевидно, что здесь мы можем продемонстрировать работу только в режиме ON-Line.
Для удобства дальнейшего изложения материала условно все копии книг в Djvu -формате разделим на две группы.
1. К первой группе мы отнесем многотомные книги, имеющие общее оглавление и предметный указатель( иногда его называют кумулятивным). К таким книгам относятся многотомные энциклопедии, справочники и фундаментальные монографии. К этой группе отнесем также книги, в оглавлениях и предметных указателях которых содержится математические нотации или другие графические материалы. Это в основном некоторые книги по математике.
2. Все остальные книги отнесем ко второй группе. Это самая представительная группа.
Примеры книг первой группы :
Напоминаем, что djvu файлы могут хранится в двух форматах: bundled djvu (одним файлом) или indirect djvu ( постранично )
Формат indirect djvu является оптимальным для веб-просмотра, так как он позволяет избежать необходимости открывать один большой многостраничный файл. В этом случае при вызове n-траницы браузер загружает только
только три страницы: n-1,n,n+1.
Насколько различна скорость вызова страниц можно понаблюдать далее при чтении ФИЗИЧЕСКОЙ ЭНЦИКЛОПЕДИИ (indirect djvu) и МАТЕМАТИЧЕСКОЙ ЭНЦИКЛОПЕДИИ (bundled djvu)
1. ФИЗИЧЕСКАЯ ЭНЦИКЛОПЕДИЯ под редакцией А.М. Прохорова (5 томов)
2. МАТЕМАТИЧЕСКАЯ ЭНЦИКЛОПЕДИЯ под ред. И.М.Виноградова (5 томов)
3. ENCYCLOPEDIC DICTIONARY OF MATHEMATICS by Kiyosi Ito (Editor),в 2-х томах
4. ХИМИЧЕСКАЯ ЭНЦИКЛОПЕДИЯ,под ред. И.Л. КНУНЯНЦ, в 5-х томах
5. GRZIMEKS ANIMAL LIFE ENCYCLOPEDIA, в 16-ти томах
6. MACMILLAN ENCYCLOPEDIA OF GENETICS,Editor in Chief RICHARD ROBINSON, в 4-х томах
7. СОВРЕМЕННАЯ ГЕНЕТИКА,Ф.Айала, Дж.Кайгер, в 3-х томах
8. МОЛЕКУЛЯРНАЯ БИОЛОГИЯ КЛЕТКИ, Албертс Б., Брей Д., Льюис Дж., Рэфф М, Роберте К., Уотсон Дж.,в 3-х томах
9. ENCYCLOPEDIA OF BIOLOGICAL CHEMISTRY Editors: William J. Lennarz, M. Daniel Lane, в 4-х томах
10. The GALE ENCYCLOPEDIA of MEDICINE, в 5-х томах
11. The GALE ENCYCLOPEDIA of ALTENATIVE MEDICINE, в 4-х томах
12. ЛЕКАРСТВЕННЫЕ СРЕДСТВА,М.Д. Машковский, в 2-х томах
13. ЭНЦИКЛОПЕДИЯ КИБЕРНЕТИКИ,В.М. Глушков (отв. ред.),в 2-х томах
14. ЦИФРОВАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ,У.Прэтт, в 2-х томах
15. ОПТИЧЕСКАЯ ГОЛОГРАФИЯ,Под ред. Г. Колфилда, в 2-х томах
16. GALE ENCYCLOPEDIA OF SCIENCE (3RD EDITION),B.W. Lerner, B.W. Lerner в 6-ти томах
17. SCIENCE OF EVERYDAY THINGS,edited by NEIL SCHLAGER, в 6-ти томах
18. HANDBOOK OF MATHEMATICAL FUNCTIONS WITH FORMULAS, GRAPHS, AND MATHEMATICAL TABLES, Abramowitz M. Stegun I.
19. HANDBOOK OF OPTICS, Michael Bass( Ed.), в 4х томах
Для всех перечисленных книг нами сделан html-интерфейс, но здесь он демонстрируется только для трех книг (1,2,18).
Именно книги этой группы лучше всего смотреть, используя интерфейс программы DJVUmark. Кумулятивные предметные указатели невозможно внедрить в Djvu-файл, и поэтому ни один из существующих в настоящее время вьюверов не пригоден для просмотра таких книг в двухоконном режиме, т.е с использованием предметного указателя и общего оглавления. Исключение здесь составляет вьювер WinDjView. Именно с расчетом на этот вьювер в эту версию программы включена функция внедрения bookmarks в многотомные файлы. Эта опция носит экспериментальный характер. С появлением программы WinDjView-05 ситуация изменилась в лучшую сторону. Эта программа достаточно быстро загружает большие bookmarks и быстро осуществляет перезагрузку томов. Это было проверено на книгах ФИЗИЧЕСКАЯ ЭНЦИКЛОПЕДИЯ под редакцией А.М. Прохорова (5 томов).На нашей странице эта энциклопедия загружена с внедренными в каждый ее том Bookmarks.htm. Читатель может в ON-Line посмотреть, как выглядит внедренное дерево Bookmarks. Для этого откройте выбранный том, кликните правой клавишей мыши по правому фрейму, где отображается djvu-файл, и выберите опции Layout - Outline. В результате на экране появится еще один фрейм, т.е экран будет разделен на 3 фрейма. Во втором фрейме можно увидеть дерево Bookmarks. Имеется возможность загрузить с нашей странице все 5 томов энциклопедии с внедренными Bookmarksдля дальнейшего их просмотра с помощью программы WinDjView-05. Подчеркиваем, что только этой программой.Как показывают эксперименты многотомные файлы небольшого объема вполне пригодны для просмотра в WinDjView. К сожалению, многотомные файлы с внедренными bookmarks нельзя просматривать с помощью Интернет броузера с плагином, так как адрес типа book.djvu#nnn плагин не обрабатывает.
Для файлов большого объема типа энциклопедий альтернативы html-интерфейсу пока нет. Кроме того, html-интерфейс обеспечивает :
1. возможность включения графики в оглавления и предметные указатели;
2. возможность одновременного поиска информации в нескольких Djvu-книгах.
а) в режиме ON-Line путем включения на web-страницу специальных инструментов
б) в режиме OFF-Line путем использования системных средств поиска - поиск заданного контекста в файлах .htm g>Что касается примера(№18), то так оглавление этой книги изобилует математическими формулами, поэтому оно также не может быть внедрено в Djvu-файл и, следоаватеьно, эта книга также не может быть рассмотрена во вьювере с использованием оглавления. Это относится к обоим режимам просмотра: ON-Line и OFF-Line.
ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ, А.Б. Сергиенко
Электронные оглавления и предметные указатели, составляющие основу упомянутого выше html-интерфейса, в сочетании с контекстным поиском и возможностью открыть любую страницу многотомного справочника, энциклопедии или книги – это предпосылка создания виртуального читального зала. Так как объем копий книжных страниц сравнительно мал то, как показала практика, даже при модемном доступе есть реальная возможность нормальной работы c книгой в Djvu-формате, находящейся на Web-странице. Конечно, читать книгу в Интернет дорого, но вот получить полноценную справку из какой-либо отрасли знаний, используя соответствующую энциклопедию, это реально. Поэтому открыть на wed-странице Виртуальный читальный зал справочной литературы с нашей точки зрения актуальная задача. Это особенно важно для жителей российской глубинки, где нет больших библиотек.
Здесь возможны возражения типа " Зачем это делать, если на Яндекс можно получить любую справку". Да это так. Но эта справка будет очень короткой. Она не сравнима с фундаментальной справкой, которую можно получить из книжной энциклопедии.
Из примеров книг второй группы мы приводим лишь пять книг ( четыре справочника и один учебник для вузов ):
СПРАВОЧНИК ПО МАТЕМАТИКЕ, Г. Корн, Т. Корн.
СПРАВОЧНИК ПО МАТЕМАТИКЕ, И.Н.Бронштейн, К.А.Семендяев
HANDBOOK OF MATHEMATICS, I.N. Bronshtein, K.A. Semendyayev, G. Musiol, H. Muehlig
STANDARD MATHEMATICAL TABLES and FORMULAE Daniel Zwillinger
SIGNAL PROCESSING FOR MOBILE COMMUNICATIONS HANDBOOK, Mohamed Ibnkahla
Описание Языка Программирования Фортран 90, М.Меткалф, Дж. Рид
ELECTROMAGNETIC WAVES AND ANTENNAS, Sophocles J. Orfanidis
Для книг второй группы целесеобразно использовать DJVUmark как генератор файла bookmarks.htm, чтобы затем с помощью его внедрить оглавление и предметный указатель в Djvu-файл. Html-интерфейс, который также генерируется и в этом случае, необходим лишь для проверки правильности вызова заданных страниц книги и после отладки может быть удален.
Для просмотра Djvu-файла лучше всего использовать один из вьюверов: WinDjView или djvu fancy viewer 1.5. Конечно, для просмотра можно воспользоваться и plug-in'ом, но в этом случае, для того чтобы увидеть внедренные оглавление и предметный указатель, надо после открытия djvu-файла кликнуть правой клавише по любой странице книги, и в открывшемся окне выбрать опции Layout - Outline.
В качестве примеров эти книги выбраны не зря. Каждая из них имеет предметный указатель или оглавление, обладающие некоторыми особыми свойствами.В предметном указателе книги СПРАВОЧНИК ПО МАТЕМАТИКЕ, Г. Корн, Т. Корн. адресами термов являются не страницы, а номера разделов. Поэтому автору этих строк путем контекстной замены пришлось номера разделов заменить на соответствующие номера страниц. Кстати, это было сделано с помощью соответствующей функции, которая имеется в программе DJVUmark.
Оформление оглавления в СПРАВОЧНИК ПО МАТЕМАТИКЕ, И.Н.Бронштейн, К.А.Семендяев не соответствует принятым в программе DJVUmark соглашениям, чтобы его можно было автоматически структурировать в файле bookmarks.htm. Поэтому текст этого оглавления был отредактирован.
Книга ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ характерна тем, что там используется предметный указатель, в котором термины представлены на двух языках.Справочник SIGNAL PROCESSING FOR MOBILE COMMUNICATIONS HANDBOOK является примером книги с оглавлением со сложной структурой.
Для того чтобы посмотреть, как выглядят оглавления и предметные указатели внедренные в упомянутые четыре книги, откройте выбранную книгу, кликните правой клавишей мыши по правому фрейму, где отображается djvu-файл, и выберите опции Layout - Outline. В результате на экране появится еще один фрейм, т.е экран будет разделен на 3 фрейма.
В словаре РУССКО-УКРАИНСКИЙ СЛОВАРЬ (в трех томах ) и в словаре American IDIOMS Dictionary Richard ,A. Spears предметные указатели сформированы с помощью утилиты Bolds_text_out_htm.
В последнее время на страницах средств массовой информации очень часто стала обсуждаться тема развития нанотехнологий. В этой связи для ознакомительных целей мы выложили справочник "HANDBOOK OF NANOTECHNOLOGY,Bharat Bhushan,ed."
Пример преобразования электронной книги в формате html (фрагмент книги показан здесь) в формат Djvu с внедрением закладок ( оглавление + предметный указатель).
Книга FUNDAMENTAL FORMULAS OF PHYSICS, Edited By Donald H. Menzel. Книга издана в двух томах. При создании копии этой книги два тома были слиты в одну книгу. Причем при объединении никакой обработки не производилось. Поэтому в копии оказалось два индекс файла. При внедрении bookmarks ( оглавления и предметного указателя ) для настройки адресации страниц пришлось использовать специальные функции программы DJVUmark - настройку адресации страниц при наличии ненумерованных страниц.
Это одна из причин, что книга выложена в качестве примера. Обратите на строку "not_numbered_pages=(154,2),(364,47),(408,2)" в файле параметров.
Числа (154,2) и (408,2), означают, что после страницы с номером 154(408) вставлены две ненумерованные страницы. В данном случае это одна страница с номером 154а ( 408а) и одна пустая страница.
Числа (364,47) означают, что после страницы с номером 364 вставлены 47 ненумерованных страниц. Следует обратить внимание на использование в оглавлении метаблоков БЛОК_Ч и БЛОК_Г для структурирования .В книге THE CAMBRIDGE HANDBOOK OF PHYSICS FORMULAS, Graham Woan использована использована книжная копия текста оглавления .
Вот еще один пример настройки адресации ( синхронизации номеров страниц в книге и ее DJVU-копии). Это ПРИЕМНИКИ ОПТИЧЕСКОГО ИЗЛУЧЕНИЯ. СПРАВОЧНИК. Аксененко М. Д., Бараночников М. Л. Djvu-файл этого справочника был найден в Сети. Автор этой копии при ее создании использовал смешанные методы сканирования книги: одна часть страниц справочника была просканирована "методом разворота", другая часть книги сканировалась "постранично". Чтобы программа DJVUmark правильно настроила адреса в файле параметров была передана информация, каким методом сканировались страницы книги.
shift_mode={(1,5,norm),(6,7,spread),(8,31,norm),(32,43,spread),(44,47,norm),(48,59,spread),(60,61,norm),(62,217,spread),(218,219,norm),(220,295,spread),(296,296,norm)}
Например, фрагмент текста (32,43,spread),(44,47,norm) означает следующее: с 32 страницы по 43 страницу сканировали разворотом, с 44 страницы по 47 страницу сканировали постранично. Другими словами, в одном случае на странице файла DJVU помещаются две страницы книги, в другом случае страницы копии и страницы книги равны.
Далее приведен пример книги ( ENCYCLOPEDIA OF ALGORITHMS, Ming-Yang Kao (Ed.)), в которой пропущено много пустых страниц. Их список приведен в строке missed_pages файла параметров. Кстати, подобные книги программа DjVu Hyperlinks Editor правильно обработать не может.
Пример многотомной энциклопедии Тh.G. Brown, et al., (Eds.), THE OPTICS ENCYCLOPEDIA: Basic Foundations and Practical Applications ( тома объединены в одну книгу ), оглавление которой содержит 3887 строк. В энциклопедии элементы оглавления расположены перед соответствующими тематическими статьями. В собранном виде в книге его нет. Обратим внимание читателя на использование (в тексте оглавления для программы DJVUmark ) разметки текста мета-блоками "БЛОК_Т" и "БЛОК_Ч" для указания программе структуры оглавления: состава томов("БЛОК_Т"), состава частей("БЛОК_Ч"), состава глав, который определяется по числам, стоящим в первых позициях строк оглавления. Советуем сейчас посмотреть, как выглядит структура, внедренного в энциклопедию оглавления. Как это сделать описано выше. Мы увидим, например, что книга состоит из 5-ти томов, что первый том состоит из 20 частей, что первая глава первой части состоит из 5-ти разделов
В книге СПРАВОЧНИК ИЗДАТЕЛЯ И АВТОРА, Мильчин А.Э., Чельцова Л.К. можно ознакомится с описанием различных подходов, использующихся при построении оглавлений и предметных указателей. Тексты оглавления и предметного указателя этой книги.
Книга ФИЗИКА ДЛЯ УГЛУБЛЕННОГО ИЗУЧЕНИЯ, 2. Электродинамика. Оптика, Е.И.Бутиков, А.С.Кондратьев - это пример демонстрирующий возможности программы DJVUmark при создании при внедрении закладок в файл DJVU. Обратите внимание на текст оглавления в этой книге. Сравните его с входным текстовым файлом для этой программы. Изменения следующие: 1) круглые скобки замены пробелам; 2) Символы " §" на комбинацию символов "{_П §" ; 3) вствлена в конце текста оглавления строка "// @". При использовании текстового редактора эти изменения можно провести примерно за 1 минуту.
Пример внедрения bookmarks, когда текст оглавлением практически не подвергался редактированию, только вставлена строка "// @", указывающая программе, где заканчивается строка оглавления, принадлежащая к последней главе. Текст оглавления.
Книга ИНСТИТУТУ АВТОМАТИКИ И ЭЛЕКТРОМЕТРИИ - 50
Выше были рассмотрены примеры чтения файлов формата Djvu. Далее приведен пример чтения файла pdf. Это книга FUNDAMENTALS OF FEMTOSECOND OPTICS.Sergey A. Kozlov, Vitaly V. Samartse
Внимание. Упомянутые выше книги выложены в сокращенной форме для целей демонстрации работы html-интерфейса и не предназначены для их скачивания.