Об одном подходе к созданию электронных библиотекВведение.В настоящее время, по-видимому, каждый пользователь на своем
компьютере имеет подборку электронных книг,
которая с течением времени все увеличивается и становится все менее
обозримой. Это может быть художественная литература и/или
научно-техническая литература, помогающая решать бытовые или
профессиональные потребности.
Еще несколько примеров, подчеркивающих важность просмотра оглавления книги и ее
предметного указателя. В известных нам электронных библиотеках в большинстве
случаев поиск ограничивается титульной
информацией книги: автор(ы), название книги,
издательство, год издания. В лучшем случае, к титульной информации
еще добавляется небольшой список ключевых
слов ( к сожалению, часто достаточно общего
характера), отражающих содержание книги. Оказывается это можно сделать, если
воспользоваться htm-интерфейсом,
который создается программой DJVUmark. Основу
этого интерфейса составляют тексты оглавления и предметного
указателя, представленные в файлах формата
htm, в которых номера страниц в рубриках оглавления и номера страниц
в предметном указателе, указывающих на место расположения данного
терма(понятия) Сейчас DJVUmark htm-интерфейс создает для электронных книг в формате djvu и pdf . Файлы htm-интерфейса помещаются в отдельную папку, одноименную с именем соответствующего файла электронной книги. Первоначально интерфейс создавался только для файлов формата djvu, когда для этих файлов не было вьюверов и инструментов для внедрения закладок. Интерфейс создавался как средство навигации по файлу djvu, используя оглавление и предметный указатель, включая кумулятивные предметные указатели для многотомных файлов типа энциклопедий. Недавно, когда начали использовать этот интерфейс при создании библиотеки, в программе DJVUmark. была добавлена функция создания такого интерфейса и для файлов формата pdf для режима OFF-Line.. При внедрении закладок в файлы
djvu возникает задача синхронизации номеров страниц в
файле djvu с номерами страниц, напечатанными в книге. Для этих целей
в DJVUmark используется htm-интерфейс.
Очевидно, удобство работы с книгой во многом определяется
возможностью хорошей навигации по этой книге.
Поэтому в DJVUmark
текст закладок кроме текста оглавления содержит и текст предметного
указателя. При наличии к электронной книге ( формата djvu или pdf ) htm-интерфейса для работы с ней можно использовать два инструмента: соответствующие вьюверы или плагины интернет эксплорера. Когда к электронной книге обращаются непосредственно, можно использовать вьювер (WinDjView или Acrobat Reader) , при обращении к книге через гиперссылку в файле htm всегда используется плагин интернет эксплорера. На иллюстрации, представленной ниже, слева показан скриншот обращения к файлу djvu с помощью WinDjView, справа показано обращение к этому же файлу через htm-интерфейс. Путем "клика" изображение можно увеличить. Ниже изображен скриншот обращения к htm-интерфейсу к файлу pdf .
Покажем пример поиска "three-dimensional spectrum" в электронной библиотеке по оптике с использованием Total Commander
Этот контекст найден в двух книгах.
Первый файл - второй том справочника Totzeck Michael
, Gross Herbert, HANDBOOK OF OPTICAL SYSTEMS :
Physical_Image_Formation, Открываем первый результат.
Кликаем по гиперссылке 19. Получаем:
Второй результат поиска. Найден контекст в предметном указателе:
Переходим по гиперссылке 170 и открываем
Открываем закладки этого файла и определяем, к какой книге принадлежит данная страница.
Этот
пример демонстрирует то, что htm-интерфейс является своеобразным контейнером
ключевых слов, описывающих содержание книги.
Более того, наличие гиперссылок позволяет не только
определить книгу, где расположено ключевое слово, но сразу
открыть нужную страницу в этой книге. Чтобы из коллекции пар электронная книга + htm-интерфейс к книге создать настоящую библиотеку необходимо создать каталог книг библиотеки. Создание каталога библиотеки
Выбор этой программы в качестве вьювера файлов djvu не случаен. Пока только эта программа обрабатывает команды перехода к чтению файлов в режиме OFF-Line. Для этого в файле закладок bookmarks.htm должны быть теги типа
Конечно, переменная path должна описывать относительный путь для обеспечения переносимости библиотеки. В качестве extension могут выступать расширения тех файлов, для которых на данном компьютере имеются программы чтения. Это позволяет при работе с библиотекой подключать специальные программы поиска и другие вспомогательные инструменты для работы с электронной библиотекой, открывать электронные книги любых форматов, для которых в операционной системе. имеются соответствующие вьюверы. Для определенности назовем создаваемый файл каталог Catalog_Library. Файл Catalog_Library.djvu
должен иметь не менее двух страниц, чтобы можно было записать файл
закладок любой длины. Что записано на этих двух страницах для работы
каталога безразлично. Это может быть описание каталога библиотеки
или руководство по навигации к данной библиотеке или, наконец, сам
структурированный список ( bookmarks.htm ) книг в формате djvu.
Синтаксис строки
исходного текста закладок для DJVUmark примерно следующий : Скобки
открытия структуры "{_Т", "{_Ч", "{_С", "{_Г", "{_П"
являются эквивалентами ключевых слов (том, часть, секция, глава,
параграф), которые обычно мы встречаем в оглавлениях книг. Итак, мы создали каталог, его структуру представили тегами языка HTML ( файл bookmarks.htm) , как это требуют программы EmbedBookmarks-1 и BookmarkTool-2.0. С помощью любой из этих программ теперь можно внедрить bookmarks.htm в качестве закладок в файл Catalog_Library.djvu. Не будем останавливаться на подробностях формирования каталога, а дадим ссылки на файл исходного текста каталога для программы DJVUmark и на файл bookmarks.htm. Очевидно, что здесь остается не решенной одна существенная проблема проблем - это отсутствие механизма поиска по каталогу библиотеки. Программа WinDjView не имеет функции поиска в закладках книги. Возможно, когда библиотека не большая, то при наличии хорошо структурированного каталога без поиска можно обойтись. Но когда библиотека содержит тысячи книг ... Одним из методов решения этой задачи является преобразование файла bookmarks.htm. в djvu формат и затем использования стандартного механизма поиска WinDjView. Для этого
файл bookmarks.htm ( это файл желательно( необязательно !)
подредактировать : убрать алфавитный авторский указатель, здесь он
лишний, улучшить читабельность файла путем редактирования заглавий и
т.п. ) помещаем в папку( например, G:/Optics), где расположены файлы
библиотеки и с помощью Adobe Acrobat, преобразуем этот файл в pdf
формат, т.е. получаем файл bookmarks.pdf. Теперь файл bookmarks.pdf с помощью соответствующей программы типа редактора ( Виртуальный принтер для этих целей не годится !) преобразуем в формат djvu. Сформированный таким образом файл, назовём его Search book.djvu, помещаем в папку с файлами библиотеки. Далее можно поступим двояким способом. 1) В каталог библиотеки ввести строку " Поиск книг по их титульной информации в каталоге библиотеки, href='Search book.djvu' ". Путем клика по этой строке будет открываться файл Search book.djvu и затем можно использовать стандартный поиск вьювера по файлу Search book.djvu: Поскольку найденная строка является гиперссылкой, то далее, совершая переход по этой ссылке, открываем найденную книгу. 2) Файл Search book.djvu добавить к файлу Catalog_Library.djvu или в файл Search book.djvu внедрить файл bookmarks.htm и использовать этот файл как файл Catalog_Library.djvu. В последнем случае это означает, что изначально в качестве файла каталога библиотеки можно временно использовать копию любого файла djvu. Несколько слов о поиске информации по оглавлениям и предметным указателям книг всей библиотеки. Выше был приведен пример поиска с помощью программы Total Commander. Конечно, лучше использовать специальные программы поиска, например, Search and Replace for Windows. Здесь надо сделать замечание в связи использованием htm-интерфейса создаваемого программой DJVUmark. В файлах html-интерфейса, созданного программой DJVUmark, пробел представлен следующим набором из 6-ти символов . Поэтому перед помещением папок с html-интерфейсом в библиотеку желательно набор символов заменить на обычный пробел " ". Это легко можно сделать с помощью программы Search and Replace for Windows или текстового редактора файлов.. Это надо сделать для надежности поиска. Системы поиска в интернет броузерах такой управляющий набор символов понимают как пробел, но нет гарантии что другие программы поиска распознают правильно этот набор символов. Например, функция поиска в Тоtal Commander набор символов при поиске в файлах типа htm(l) не распознает как пробел. А как быть, когда имеются электронные книги ( формат djvu или pdf ) с внедренными оглавлениями и предметными указателями, а упомянутых выше папок с html-интерфейсом нет ( закладки были созданы другой программой ) ?! Здесь можно предложить несколько вариантов выхода из этой ситуации. В случае djvu файла экспортировать закладки программой BookmarkTool-2.0 . Затем положить этот файл формата html в папку вместе с книгами, или использовать текст этого файла как исходный текст для программы DJVUmark, чтобы сгенерировать затем htm-интерфейс. В случае файла pdf воспользоваться программой jpdfbookmarks-2.5.1(она в свободном доступе) для экспорта закладок. Так как экспортируемый файл получается формата .txt, то его можно также использовать как исходный текст для программы DJVUmark. Другой вариант, этот текст программой Microsoft Office FrontPage преобразовать в файл htm , добавив при этом в этот файл гиперссылку на файл книги. Подобным же образом надо поступать и в случае электронных книг в других форматах, например, chm, pdb. К сожалению, при отсутствии htm-интерфейса место найденного найденного контекста определяется с точностью до названия файла книги, поиск самой книги надо вести через каталог библиотеки и открывать его в нужном месте, используя информацию из строки отчета программы поиска. Два слова о возврате к
каталогу после чтения книги.
Описанный выше подход к организации электронной библиотеки был
практически опробован при создании трех электронных библиотек,
которые были размещены сетевом диске Института . Вот файлы их
каталогов: библиотека
COMPUTER_VISION+IMAGE_PROCESSING+PATTERN_RECOGNITION(
текстовый файл закладок) и библиотека OPTICS (
текстовый файл закладок ) Файлы Catalog_Library.djvu для
просмотра на сервере не доступны, их надо скачать и смотреть
программой WinDjView. Адрес для скачивания
images. Еще одно замечание по поводу создания электронной
библиотек
|