Технологические аспекты создания специализированного биохимического интернет-ресурса

ABSTRACT

There were considered main technological tasks for specialized biochemical Internet-resource field creating as follows: WWW server development, database access principles and its hardware and software implementation. Besides, three variants of database access principles were offered with detailed tasks specifying while hardware and software implementation. The current changes in tendency for Internet usage were also mentioned along with the expediency for structured services and functions list creating.

ТЕЗИСЫ.

Рассмотрены основные технологические задачи по созданию специализированного биохимического интернет-ресурса: разработка WWW сервера, организация доступа к базам данных и аппаратная реализация. Показаны три варианта организации доступа к БД, конкретизированы задачи при аппаратной реализации. Отмечены изменение тенденций использования Интернета, целесообразность создания структурированного списка сервисов и функций.

Проект по созданию специализированного биохимического интернет-ресурса (рассматриваемые в данной публикации положения полностью применимы к биоинформатике) имеет два аспекта: научный и технологический. Под технологическим аспектом понимается возможность реализации проекта с использованием компьютерных и информационных технологий.

Сначала немного статистики. В интернете в настоящее время насчитывается свыше 1 млрд. уникальных документов.

Общее количество серверов в интернет составляет около 6,5 миллионов. В прошлом году их было около 5-и миллионов. Самые развивающиеся направления в использовании вычислительной техники — это телекоммуникации, WWW, информационный сервис. К этой же группе относятся химия, фармацевтика.

Чуть больше 60% серверов построено на Apache, в то время как четверть работает на Microsoft, и 3,79% — на Netscape-Enterprise. Пятнадцать других типов серверов делят оставшийся рынок.

Перед тем как перейти к обсуждению некоторых технологических аспектов создания специализированного биохимического интернет ресурса, уточним основные понятия.

Прежде всего необходимо понимать, что Web-сервер — это программа, которая работает на компьютере. Как и любая серверная программа, Web-сервер ждет обращений к себе или запросов. Как только кто-то обращается с запросом, сервер моментально должен понять, "что от него хотят", и выполнить требуемый запрос. Чаще всего от Web-сервера "хотят" файл, который надо отправить пользователю.

Компьютер, на котором работает программа Web-сервер, также называется Web-сервером или WWW-сервером. Слова Web-сервер и WWW-сервер являются синонимами, используется таже термин — сайт или веб-сайт.

Время от момента получения запроса до времени начала реакции называется временем реакции Web-сервера. Конечно же, у хорошего Web-сервера это время должно быть 1,5 — 2 секунды, после 10 — 15 секунд пользователь начинает ощущать дискомфорт, а если время ожидания около минуты, то на такой сервер обращаться не будут. Эти цифры очень важные, т.к. пользователь обычно не обращает внимание на объем загружаемого файла.

В технологиях WWW все ключевые понятия просматриваемого документа: текст, графика — имеют возможность "раскрыться" новым документом, развивающим это понятие. Такой способ представления информации называется гипертекстом, а документы, представленные в таком виде — гипертекстовыми документами. Передаваемые гипертекстовые документы оформляются в стандарте HTML — языке описания гипертекстовых документов. Эти документы могут либо храниться в статическом виде (совокупность файлов на диске), либо динамически компоноваться в зависимости от параметров запроса специальным программным обеспечением. Для динамической компоновки HTML-документов, WWW-сервер использует специальным образом оформленные программы.

При обеспечении WWW-доступа к существующим БД, возможен ряд путей — комплексов технологических и организационных решений. Практика использования WWW-технологии для доступа к существующим БД предоставляет широкий спектр технологических решений, по разному связанных между собой — перекрывающих, взаимодействующих и т.д. Выбор конкретных решений при обеспечении доступа зависит от специфики конкретной СУБД, существование других СУБД, WWW-доступ к которым должен осуществляться с минимальными дополнительными затратами и т.д.

WWW-доступ к существующим базам данных может осуществляться по одному из трех основных сценариев.

  • Однократное или периодическое преобразование содержимого БД в статические документы. В этом варианте содержимое БД просматривает специальная программа, создающая множество файлов — связных HTML-документов. Полученные файлы могут быть перенесены на один или несколько WWW-серверов. Доступ к ним будет осуществляться как к статическим гипертекстовым документам сервера. Этот вариант характеризуется минимальными начальными расходами. Он эффективен на небольших массивах данных простой структуры и редким обновлением.
  • Динамическое создание гипертекстовых документов на основе содержимого БД. В этом варианте доступ к БД осуществляется специальной программой, запускаемой WWW-сервером в ответ на запрос WWW-клиента. Эта программа, обрабатывая запрос, просматривает содержимое БД и создает выходной HTML-документ, возвращаемый клиенту. Это решение эффективно для больших баз данных со сложной структурой и при необходимости поддержки операций поиска. К недостаткам этого метода можно отнести большое время обработки запросов, необходимость постоянного доступа к основной базе данных, дополнительную загрузку средств поддержки БД, связанную с обработкой запросов от WWW-сервера.
  • Создание информационного хранилища на основе высокопроизводительной СУБД с языком запросов SQL. (Периодическая загрузка данных в хранилище из основных СУБД.) В этом варианте предлагается использование технологии, получившей название информационного хранилища. Для обработки разнообразных запросов, в том числе и от WWW-сервера, используется промежуточная БД высокой производительности. Данный вариант лишен всех недостатков предыдущей схемы. Более того, после установления синхронизации данных информационного хранилища с основными БД возможен перенос пользовательских интерфейсов на информационное хранилище, что существенно повысит надежность и производительность, позволит организовать распределенные рабочие места.

При реализации данного варианта встает вопрос о выборе качественной платформы для создания информационного хранилища. При этом учитывается производительность, надежность хранения данных, развитые семейства интерфейсов, объем серверных платформ и т.д. Среди наиболее известных СУБД Oracle, Informix, Sybase.

Для загрузки содержимого основной БД в информационное хранилище могут использоваться все перечисленные решения (языки программирования, интегрированные средства), а также специализированные средства перегрузки, поставляемые с SQL-сервером и продукты поддержки информационных хранилищ.

При аппаратной реализации проекта необходимо решить следующие основные задачи.

  • Первая задача — это выбор канала. Для нормально работающего сервера необходимо иметь достаточно мощный или высокоскоростной канал в Интернет. В настоящее время можно использовать канал емкостью 64 Kbit/s. Каналы меньшей емкости использовать можно, но тогда те, кто будут пытаться смотреть этот WWW, будут чаще томиться в ожидании, чем читать и смотреть, интересующую их информацию. Альтернативный путь: размещение сервера на компьютере Интернет-сервис провайдера. Сервис-провайдер имеет каналы в Интернет достаточной емкости для того, чтобы обеспечить быструю работу, как правило это 2 Мbit/s.
  • Вторая задача — это выбор платформы, на которой будет работать WWW-сервер. Первая — это Unix, а вторая — Windows. В начале мы уже говорили, что на долю Windows приходится четьверть всех серверов, т.е. базовой платформой для WWW сервера является UNIX. Конечно, основным вопросом при выборе платформы является устойчивость работы сервера (под этим понимается как часто будут сбои и остановки) и защита от несанкционированного доступа, которая, вообще говоря, является отдельной задачей.
  • Третья задача — выбор системы хранения информации, определение программно-аппаратных платформ для хранения, архивирования и резервирования информации.
  • Четвертая задача — обеспечение защиты и безопасности информации, которая лежит на сервере. Это отдельная дорогостоящая задача, которая сегодня решается на основе специализированных аппаратно-программных решений.
  • Пятая задача — доступ пользователей. В эту задачу входит выбор коммутационного оборудования: маршрутизаторов, коммутаторов, концентраторов и т.д., а также решение административных задач: установление приоритетов для пользователей, разграничение доступа и пр.
  • Шестая задача — организация сервисов: поисковые механизмы, электронная почта, служба поддержки и обновления информации и т.д.
  • Седьмая задача — обеспечение устойчивости и надежности, создание дополнительных компонент и программ, необходимых для быстрого восстановления работоспособности, например дополнительная функция удаленного отключения питания, чтобы иметь возможность перезагрузить компьютер в случае так называемого "зависания".

Создавая специализированный биохимический интернет-ресурс, нельзя не учитывать современных тенденций развития интернета, т.к. информационные технологии и компьютер — это, во-первых, инструмент для научно-исследовательской работы, во-вторых, источник информации и наконец, средство коммуникаций.

Опять немного статистики. Какие самые популярные поисковые серверы для отечественных пользователей? На 1-м месте Rambler (http://www.rambler.ru), на 2-м Яndex (http://www.yandex.ru), на 3-м Апорт (http://www.aport.ru). Из глобальных поисковых машин это Yahoo (http://www.yahoo.com), Altavista (http://www.altavista.com), Lycos (http://www.lycos.com). Эти сервера принято называть порталами, т.е. сайтами, где вся информация о файлах собрана в одном месте. По-существу, портал — это очень мощный интернет ресурс, через который очень легко можно отыскать требуемую информацию по всему интернету. Сразу хочется обратить внимание на то, как выглядят эти сервера и как там представлена информация.

Популярность этих сайтов огромна, но появилась одна любопытная тенденция. Как ни странно, но электронная почта стала главной причиной, по которой люди в выходят в Интернет, оттеснив с позиций поиск информации. Отчет "1999 Consumer Technology", выполненный PriceWaterhouseCoopers, показывает, что 48% опрошенных пользователей ответили, что они выходят в Сеть, чтобы получить свою электронную почту, и 28% сказали, что идут в Сеть в поисках информации. В прошлом году эти цифры были в точности наоборот.

Данные по числу пользователей электронной почты
1 кв. 98 г. 1 кв. 99 г.
Россия, тыс.чел. 1,071 1,975
Москва, тыс.чел. 310 427

Отправка и получение сообщений через e-mail стала одним из приоритетных сервисов в интернет.

Таким образом, нецелесообразно ограничиваться только созданием специализированной базы данных с выходом в интернет, но необходимо продумать схему сервисов и функций, в которые включены не только электронная почта, но и электронные конференции и доски объявлений, поисковые машины (порталы), электронные библиотеки, библиотеки программ. Кроме этого, есть целый ряд задач, котрый включает в себя публикации на CD и DVD и т.д. Необходимо также учесть коммерческий аспект задачи с развитой системой электронных платежей за информацию. Создание специализированного биохимического интернет-ресурса является комплексной задачей, которая требует соответсвующего подхода.