Владимир Губайловский

WWW-ОБОЗРЕНИЕ ВЛАДИМИРА ГУБАЙЛОВСКОГО

«Новый мир» №1, 2002

“Сетература”; связанный поиск и свободный поиск;

краткий обзор поисковых систем

Спор о том, существует ли специальная сетевая литература, специальное онлайновое литературное пространство, периодически возникает и в сетевых, и в традиционных печатных изданиях. Поскольку мне предстоит говорить об Интернете в его литературном наклонении, я тоже выскажусь по этому поводу.

Является ли появление Сети и новая коммуникативная среда существования текста, в том числе и текста литературного, достаточным основанием, чтобы говорить о появлении нового типа литературы — сетературы? (Нелепое словообразование!)

Возникновение Сети не без основания сравнивают с появлением печатного станка Гутенберга. Перемены по своему значению похожие, но по результату скорее обратные. Василий Розанов считал, что с появлением печатного станка литература погибла. Произошло отчуждение писателя от читателя — между ними пролегла пропасть в виде мощной и развитой типографской технологии, и первый оказался среди производителей текста, а второй — среди потребителей.

В Сети в определенном смысле происходит возврат к догутенберговой литературе. Литературное произведение, оказавшись в сетевой среде, становится другим. Не думаю, что перемены настолько радикальны, чтобы следовало вводить новый термин для обозначения литературной практики в Сети. Но необходимо четко представить себе, что изменилось: что же такое происходит с текстом в Сети, чего ни при каких условиях вне Сети с ним произойти не может?

Если вы идете по известному адресу, например, www.lib.ru (Библиотека Мошкова), находите любимую книгу и принимаетесь ее читать, никаких перемен вы, вероятно, не почувствуете. Все так же, как в печатном тексте, только хуже. Читать большой текст с экрана не очень удобно, нужен определенный навык. Высока вероятность, что при сканировании или ручном наборе в текст было внесено довольно много опечаток. Да и выглядит россыпь страничек, если вы решите текст распечатать, куда менее красиво, чем изданная и переплетенная книга. Особенно плохо обстоит дело с постраничными примечаниями. Они либо застревают среди текста, или выносятся за текст, а это мешает. Самое неприятное — отсутствие аутентичности текста. Очень часто источник сканирования не указан, а ресурс может просто исчезнуть из Сети — сменить адрес или перестать существовать. Это делает невозможным ссылку на сетевой источник при цитировании. Впрочем, при определенной аккуратности этих недостатков в сетевом издании можно избежать. Но если даже при подготовке текста все строго выполнено (а это большая редкость в Рунете, в частности, тексты Библиотеки Мошкова чаще всего не выдерживают критики), сетевой текст в лучшем случае не хуже, чем текст печатный, а поскольку печатный — привычнее, ему, безусловно, будет отдано предпочтение.

Но это “если вы идете по известному адресу”. При работе с печатным текстом вы “знаете адрес” почти всегда. Как отыскивается источник — книга, которую вы будете читать или по крайней мере захотите в нее заглянуть? Вы идете по ссылкам. Проход по ссылкам можно назвать связанным поиском. В отличие от свободного поиска, о котором речь пойдет ниже. Самый распространенный первый шаг вашего выбора — это опора на мнение определенной референтной группы. “Да, надо заглянуть, а то вот Акунина* (Пелевина, Сорокина...) все читали”. (* Внесен Министерством юстиции РФ в реестр иностранных агентов; Внесен Росфинмониторингом в реестр террористов и экстремистов) Если автор пришелся вам по вкусу, вы берете уже уверенно его другую книгу. А если писатель еще и очень плодовит, вам может вполне хватить его творений на долгий срок.

Если ваша референтная группа настолько широка, что в ней найдутся противоположные мнения о любых авторах, вам придется выбирать, полагаясь не на мнение, а на аргументацию. Но как бы там ни было, вы всегда опираетесь на определенную априорную уверенность, будь то рекомендация определенного критика или обозревателя, журнала или газеты — или, скажем, выбранного заранее издательства или книжного магазина. Поле вашего выбора будет расширяться, но во всех случаях это проверенный выбор.

Связанный поиск, или поиск по ссылкам, реализуется в Сети так же, как и в офлайне. Существуют широко известные ресурсы, чьи адреса хранятся в списках избранного у многих пользователей. Существует множество сетевых обозрений и обозревателей, которые просматривают, рецензируют и рекомендуют новые сетевые ресурсы. Только в Сети этот поиск и быстрее, и проще. Идя по ссылкам, вы либо находите нужный текст, либо приходите в онлайновый магазин и заказываете нужную книгу — по почте или курьером. Это очень удобно и, конечно, экономит время и силы. Правда, не деньги. Здесь подороже, притом существенно.

Но в Сети есть и другой поиск — практически нереализуемый в пространстве печатной литературы. Я бы назвал его — свободным, или контекстным. В принципе, можно прийти в Ленинку (если она вдруг заработает) и погрузиться на несколько часов в систематический или алфавитный каталог с целью найти все статьи, в которых упоминается, скажем, Борис Пастернак. Это очень тяжелое и совершенно неэффективное времяпрепровождение. Никто так не делает, конечно. Берется солидное монографическое издание и совершается последовательный просмотр по приложенной к нему библиографии. Потом — просмотр библиографий в найденных изданиях и т. д., пока хватит терпения или пока не обнаружится нужный материал. То есть реализуется связанный, или ссылочный, поиск.

В Сети вы входите в любимую поисковую систему, например, в Яndex (www.yandex.ru), и набираете в поисковой строке: “+Борис+Пастернак”. И дальше разбираетесь с теми ссылками, которые просыплются на голову. Это наблюдение, очевидное для любого пользователя Сети, подводит нас к определенным выводам об отличиях существования текста в Интернете от его же печатного близнеца.

Для того чтобы свободный поиск стал возможен, необходимо совершенно другое устройство сетевого пространства, чем пространства офлайн. Офлайновое пространство не является реально односвязанным — оно не едино. То есть, отталкиваясь от той же библиографии Пастернака, вы почти наверняка не сможете прийти по ссылкам, например, к описанию логики истины фон Вригта. И даже если такая последовательность ссылок существует, найти ее за обозримое время скорее всего не удастся. (Интересно, что теперь, после того как написана эта фраза с двумя фамилиями, — как раз удастся, а в Сети даже наверняка.) Информационное пространство вне Сети подразумевает априорное наличие классификаций и специализаций, которые определяются принадлежностью знания к той или иной области.

В Сети ситуация кардинально меняется. Весь объем информации укладывается в некоторый общий вид, например, в структуру — html (hyper text mackup language — язык гипертекстовой разметки), и становится доступен для тотального поиска — безо всякого различия и разграничения. Сеть — это первый и единственный на сегодняшний день информационный объект, в котором принципиально возможен свободный поиск по всему объему информации, накопленному человечеством на сегодняшний день, час, минуту... Нужно сразу оговориться, что глобальный поиск возможен только в принципе. На деле это не совсем так. Существует очень много ресурсов, которые закрыты для поисковых систем. Оценить их количество трудно, но по разным оценкам это от 30 до 70 процентов всей информации, размещенной в Сети. Это ресурсы, закрытые парольным входом, — конфиденциальные — или ресурсы, динамически порождаемые сервером на основании внешнего интерактивного запроса. Но даже при этих неизбежных ограничениях свободный поиск очень эффективен. Правда, надо уметь им пользоваться. Под логотипом Яndex написано: “Найдется все”. А если в результате поиска не найдено ни одного ресурса, надпись меняется: “Найдется все. Со временем”.

Теперь я подошел к тому, чтобы сформулировать основное утверждение этих заметок: главное отличие литературного произведения в Сети от печатной литературы заключается в том, что его читают не только люди. Его читают и даже по мере сил и интеллекта рецензируют роботы поисковых систем.

Это возможно в силу единства сетевого пространства и стандартного представления информации в нем и приводит к тому, что поисковые системы образуют замыкание Сети и делают его односвязанным.

Поисковый робот — программа, которая непрерывно, двадцать четыре часа в сутки, семь дней в неделю, читает одну за другой выставленные в Сети страницы и строит по ним поисковые индексы. От того, как работает эта программа, от того, как использует построенные индексы поисковый портал, зависит в конечном счете, насколько доступной окажется та или иная страница. Подробности работы любой конкретной поисковой системы, будь то Яndex или Google (www.google.com), практически никогда не афишируются авторами. Но многие принципы индексирования и поиска лежат на поверхности, и о них можно сказать.

Все тексты в Сети проиндексированы в разной степени: одни подробно и тщательно — можно зарегистрировать ресурс в поисковой системе и тем обратить на него ее внимание, другие — проигнорированы поисковыми системами вовсе (в частности, при формировании страницы можно “попросить” робот не индексировать ваш ресурс) и потому недоступны при свободном поиске.

В первую очередь индексируются и наиболее легко находятся при поиске синтаксически выделенные конструкции языка. И здесь нужно иметь в виду, что в Сети текст пишется и представляется не на естественном языке — русском или английском, а на языке разметки документа — html или dhtml. И конечно, более понятны поисковой программе именно синтаксические конструкции этих языков. То есть она регистрирует титулы, ключевые слова, заголовки всех уровней, ссылки, начала абзацев и другие элементы формальной структуры и обязательно также имена собственные.

Поставим простой эксперимент. Попытаемся отыскать, используя Яndex, “Анну Каренину” Льва Толстого. Сначала для поиска используем первую фразу романа: “Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему”. Количество найденных адресов будет очень велико, и не все они будут указывать на роман. Некоторые — на собрания афоризмов. Я задам более жесткое требование и буду искать в найденном эпиграф к роману: “Мне отмщение, и Аз воздам”. В результате отбора поисковая система выдаст одиннадцать адресов, из которых десять действительно будут указывать на текст романа Толстого.

Теперь я изменю условия и буду искать фразу из главы 17-й: “Это такая честная, правдивая натура, и сердце золотое”. Результатом (точным, а другие нас не устраивают, фраза заведомо звучит так) будут четыре ссылки, из которых только две укажут толстовский текст — www.klassika.ru и orel.rsl.ru/nettext/russian/tolstoy_lev/annak1.htm, — и оба эти адреса уже вошли в список, который мы получили в предыдущем эксперименте. (Если вы повторите мой эксперимент, результат может быть совсем другим. Сеть меняется каждый день, не говоря о нескольких месяцах. Написано 2.10.2001.)

О чем это говорит? Ведь вторая цитата заведомо присутствует в найденных нами в первом эксперименте текстах. Но она — не проиндексирована. То есть поисковая система (в нашем случае Яndex) не связывает ее с адресами, указывающими на текст “Анны Карениной”. Потому, в частности, что вторая цитата взята из середины абзаца и не содержит никаких синтаксических конструкций формального языка и собственных имен. Один и тот же по внешнему виду текст может быть в Сети более или менее активен. Он получает возможность, используя поисковые системы, продвигать себя навстречу читателю, облегчая ему поиск и становясь более актуальным сам. Текст, постоянно читаемый и перечитываемый поисковыми системами, не лежит в Сети — он движется, меняется, и происходит это, можно сказать, без участия реального читателя.

Когда писатель пишет и публикует текст, он хочет донести до читателя свою весть — message, как сегодня принято говорить. Чтобы это произошло, текст должен быть, во-первых, доступен, во-вторых, прочитан. Текст должны найти те, кто его ищет, может быть, даже не подозревая о его существовании.

Автор текста в Сети должен четко представить себе те запросы, которые будут адресованы поисковым системам и на которые именно его текст отвечает максимально полно. То есть если его ресурс попадет в отбор, то релевантность ресурса по оценке поисковой программы — другими словами, наиболее полное соответствие запросу — должна быть высокой. Релевантность можно представить себе как способ сортировки найденных по запросу документов. Чем больше документ соответствует запросу, тем выше в списке ответов он должен находиться, тем выше его значимость. Для достижения этого результата могут учитываться следующие параметры: количество найденных слов, “контрастность” слова (его относительную частоту для данного документа), расстояние между словами, положение слова в документе и в зонах документа. Релевантность документа может определяться количеством указывающих на него ссылок и весом этих ссылок — чем солиднее ссылающийся ресурс, тем больше вес. Но этим показателем оперировать крайне трудно. Если вы получите несколько сот или тысяч адресов, то вряд ли вам придется изучать все из них: первые десять — двадцать, вероятно, содержат требуемую информацию.

Очень важную роль играет сетевое имя автора. Оно может стать надежным указателем, а может ввести в заблуждение и сбить с толку. Скажем, “Сергей Гандлевский” — хорошее сетевое имя. С очень высокой степенью вероятности при использовании его для поиска найденные документы окажутся связанными с известным поэтом и не будет почти никаких посторонних ссылок. А вот “Юрий Кузнецов” — крайне неудачное сетевое имя. В тех тысячах адресов, которые выдаст любая русская поисковая система, найти автора “Атомной сказки” и других замечательных стихов почти невозможно. То обстоятельство, что сетевое имя крайне существенно для надежного доступа и опознания, заставляет многих авторов брать сетевые псевдонимы.

Это же можно сказать и о выборе названия для изданий, представленных в Сети. “Кольцо А” — это внешнее кольцо Сатурна, которое существует и сегодня и будет существовать всегда. “Кольцо А” — трамвайное кольцо по московским бульварам, где проходил маршрут “Аннушки”, не существует уже давным-давно, лет, наверное, пятьдесят. Называя литературный альманах “Кольцо „А””, необходимо было иметь в виду астрономическую коннотацию. А то получается невероятная путаница. Хотели напомнить стук трамвая по старой Москве, а получилось указание на огромные пространства и массы космоса. В печатном мире все было корректно, а в Сети все склеилось.

Текст, перенесенный с бумаги в Сеть, меняется. Но из этого еще не становится произведением сетевой литературы. Сетевая литература — это та, что активно использует новые условия представления текста. Можно отвергать текст только за то, что он выставлен в Сети, а можно использовать те возможности, которые предоставляет Интернет при создании текста, — в частности, единство информационного пространства и наличие глобальных поисковых систем. Только тогда, когда текстом используется Сеть и вне Сети текст не существует, нельзя его распечатать без потерь, как нельзя записать стихи без разбивки на строки, — тогда только текст можно отнести к сетевой литературе.

На сегодняшний день наиболее активно используют сетевое представление разного рода литературные обзоры и рецензии. Это — короткие тексты с большим количеством ссылок и имен. Что будет дальше, сказать сегодня трудно, но то, что литература активно продвигается в Сеть, несомненно, и, думаю, мы еще станем свидетелями неожиданных находок и открытий.

А теперь — краткий обзор поисковых систем.

Главная заповедь при поиске в Сети: любая поисковая система видит только часть Интернета, чтобы провести полноценный поиск, необходимо использовать несколько разных. Лишь в этом случае результат поиска можно считать удовлетворительным.

Поисковые системы:

Яndex (www.yandex.ru) русскоязычная,

Rambler (www.rambler.ru) русскоязычная,

Aport (www.aport.ru) русскоязычная,

Alltheweb (www.alltheweb.com) англо- и русскоязычная,

Google (www.google.com) англо- и русскоязычная,

AltaVista (www.altavista.com) англоязычная,

HotBot (www.hotbot.com) англоязычная,

Northern Lite (www.nlsearch.com) англоязычная,

Yahoo! (www.yahoo.com) англоязычный поисковый каталог,

Go (www.go.com) англоязычная,

Excite (www.excite.com) англоязычная.

Метапоисковые системы

Это системы, не имеющие собственной базы данных, но размещающие запросы в различных поисковых системах и анализирующие полученные ссылки:

1. All-in-One Search Page (www.albany.net/allinone),

2. CUSI (web.nexor.co.uk/public/cusi/doc/list.html),

3. Fun City Web Search (www.funcity.com/search.html),

4. MetaCrawler (www.go2net.com/search.html).

При составлении списка использовалась информация:

nfau.ukrfa.kharkov.ua/pankratova/html/index.htm. “Поиск информации в Интернете”. Авторы: В. П. Черных, В. С. Власов, Я. И. Панкратова,

searchengine.narod.ru/index.htm. “Интернет-маркетинг. Стратегия и тактика работы с поисковыми системами”. Автор Евгений Подбельский. Ресурс, посвященный поиску в Сети со списком аннотированных ссылок на поисковые системы.

В заключение хочу сказать, что поиск в Сети — это едва ли не самая популярная тема, и ресурсов, посвященных поиску и описанию поисковых систем, очень много.

ОБ АВТОРЕ

Губайловский Владимир Алексеевич — поэт, прозаик, эссеист. Родился в 1960 году. Окончил мехмат МГУ им. М. В. Ломоносова. Живет в Москве.

12002

Опубликовано в Журнале №1

Содержание