Что такое поисковая машина или как работает поисковик. Поиск информации в интернет

Поисковые машины (Search engine)

Поисковые машины позволяют найти WWW-документы, относящиеся к заданным тематикам или снабженные ключевыми словами или их комбинациями. На поисковых серверах отрабатываются два способа поиска:

· По иерархии понятий;

· По ключевым словам.

Заполнение поисковых серверов происходит автоматически или вручную. Поисковый сервер обычно имеет ссылки на остальные поисковые сервера, и передает им запрос на поиск по желанию пользователя.

Существует два типа поисковых машин.

1."Полнотекстовые" поисковые машины, которые индексируют каждое слово на веб-странице, исключая стоп-слова.

2."Абстрактные" поисковые машины, которые создают реферат каждой страницы.

Для вебмастеров полнотекстовые машины полезней, поскольку любое слово, встречающееся на веб-странице, подвергается анализу при определении его релевантности к запросам пользователей. Однако абстрактные машины могут индексировать страницы лучше полнотекстовых. Это зависит от алгоритма извлечения информации, например по частоте употребления одинаковых слов.

Основные характеристики поисковых машин.

1.Размер поисковой машины определяется количеством проиндексированных страниц. Однако в каждый момент времени ссылки, выдаваемые в ответ на запросы пользователей, могут быть различной давности. Причины, по которым это происходит:

· некоторые поисковые машины сразу индексируют страницу по запросу пользователя, а затем продолжают индексировать еще не проиндексированные страницы.

· другие чаще индексируют наиболее популярные страницы сети.

2.Дата индексации. Некоторые поисковые машины показывают дату, когда был проиндексирован документ. Это помогает пользователю определить, когда документ появился в сети.

3.Глубина индексирования показывает сколько страниц после указанной будет индексировать поисковая система. Большинство машин не имеют ограничений по глубине индексирования. Причины, по которым могут быть проиндексированы не все страницы:

· не правильное использование фреймовых структур.

· использование карты сайта без дублирования обычными ссылками

4.Работа с фреймами. Если поисковый робот не умеет работать с фреймовыми структурами, то многие структуры с фреймами будут упущены при индексировании.

5.Частота ссылок. Основные поисковые машины могут определить популярность документа по тому, как часто на него ссылаются. Некоторые машины на основании таких данных "делают вывод" стоит или не стоит индексировать документ.

6.Частота обновления сервера. Если сервер обновляется часто, то поисковая машина чаще будет его реиндексировать.

7.Контроль индексации. Показывает, какими средствами можно управлять поисковой машиной.

8.Перенаправление. Некоторые сайты перенаправляют посетителей с одного сервера на другой, и этот параметр показывает как это будет связано с найденными документами.

9.Стоп-слова. Некоторые поисковые машины не включают определенные слова в свои индексы или могут не включать эти слова в запросы пользователей. Такими словами обычно считаются предлоги или часто использующиеся слова.

10.Spam-штрафы. Возможность блокирования спама.

11.Удаление старых данных. Параметр, определяющий действия вебмастера при закрытии сервера или перемещении его на другой адрес.

Примеры поисковых машин.

1. Altavista. Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo. AltaVista - это наилучший вариант для настраиваемого поис­ка. Однако сортировка результатов по категори­ ям не выполняется и приходится вручную просматривать предоставленную информацию. В AltaVista не предусмотрены средства для получения списков активных узлов, новостей или других возможностей поиска по содержанию.

2.Excite Search. Запущена в конце 1995 года. В сентябре 1996 - приобретена WebCrawler. Данный узел имеет мощный поисковый меха­ низм, возможность автоматической индивидуальной настройки предоставляемой информации, а также составленные квалифици­ рованным персоналом описания множества узлов. Excite отличается от других поисковых узлов тем, что позволяет вести поиск в службах новостей и публикует обзоры Web -страниц. В поисковом механизме используются средства стандартного поиска по ключевым словам и эвристические методы поиска по содержанию. Благодаря такому сочетанию, можно найти подходящие по смыслу страницы Web , если они не содержат указанных пользователем ключе­ вых слов. Недостатком Excite является несколько хаотичный интерфейс.

3.HotBot. Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой машины Berkeley Inktomi. HotBot - это база данных, содержащая документы, индексированные по полному тексту, и один из наиболее полных поисковых механизмов в Web . Его средства поиска по логическим ус­ловиям и средства ограничения поиска любой областью или узлом Web по­могают пользователю найти необходимую информацию, отсеи­вая ненужную. HotBot предоставляет возможность выбрать необходимые параметры поиска из раскрываю­щихся списков.

4.InfoSeek. Запущена раньше 1995 года, легко доступна. В настоящее время содержит порядка 50 миллионов URL. У Infoseek хорошо продуманный интерфейс, а так­же отличные поисковые средства. Большинство ответов на запросы сопровождается ссылками «связанные темы», а после каждого ответа приводятся ссылки «аналогич­ные страницы». База данных поискового механизма страниц, индексированных по полному тексту. Ответы упорядочи­ваются по двум показателям: частоте встреч слово или фраз на страни­цах, а также метоположению слов или фраз на страницах. Существует каталог Web Directory , подразделяющийся на 12 категорий с сот­нями подкатегорий, для которых может быть выполнен поиск. Каждая страница каталога содержит перечень ре­комендуемых узлов.

5. Lycos. Работает с мая 1994 года. Широко известна и используема. В состав входит каталог с огромным числом URL . и поисковая машина Point с технологией статистического анализа содержимого страниц, в отличии от индексирования по полно­му тексту. Lycos содержит новости, обзоры узлов, ссылки на популярные узлы, карты городов, а так­же средства для поиска адресов, изо­бражений и звуковых и видео клипов. Lycos упорядочивает ответы по степени соот­ ветствия запросу по нескольким критериям, например, по чис­ лу поисковых терминов, встретившихся в аннотации к доку­ менту, интервалу меж­ ду словами в конкретной фразе документа, местоположению терминов в документе.

6. WebCrawler. Открыта 20 апреля 1994 года как проект Вашингтонского Университета. WebCrawler предоставляет возможности синтаксиса для конкретизации запросов, а также большой выбор аннотаций узлов при несложном интерфейсе.


Следом за каждым ответом WebCrawler помеша­ет небольшую пиктограмму с приблизительной оценкой соответ­ствия запросу. Коме того выводит на экран стра­ницу с кратким резюме для каждого ответа, его полным URL , точной оценкой соответствия, а также использует этот ответ в запросе по образцу в качестве его ключевых слов. Графического интерфейса для настройки запросов в Web Crawler нет. Н е допускается ис­ пользование универсальных символов, а также невозможно назначить весовые коэффициенты ключевым словам. Не существует возможности ограничения поля поиска определенной областью.

7. Yahoo. Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен каталог Yahooligans для детей. Появляются региональные и top-каталоги Yahoo. Yahoo основан на подписке пользователей. Он может служить от­правной точкой для любых поисков в Web , поскольку с помощью его системы классификации пользователь найдет узел с хорошо организованной информацией. Содержимое Web подразделяется на 14 общих категорий, пере­численных на домашней странице Yahoo !. В зависимости от специ­фики запроса пользователя существует возможность или работать с этими категориями, чтобы ознакомиться с подкатегориями и спи­сками узлов, или искать конкретные слова и термины по всей базе данных. Пользователь может также ограничить поиск в пределах любого раздела или подраздела Yahoo !. Благодаря тому, что классификация узлов выполняется людьми, а не компьютером, качество ссылок обычно очень высокое. Однако, уточнение поиска в случае неудачи – сложная задача. В состав Yahoo ! входит поисковый механизм AltaVista , поэтому в слу­ чае неудачи при поиске на Yahoo ! автоматически происходит его повторение с использованием поискового механизма AltaVista . Затем полученные результаты передаются в Yahoo !. Yahoo ! обеспечивает возможность отправлять запросы для поиска в Usenet и в Fourl 1, чтобы узнать адреса электронной почты.

К российским поисковым машинам относятся:

1. Rambler.Это русскоязычная поисковая система. Разделы, перечисленные на домашней странице Rambler , освещают русскоязычные Web -ресурсы. Существует классификатор информации. Удобной возможностью работы являет­ся предоставление списка наиболее посещаемых узлов по каждой предложенной тематике.

2. Апорт Поиск. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer . Одним из преимуществ Апорта является англо-русский и русско-английский перевод в режиме online запросов и поисков результата, благодаря чему можно вести поиск в русских ресурсах Internet , даже не зная русского языка. Более того можно искать информа­цию, используя выражения, даже для предложений. Среди основных свойств поисковой системы Апорт можно вы­ делить следующие:

Перевод запроса и результатов поиска с русского на англий­ ский язык и наоборот;

Автоматическую проверку орфографических ошибок за­проса;

Информативный вывод результатов поиска для найден­ных сайтов;

Возможность поиска в любой грамматической форме;


язык расширенных запросов для профессио­нальных пользователей.

К другим свойствам поиска можно отнести под­ держку пяти основных кодовых страниц (разных операционных систем) для русского языка, технологию поиска с использовани ем ограничений по URL и дате документов, реализацию поиска по заголовкам, комментариям и подпи­ сям к картинкам и т. д., сохранение параметров поиска и опреде ленного числа предыдущих запросов пользователя, объединение копий документа, находящихся на разных серверах.

3. List . ru (http://www.list.ru ) По своей реализации этот сервер имеет много общего с англоязычной системой Yahoo !. На главной странице сервера располо­жены ссылки на наиболее популярные поисковые категории.


Список ссылок на основные категории ката­лога занимает центральную часть. Поиск в каталоге реализован таким образом, что в резуль­тате запроса могут быть найдены как отдельные сайты, так и рубрики. В случае успешного поиска выводится URL , назва­ние, описание, ключевые слова. Допускается использование языка запросов Яндекс. С сылка "Структура каталога" открывает в отдельном окне полный рубрикатор ката­ лога. Реализована возможность перехода из рубрикатора в любую выбранную подкатегорию. Более детальное тематическое деление текущей рубрики представлено списком ссылок. Каталог организован таким образом, что все сайты, содержащиеся на нижних уровнях струк­ туры, представлены и в рубриках. Показываемый список ресурсов упорядочен в алфавит­ном порядке, но можно выбирать сортировку: по вре­ мени добавления, по переходам, по порядку добавления в каталог, по популярности среди посетителей каталога.

4. Яndex. Программные продукты серии Яndex представляют набор средств полнотекстовой индексации и поиска текстовых данных с учетом морфологии русского языка. Яndex включает модули морфологического анализа и синтеза, индексации и поиска, а также набор вспомогательных модулей, таких как анализатор документов, языки разметки, конверторы форматов, паук.

Алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре. Система полнотекстового индексирования позволяет создавать компактный индекс и быстро осуществлять поиск с учетом логических операторов.

Яndex предназначен для работы с текстами в локальной и в глобальной сети, а также может быть подключен как модуль к другим системам.

На этом, разумеется, список популярных поисковых систем не заканчивается – их количество исчисляется сотнями. Однако я уверен, что для работы с англоязычными сайтами вам с лихвой хватит и этих.

Следует отметить, что практически все представленные выше поисковые машины могут работать и с кириллицей. Но для поиска информации на русском языке все-таки рекомендую отечественные поисковые системы:

Существуют и другие русскоязычные поисковые системы, однако эти наиболее популярны, особенно первые две.

Рис. 4.1. Поисковая система Google

Из книги Противодействие черному PR в Интернете автора Кузин Александр Владимирович

Поисковые машины и каталоги как инструменты раскрутки «боевых» интернет-ресурсов и наполнения их контентом Данный раздел написан с использованием некоторых материалов книги «Интернет-разведка: руководство к действию».Автоматизация наполнения «боевых» сайтов и

Из книги Блог. Создать и раскрутить автора Ющук Евгений Владимирович

Поисковые машины и каталоги как инструменты раскрутки блога и наполнения его контентом Речь пойдет об автоматизации наполнения блога интересным контентом, т. е. о том, как находить материал для блога быстрее других блоггеров.Вряд ли большинство читателей сможет

Из книги Интернет-разведка [Руководство к действию] автора Ющук Евгений Леонидович

Составление запросов, связанных с названием компании, в поисковые

Из книги Собираем компьютер своими руками автора Ватаманюк Александр Иванович

5.2. Популярные операционные системы Существует множество операционных систем, и каждая имеет свою степень распространенности. Некоторые системы более удобны для работы в сети, а другие – для автономной работы, так как совместить все, не теряя в быстродействии и

Из книги Win2K FAQ (v. 6.0) автора Шашков Алексей

(6.10) Имеется смешанная сеть, netware и NT, клиенты W2kPro и W98. Машины с W98 не могут войти на машины с W2k. Для решения этой проблемы необходимо сделать привязку по протоколам, IPX/SPX только к клиент Novell, TCP/IP только к клиенту Microsoft. Сделать это можно в свойствах сетевых подключений меню

Из книги Реферат, курсовая, диплом на компьютере автора

Поисковые машины Если вам необходимо получить подборку материалов по более конкретной и специальной информации, лучше воспользоваться поисковыми машинами. Поисковая машина – это комплекс специальных программ для поиска в Сети. Они лишены недостатков, присущих

Из книги Интернет. Новые возможности. Трюки и эффекты автора Баловсяк Надежда Васильевна

Как функционируют поисковые машины и как правильно строить запросы Современные поисковые машины представляют собой комплекс специальных программ, предназначенных для поиска информации в Интернете.Принцип их работы состоит в следующем: время от времени они

Из книги Интернет на 100%. Подробный самоучитель: от «чайника» – до профессионала автора Гладкий Алексей Анатольевич

Популярные онлайн-кинотеатры Один из популярных бесплатных онлайн-кинотеатров находятся по адресу http://vsekino.tv (рис. 7.5). Рис.

Из книги Интернет – легко и просто! автора Александров Егор

Популярные каталоги Самым популярным и полным каталогом в мире несомненно является англоязычный Yahoo! (http://dir.yahoo.com) (рис. 4.4). Рис. 4.4. Популярнейший каталог ссылок Yahoo!Следует отметить, что зачастую каталоги совмещены с поисковыми машинами, поэтому многие представленные

Из книги Яндекс для всех автора Абрамзон М. Г.

1.11.3. Популярные записи Обновление списка популярных записей происходит раз в сутки. Таких записей отбирается несколько десятков, но лишь несколько самых популярных выносится на титульную страницу раздела Поиска. Остальные можно посмотреть по ссылке Всего записей.

Из книги Как найти и скачать в Интернете любые файлы автора Райтман М. А.

1.11.6. Популярные категории Если до этого шел разговор о рейтинге блоггеров, сервисов, наиболее популярных записей, то теперь речь пойдет о категориях. Категорию своему сообщению устанавливают их авторы. Как, почему, отчего - зависит от темы, от моды, от настроения. Тем не

Из книги Первые шаги с Windows 7. Руководство для начинающих автора Колисниченко Денис Н.

1.11.7. Популярные новости Отдельным блоком среди остальных индикаторов выделен рейтинг новостей сервиса Яндекс. Новости. Это те новости, которые в наибольшей степени обсуждаются в блогах. Список популярных новостей обновляется каждые 5-10 минут. Если перейти по ссылке из

Из книги Знакомьтесь: Ноутбук автора Жуков Иван

Популярные трекеры В мире существует множество торрент-трекеров, услугами которых вы можете пользоваться. Далее представлены самые популярные трекеры.? http://lostfilm.tv - трекер, специализирующийся на сериалах. Как правило, релизы в профессиональном озвучивании и качестве

Из книги IT-безопасность: стоит ли рисковать корпорацией? автора Маккарти Линда

10.2.1. Поисковые машины Интернет содержит огромное количество информации. Ведь в Интернете создать сайт может любой желающий, поэтому количество новых сайтов растет с каждым днем. Для поиска в Интернете используются поисковые машины.Поисковая машина - это специальный

Из книги автора

Популярные Интернет-приложения ICQ (Аська)ICQ – это централизованная служба мгновенного обмена сообщениями. Пользователь службы (то есть вы) работает с программой-клиентом (так называемый «мессенджер»). Передача сообщений происходит моментально. Также вы можете

Из книги автора

Популярные почтовые списки рассылки BugtraqВ этом списке обсуждаются уязвимые места UNIX, как их можно использовать и как их закрыть. Его целью является не обучение взлому систем, но, напротив, тому, как обнаруживать уязвимые места, как делиться информацией о них, как их

Классификация

По области поиска (условно)

Локальные

Предназначены для поиска информации по какой-либо части всемирной сети, например по одному или нескольким сайтам, либо по локальной сети .

Глобальные

Предназначены для поиска информации по всей сети Интернет либо по значительной её части. Представителями таких поисковых машин являются поисковые системы Google , Яндекс и т. п. Поисковые машины осуществляют поиск информации различного типа, например текстов, видео, изображений, географических объектов, персональных данных и др. При этом файлы, с которыми может работать поисковая машина, могут быть как текстового формата (например.html, .htm, .txt, .doc, .rtf…), так и графического (.gif, .png, .svg…) или мультимедийного (видео и звук). Пока наиболее распространённым является именно поиск по текстовым документам.

Поисковый запрос

Исходной информацией для поиска является поисковый запрос .

Функции

Поисковые машины выполняют несколько функций:

Поиск ссылок

Поиск ссылок на страницы и другие документы сайтов.

Автоматический

Ручной режим

Пользователи сами добавляют в базу данных поисковой машины ссылки на страницы своих сайтов

Индексация документов сайтов

Извлечение из документов информации, важной для поиска, преобразование этой информации в формат, удобный для поисковой машины и сохранение этой информации в базу данных поисковой машины

Поиск по базе данных проиндексированных документов

Может состоять из нескольких этапов

Нахождение документов, соответствующих поисковому запросу

Ранжирование документов в соответствии с их релевантностью поисковым запросам

Кластеризация документов

Примечания

См. также


Wikimedia Foundation . 2010 .

Смотреть что такое "Поисковая машина" в других словарях:

    Поисковая машина - (searching engine): веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex)... Источник: ИНТЕРНЕТ РЕСУРСЫ. ТРЕБОВАНИЯ ДОСТУПНОСТИ ДЛЯ ИНВАЛИДОВ ПО ЗРЕНИЮ. ГОСТ Р 52872 2007 (утв. Приказом Ростехрегулирования от… … Официальная терминология

    поисковая машина - Веб сервер, проводящий индексацию веб страниц на доступных серверах (например, Yandex). [ГОСТ Р 52872 2007] Тематики информационные технологии в целом EN searching engine … Справочник технического переводчика

    В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

    В Internet поисковая машина, которая: отсылает запрос на поиск в несколько поисковых систем; и генерирует из полученных ответов сводку (на одной странице). По английски: Meta search engine Синонимы: Мета гусеница Синонимы английские: Metacrawler… … Финансовый словарь

    Эта статья должна быть полностью переписана. На странице обсуждения могут быть пояснения. Поисковая система программно аппаратный комплекс с веб интерфейсом, предоставляющий возможност … Википедия

    Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ - Поисковая система веб сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp серверах, товары в… … Википедия

Книги

  • К вопросу об эффективности поиска конкретики в Интернете , И. А. Семёнов. Согласно исследованиям Berkley, объём информации в Интернете по состоянию на 2003 год оценивался в 258, 85 терабайта, и это только общедоступные данные. По данным Internet World Stats, рост… электронная книга

Поисковая система или просто “поисковик” – это , осуществляющая поиск интернет страниц в соответствии с запросом пользователя. Самая известная поисковая система в мире - это Google, самая популярная в России – Яндекс, а одной из самых старых поисковых систем является Yahoo. В архитектуре поисковой системы можно выделить поисковую машину – ядро системы, представленное набором программных модулей; базу данных или индекс , хранящую информацию обо всех известных поисковой системе интернет ресурсах; и набор сайтов, являющих собой точки входа пользователей в систему (www.google.com, www.yandex.ru, ru.yahoo.com, и т.д.). Все это соответствует классической трехуровневой архитектуре информационных систем: есть пользовательский интерфейс, бизнес логика, которая в данном случае представлена реализацией алгоритмов поиска и база данных.

Специфика поиска в интернете

На первый взгляд поиск в интернете мало чем отличается от обычного информационного поиска, например, от обработки к базе данных или от задачи поиска файла на . Так считали и разработчики первых поисковых систем в интернете, но со временем они осознали, что заблуждались…

Первое отличие поиска в интернете от обычного состоит в том, что алгоритм поиска по той же базе данных предполагает, что ее структура заранее известна поисковой машине и автору запроса. В интернете, по понятным причинам, это не так. Интернет страницы образуют собой не структуру каталога, а сеть, что также влияет на алгоритмы поиска, а формат данных, размещаемых на интернет ресурсах, никем не контролируется.

Второе отличие, как одно из следствий первого – это то, что запрос представляется не в виде набора значений параметров (критериев поиска), а в виде текста, написанного человеком на естественном для него языке. Таким образом, перед тем, как начать поиск нужно еще понять, чего именно хочет автор запроса. Замечу, понять не другому человеку, а вычислительной машине.

Третье отличие уже менее очевидное, но не менее принципиальное: в каталоге или базе данных все элементы равноправны. В интернете имеет место конкуренция, а, следовательно, и разделение на более “благонадежных поставщиков информации” и источников, близких по статусу к “информационному мусору”. Так классифицируют ресурсы люди, и также к ним относятся поисковые машины.

И в заключении следует добавить, что область поиска – это миллиарды страниц, по несколько килобайт и более каждая. Около десятка миллионов страниц добавляется ежедневно и столько же обновляется. Все это представлено различными цифровыми форматами. К сожалению, даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка поисковых услуг в интернете не позволяют им обрабатывать все это многообразие “на лету” и в полной объеме.

Из чего состоит поисковая машина

В первую очередь важно осознать еще одно и, наверное, самое существенное отличие между работой поисковой машины в интернете и работой любой другой информационной системы, осуществляющей поиск в различного рода каталогах и базах данных. Поисковая интернет машина не ищет информацию среди того, что есть в интернете на момент поступления запроса, а пытается сформировать ответ на основании собственного информационного хранилища - базы данных, называемой индексом, где она хранит досье на все известные ей и периодически его обновляет. Другими словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Все последние изменения в интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы - добавлены в индекс поисковой системы. Итак, поисковая система в первом приближении состоит из поисковой машины, базы данных или индекса (index) и точек входа в систему.

Теперь кратко о том, из чего состоит поисковая машина:

  • Паук или спайдер (spider). Приложение, которое занимается скачиванием страниц интернет ресурсов. Никуда паук не “заползает” – он лишь запрашивает содержимое страниц точно так же, как это делает обычный интернет браузер, отправляя на сервер HTTP запрос и получая от него ответ. После того, как содержимое страницы скачано, оно отправляется индексатору и краулеру, о которых рассказывается далее.

  • Индексатор (indexer). Индексатор производит первоначальный анализ содержимого скачанной страницы, выделяет основные части (название страницы, описание, ссылки, заголовки и т.д.) и раскладывает все это по разделам поисковой базы данных – помещает в индекс поисковой системы. Этот процесс называют индексацией интернет ресурсов , отсюда и название самой подсистемы. На основе результатов первоначального анализа индексатор также может принять решение, что страница вообще “недостойна” находиться в индексе. Причины такого решение могут быть разными: страница не имеет названия, является точной копией другой, уже имеющейся в индексе страницы или содержит ссылки на запрещенные законодательством ресурсы.

  • Краулер (crawler). Это “животное” призвано “ползать” по ссылкам, имеющимся на скачанной пауком странице. Краулер анализирует пути, ведущие с текущей страницы на другие разделы сайта, или на страницы внешних интернет ресурсов и определяет дальнейший порядок обхода пауком нитей всемирной паутины. Именно краулер находит новые для поисковой машины страницы и передает их пауку. Работа краулера построена на базе алгоритмов поиска на графах в ширину и глубину.

  • Подсистема обработки и выдачи результатов (Search Engine and Results Engine). Самая важная часть любой поисковой машины. Алгоритмы работы этой подсистемы компании разработчики хранят в строгой секретности, поскольку они являют собой коммерческую тайну. Именно эта часть поисковой машины отвечает за адекватность ответа поисковой системы на запрос пользователя. Здесь можно выделить два основных компонента:
    • Подсистема ранжирования. Ранжирование – это страниц интернет сайтов в соответствии с их релевантностью определенному запросу. Релевантность страницы – это, в свою очередь, степень соответствия содержания страницы смыслу запроса, и эту величину поисковая машина определяет самостоятельно, исходя из огромного количества параметров. Ранжирование – эта самая загадочная и спорная часть “искусственного интеллекта” поисковой машины. На ранжирование страницы, помимо ее структуры и содержимого (контента) также влияют: количество и качество ссылок, ведущих на данную страницу с других сайтов; возраст домена самого сайта; характер поведения пользователей, просматривающих страницу и многие другие факторы.

    • Подсистема выдачи результатов. В задачи этой подсистемы входит интерпретация пользовательского запроса, его перевод на язык структурированных запросов к индексу и формирование страниц результатов поиска. Помимо разбора самого текста запроса, поисковая машина может также учитывать:
      • Контекст запроса , формируемый исходя из смысла ранее осуществленных пользователем запросов . К примеру, если пользователь часто посещает сайты на автомобильные темы, то на запрос со словом “Волга” или “Ока” он, вероятно, хочет получить информацию об автомобилях этих марок, а не о том, откуда начинают свое течение и куда впадают одноименные русские реки. Это называется персонализированным поиском , когда выдача на один и тот же запрос для разных пользователей существенно отличается.

      • Пользовательские предпочтения , о которых она (поисковая машина) может “догадываться”, анализируя выбираемые пользователем ссылки на страницах результатов поиска. Это еще один способ скорректировать контекст запроса: пользователь своими действиями как бы подсказывает машине, что именно он хотел найти. Как правило, поисковые машины в результаты поиска стараются добавлять страницы, релевантные запросу, но относящиеся к довольно разным сферам жизни. Допустим, пользователь интересуется кино и поэтому часто выбирает ссылки на страницы с анонсами киноновинок, даже если эти страницы не вполне релевантны исходному запросу. При формировании ответа на его очередной запрос система может отдавать предпочтение страницам с описанием фильмов, в названии которых встречаются слова из текста запроса.

      • Регион , что очень важно при обработке коммерческих запросов, связанных с приобретением товаров и услуг у местных поставщиков. Если вы интересуетесь распродажами и скидками и находитесь в Москве, то вам, скорее всего, совсем не интересно, какие акции на эту тему проводятся в Санкт-Петербурге, если вы не указали этого явно в тексте запроса. В первую очередь в результатах поиска должна появиться информация о распродажах в Москве. Таким образом, современные поисковые машины делят запросы на геозависимые и геонезависимые . Скорее всего, если поисковая система решает, что ваш запрос геозависимый, то она автоматически добавляет к нему признак региона, который пытается определить по информации о вашем интернет провайдере.

      • Время . Поисковым машинам иногда приходится анализировать, когда имели место события, описываемые на странице. Ведь информация постоянно устаревает, а пользователю нужны в первую очередь ссылки на самые последние новости, актуальные прогнозы и анонсы событий, которые еще не завершились или должны наступить в будущем. Понять, что актуальность страницы зависит от времени, и сопоставить ее с моментом выполнения запроса также требует от поисковой машины изрядной доли интеллекта.

      Далее, поисковая машина ищет ближайший по смыслу ключевой запрос в индексе и формирует результаты, сортируя ссылки в порядке убывания их релевантности. Каждому ключевому запросу в индексе соответствует отдельный рейтинг страниц, релевантных ему. Не на каждое сочетание букв и цифр система заводит новый ключевой запрос, а делает это на основе анализа частоты тех или иных пользовательских запросов. Поисковая машина может также перемешивать в результатах поиска рейтинги из разных ключевых запросов, если посчитает, что пользователю нужно именно это.

Общие принципы работы поисковой системы

Нужно понимать, что услуги поиска в интернете – это очень и очень выгодный бизнес. В детали, за счет чего живут такие компании, как Google и Яндекс можно не вдаваться, поскольку основная часть их прибыли – это доходы от контекстной рекламы. А раз поиск в интернете является крайне выгодным делом, то и конкуренция среди таких компаний весьма серьезная. Что определяет конкурентоспособность на рынке интернет поиска? Ответ – качество выдачи поисковой системы. Логично, что чем оно выше, тем больше у системы появляется новых пользователей, и тем ценнее размещаемая на страницах этой самой выдачи контекстная реклама. Разработчики поисковых систем затрачивают большие усилия, направленные на то, чтобы “очистить” результаты своей поисковой выдачи от разного рода информационного мусора, называемого в народе спамом (spam). Более подробно о том, как это делается, будет рассказано в отдельной статье, а здесь я приведу общие принципы поведения поисковой системы, сформулированные в виде выводов по всему вышесказанному.

  1. Поисковая машина в лице своих пауков и краулеров постоянно сканирует интернет на предмет появления новых и обновления существующих страниц, поскольку неактуальная информация ценится ниже.

  2. Поисковая машина периодически обновляет ранжирование ресурсов по их релевантности ключевым запросам, поскольку в индексе постоянно появляются новые страницы. Этот процесс называют обновлением (update) поисковой выдачи.

  3. В силу огромных объемов информации, размещенной во всемирной паутине и ограниченности ресурсов самой поисковой системы, поисковая машина всегда старается загружать только самое (по ее мнению) необходимое. В ее арсенале имеются всевозможные фильтры, которые отсекают многое ненужное уже на этапе индексации или выкидывают спам из индекса по результатам обновления поисковой выдачи.

  4. Современные поисковые системы в ходе анализа запроса стараются учитывать не только текст самого запроса, но и его окружение: контекст и предпочтения пользователя, о которых было сказано ранее, а также время запроса, регион и многое другое.

  5. На релевантность конкретной страницы влияют не только внутренние ее параметры (структура, содержание), но и внешние параметры, такие как ссылки на страницу с других сайтов и поведение пользователя при ее просмотре.

Работа поисковых систем постоянно совершенствуется. Идеальная работа поисковой машины (для человека) возможна только в том случае, если все решения, касающиеся индексации и ранжирования будет принимать комиссия, состоящая из большого числа специалистов всех областей и направлений человеческой деятельности. Поскольку это нереально, то такую комиссию заменяют экспертные системы, эвристические алгоритмы поиска и прочие элементы искусственного интеллекта. Вероятно, работа всех этих подсистем также могла бы давать более адекватные результаты, если бы была возможность обрабатывать абсолютно все данные, имеющиеся в открытом доступе в интернете, но и это практически невозможно. Несовершенный искусственный интеллект и ограниченность ресурсов – две основные причины того, что результаты поисковой выдачи не всегда радуют пользователей, но все это лечится временем. На сегодня, по моему мнению, работа наиболее известных и крупных поисковых систем вполне соответствует потребностям и ожиданиям их пользователей.

Введение………………………………………………………………………….2

1 Поисковые машины: состав, функции, принцип работы

1.1 Состав поисковых систем………………………………….………………3

1.2 Особенности поисковых машин…………………………………………..4

1.3 Принципы работы поисковых систем……………………………………..4

2 Обзор функционирования поисковых систем

2.1 Зарубежные поисковые системы: состав и принципы работы…………12

2.2 Русскоязычные поисковые системы: состав и принципы работы….…..14

Вывод………………………………………………………………..……………16

Список используемой литературы…………………………………..………….17

Введение

Поисковые системы уже давно стали неотъемлемой частью российского Интернета.В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными поисковыми системами .

Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.Эти системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя:

Пространственный масштаб, в котором работает ИПС,

И ее специализация.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обработки запросов пользователей, о том, из чего эти системы состоят и как функционируют… Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента.

1 Поисковые машины: состав, функции, принцип работы

1.1 Состав поисковых систем

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.

База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени - владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.

1.2 Особенности поисковых систем

В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:

Фиксация информационной потребности на естественном языке;

Выбор нужных поисковых сервисов сети и точная формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);

Выполнение созданных запросов;

Предварительная обработка и выборка полученных списков ссылок на документы;

Обращение по выбранным адресам за искомыми документами;

Предварительный просмотр содержимого найденных документов;

Сохранение релевантных документов для последующего изучения;

Извлечение из релевантных документов ссылок для расширения запроса;

Изучение всего массива сохраненных документов;

Если информационная потребность не полностью удовлетворена, то возврат к первому этапу.

1.3 Принципы работы поисковых систем

Задача любой поисковой системы – доставлять людям ту информацию, которую они ищут. Научить людей делать “правильные” запросы, т.е. запросы, соответствующие принципам работы поисковых систем невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям именно ту информацию, которую они ищут. Это означает, поисковая система должна “думать” также как думает пользователь при поиске информации.

Поисковые системы в большинстве своем работает по принципу предварительного индексирования. По такому же принципу работают база данных большинства поисковых систем.

Есть и другой принцип построения. Прямой поиск. Он заключается в том, что вы в поиске ключевого слова перелистываете книгу страницу за страницей. Конечно, этот способ гораздо мене эффективен.

В варианте с инвертированным индексом поисковые системы сталкиваются с проблемой величины файлов. Как правило, они значительно велики. Эту проблему обычно решают двумя методами. Первый заключается в том, что из файлов удаляется все лишнее, а остается лишь то, что действительно нужно для поиска. Второй метод заключается в том, что для каждой позиции запоминается не абсолютный адрес, а относительный т.е. разница адресов между текущей и предыдущей позициями.

Таким образом, два главных процесса, выполняемых поисковой системой – это индексирование сайтов, страниц и поиск. В общем, процесс индексирования для поисковиков проблем не вызывает. Проблемой является обработка миллиона запросов в сутки. Это связано с большими объемами информации, которая подвергается обработке больших компьютерных комплексов. Главный фактор, определяющий количество участвующих в поиске серверов, - поисковая нагрузка. Это объясняет некоторые странности возникающие при поиске информации.

Поисковые системы состоят из пяти отдельных программных компонент:

spider (паук): браузероподобная программа, которая скачивает веб-страницы.

crawler: «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.

indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.

the database (база данных): хранилище скаченных и обработанных страниц.

search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.

Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.

Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.

Search Engine Results: Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Работа поискового указателя происходит в три этапа, из кото­рых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает инфор­мацию из World Wide Web . Для этого используют специальные программы, аналогичные браузеры. Они способны скопи­ровать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических про­грамм, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-простран­ство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посе­щенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.

Статьи по теме: