Соціальна інформатика

вторник, 3 апреля 2012 г.

domain: пошук по доменній зоні.

Використовуючи оператор domain: + домен верхнього рівня (com, org, ru, ua...) можна фільтрувати пошук сайтів в Яндексі по доменній зоні. Наприклад, використовуючи запит domain:biz, можна відшукати всі сторінки в індексі Яндекса з доменної зони biz:
пошуковий оператор domain

Пошук за допомогою оператора domain: знайде з доменами верхнього рівня і всі піддомени які включають "biz" в стуктурі доменного імені. Наприклад domain:sub:
оператор пошуку по домену

site: пошук сторінок з сайту.

Оператор site: знайде всі сторінки з сайту в індексі Яндекса, включаючи сторінки піддоменів сайту. Наприклад, ввівши в Яндекс.Пошук site:sv-igor.com можна побачити всі сторінки цього сайту проіндексовані Яндексом:
оператор пошуку Яндекса site:

За допомогою пошукового оператора site: можна перевірити кількість сторінок з певного розділу чи каталогу сайту, проіндексованих Яндексом. Наприклад, кількість сторінок цього сайту з різних каталогів - російською і українською мовою:

При відсутності склейки зеркал сайту (з префіксом «www» і без), по якому ведеться пошук – можуть бути різні результати в видачі Яндекса при різних запитах –site:site.com і site:www.site.com. Cклейку дзеркал сайту ефективніше перевіряти за допомогою оператора host:.

host: оператор пошуку з домену:

Оператор host: можна використовувати для перевірки кількості проіндексованих сторінок з домену і піддоменів сайту. На відмінну від оператора site:, який виведе проіндексовані Яндексом сторінки всього сайту – site:yandex.ru, фільтрація видачі за допомогою host: покаже кількість проіндексованих сторінок з домену чи піддомену. Наприклад,

За допомогою оператора host: можна провіряти на склейку доменів сайту – якщо зеркала сайтів склеєні Яндексом , результати будуть показані тільки для головного зеркала сайта:

Без префікса "WWW":

host:sv-igor.com

З префіксом "WWW":

host:www.sv-igor.com

Оператор url:

Оператор url дає змогу пошуку проіндексованої сторінки з сайту. Наприклад url:sv-igor.com. На відмінну від оператора site:, використовується для пошуку конкретної сторінки. Як і в випадку з оператором host – слід врахувати основне зеркало сайту (з префіксом «www» чи без).
Можливе використання для пошуку всіх сторінок з сайту чи з окремого розділу чи каталогу, використовуючи значок * на кінці УРЛа:

url:sv-igor.com/* – аналогічний пошуковому запиту site:sv-igor.com
url:sv-igor.com/ru/*– аналогічний пошуковому запиту site:sv-igor.com/ru

inurl: фільтрація пошуку за значенням УРЛа

За допомогою оператору пошуку inurl, можна фільтрувати результати пошуку сторінок в Яндексі за певними значеннями в УРЛ-і (адресі) сторінки. Наприклад, можна знайти всі сторінки в індексі Яндекса, які мають входження слова "abrakadabra" в адресі:

inurl:abrakadabra

Пошуковий оператор inurl корисний при фільтрації пошуку УРЛ-ів з сайту. Для прикладу, можна фільтрувати видачу в пошуковику по входженню "seo" в УРЛ-ах сторінок.

site:sv-igor.com inurl:seo

Оператор inurl можна використовувати для пошуку непотрібних сторінок (для заборони до індексації) - згенерованих пошуковим модулем сайту чи сгенерованих скриптом статистики і т. д.
Наприклад:

site:site.com inurl:search
site:site.com inurl:openstat

title: оператор пошуку в заголовці сторінки (тег <title>)

Оператор title: використовують для пошука сторінок по заголовкам (тег <title>). Наприклад, пошуковий запит title:(Печать зверя Алиса), знайде всі сторінки які містять в заголовку пошукові слова "печать зверя алиса":
title оператор пошуку

Можна шукати за точним входженням слів в заголовку сторінки, взявши пошукові слова в лапки:
title:”Печать зверя Алиса”.
Ефективно використовувати даний оператор title: для находження дублів заголовків сторінки на сайті. Для прикладу,
site:sv-igor.com title:"html, css, javascript, seo":
пошук дублів сайту

lang: Оператор пошуку по мові

Для того, шоб знайти сторінки в Яндексі на відповідній мові можна використати оператор lang:
На даний момент пошукову видачу в Яндексі можна фільтрувати за слідуючими мовами:

російською - lang: ru
українською - lang: ru
казахською - lang: kk
татарською - lang: tt
білоруською - lang: ru
англійською - lang: en
французькою - lang: fr
німецькою - lang: det

Наприклад, можна відфільтрувати проіндексовані Яндексом сторінки цього сайту (на українській і на російській мові):

site:sv-igor.com lang:uk – сторінки українського каталогу сайту:
site:sv-igor.com lang:ru – сторінки російського каталогу сайту:

mime – пошуковий оператор по типу файла:

Оператор mime: слід використовувати для пошуку певного типу файла (.pdf, .swf) . Пошуковий запит mime:swf, знайде всі проіндексовані Яндексом флеш-файли (в форматі .swf)
На даний момент Яндекс підтримує пошук по слідуючим форматам:

PDF (Adobe Portable Document Format) – mime:pdf
RTF (Rich Text Format) – mime:rtf
DOC (Microsoft Word) – mime:doc
SWF (Macromedia Flash) – mime:swf
XLS (Microsoft Excel) – mime:xls
XLSX (Microsoft Excel XML) – mime:xlsx
PPT (Microsoft PowerPoint) – mime:ppt
PPTX (Microsoft PowerPoint XML) – mime:pptx
ODT (OpenDocument Text) – mime:odt
ODP (OpenDocument Presentation) – mime:odp
ODS (OpenDocument Spreadsheet) – mime:ods
ODG (OpenDocument Graphics) – mime:odg

Пошукові оператори Google

site: пошук сторінок з сайту

Використовуючи оператор пошуку site: можна знайти всі сторінки з сайту проіндексовані Google, включаючи сторінки піддоменів сайту.
Наприклад, ввівши в Google.Пошук site:sv-igor.com можна дістати всі сторінки цього сайту проіндексовані Google.

site:пошук сторінок з каталогів сайту

За допомогою пошукового оператора site: + домен + каталог сайту можна перевірити кількість сторінок з певного каталогу чи розділу сайту, проіндексованих Google. Наприклад, кількість сторінок цього сайту з різних каталогів - українською і російською мовою:

site:www.sv-igor.com/ru/
site:www.sv-igor.com/uk/

Google Supplemental Indeх - "соплі"

За допомогою оператора site: виводяться всі сторінки сайта проіндексовані Googl-ом, включаючи відфільтровані сторінки з Google Supplemental Indeх («соплі») - сторінки заборонені в robots.txt, але ще не виключені повністю з індекса пошуковика, технічні сторінки (rss-стрічки, версіі для друку, pda-версії, технічні каталоги), сторінки під «фільтрами» , дублі сторінок (сторінки з однаковим контентом, але різними УРЛами):
Google Supplemental Indeх - соплі

При великій кількості сторінок в соплях Google (Google Supplemental Indeх), можна використати панель Вебмастера Google для подачі заявки на видалення «сопливих» сторінок з індекса Google (звичайно попередньо заборонивши індексацію непотрібних сторінок в robots.txt).

Подача заявки на видалення сторінок з Google Supplemental Indeх («соплі») за допомогою панелі Вебмастера Google:

Залогінюємся в Google.Webmaster:
Відкриваєм вкладку «Конфігурація сайта» і вибираєм підпункт «Доступ для сканера»

подача заявки на видалення сопливих сторінок

Вибираєм вкладку «Видалити URL» і нажимає кнопку «Створити запит на видалення», і вибираєм УРЛ який треба видалити з індекса пошуковика (можна також видаляти цілий каталог з індекса Google):

Видалити URL з індекса Google можна в тому разі, якщо сторінка вже заборонена за допомогою robots.txt (чи на сторінці прописаний мета-тег noindex), або сервер повертає код 404 чи 410 (сторінки не існує або для сторінки змінений УРЛ).
Для того, щоб вивести в Google сторінки без «соплів» використовують аналогічні оператори site:домен/* або site:домен /&.

site:домен/& (site:домен/&) - пошук сторінок основного індекса Google

Перевірити кількість сторінок в основному індексі Google (виключивши сопливі сторінки з Google Supplemental Index) можно за допомогою оператору site:+ домен+&(або *). Наприклад кількість сторінок цього сайту в основному індексі Google:

site:sv-igor.com/&

Оператор inurl: - фільтрація за параметром в УРЛі

За допомогою оператору пошуку inurl, можна фільтрувати результати пошуку сторінок в Google за визначеним параметром в УРЛ-і сторінки. Наприклад, можна знайти всі сторінки в індексі Google, які мають входження слова "sv-igor" в адресі:

inurl: sv-igor

Оператор inurl ефективно використовувати для пошуку непотрібних сторінок (для заборони до індексації) - згенерованих пошуковим модулем сайту чи сгенерованих скриптом статистики і т. д.
Наприклад:

site:домен inurl:search
site:домен inurl:sort
site: домен inurl:from
site: домен inurl:openstat
...

intitle: оператор пошуку в заголовці (<title>)

Оператор intitle (аналогічний пошуковому оператору Яндекса title): використовують для пошука сторінок по заголовкам (тег <title>). Наприклад, пошуковий запит intitle:пошуковий оператор title, знайде всі сторінки які містять в заголовку пошукові слова " пошуковий оператор title".
Ефективно використовувати оператор intitle: для находження дублювання заголовків сторінок на сайті. Для прикладу,

site:sv-igor.com title:"html, css, javascript, seo"

Пошуковий оператор related:

Оператор related: використовують для пошуку схожих на погляд Google сайтів:

related:sape.ru

Оператор info:

При використанні даного оператора пошукова система виведе в пошуці основний домен (основне зеркало сайта) і посилання на допоміжні результати пошуку в Google. Оператор можно використовувати для перевірки склейки різних доменів – з префіксом «www» і без префікса.

info:sv-igor.com

Оператор filetype:

За допомогою оператора filetype: + тип файла можна фільтрувати пошук документів по типу документа(по розширенню документу). Наприклад, використовуючи оператор filetype:flv можна знайти всі документи в індексі Google з розширенням .flv:

filetype:flv

Загальні для майжє всіх пошукових машин логічні оператори запитів

Оператор	Опис
+	Логічне І. Даний оператор є за замовченням і діє першим, тобто запит українські реферати є рівнозначним до запиту українські + реферати.
-	Логічне НІ дозволяє виключити із списку результатів документи, в яких міститься слово, що йде після оператора. Наприклад, за запитом: кавовий напій - кава, будуть знайдені тільки ті документи, в яких є слова кавовий напій, але немає слова кави.
\|	Логічне АБО дозволяє знайти документи, які містять хоча б одне слово в запиті. Наприклад, за запитом: казаки \| козаки будуть знайдені документи, які містять або слово казаки, або слово козаки.

Порядок дії логічних операторів можна задавати круглими дужками ( ).

ІПС мережі Інтернет

Більше як 80% всього пошуку в Інтернеті доводитися на 3 основні системи: Google, Yahoo!, MSN.

GOOGLE
http://www.google.com

Є пошуковою машиною з рейтингом сайтів.

З невеликої компанії, яка заснована у вересні 1998 року Ларрі Пейджем і Сергієм Бріном, Google перетворилася на найбільший галузевий концерн, що пропонує послуги простого і швидкого пошуку інформації в Інтернеті по більш ніж 8 млрд. мережних адрес, плюс множина інших, не менш цікавих сервісів. За ці роки багато що змінилося, але незмінною і зростаючою залишилася динаміка розвитку Google. Особливо вражає успішне і послідовне зростання компанії на тлі поголовного краху, що зачепів в минулі роки більшість дот-комів.
Нині феноменальний успіх Google пов'язують не лише з вибраною бізнес-моделлю і вдалим напрямом діяльності. Карколомний успіх компанії не був би досягнутий без тонкого підбору співробітників і вмілого керівництва. З серпня 2001 року на посту CEO компанії знаходиться Ерік Шмідт, якій перейшов в Google з Novell і поставив за головну мету збільшення капіталізації за рахунок виходу на нові ринки. Минулі роки підтвердили правильність вибраної стратегії і тепер Google є тим, чим є – близько 5 тисяч співробітників у всьому світі, бренд, що відомий без коментарів в будь-якому куточку земної кулі.
Бренд Google було введено як співзвуччя математичному терміну Googol (гугол), придуманому Мілтоном Сироттой, племінником американського математика Едварда Каснера. Він позначає одиницю з сотнею нулів і чудово ілюструє невичерпні можливості Інтернету, які компанія Google постійно систематизує і організовує, полегшуючи доступ до різних даних.
Спочатку була поставлена мета по організації всієї світової інформації, щоб зробити її максимально доступною і корисною для кожного відвідувача Інтернету. Для цього засновники компанії Леррі Пейдж і Сергій Брін розробили новий алгоритм пошуку. Ідея створення універсального пошуковика і стала запорукою нинішнього успіху компанії. Більш того, в нинішньому своєму втіленні пошуковий движок доступний не лише з головної сторінки Google: можна вести пошук через панель інструментів Google, через Google Deskbar в панелі завдань Windows без відкривання браузера, а також з різних мобільних платформ, включаючи телефони в режимах WAP та І-mode.
Оскільки пошуковик Google є безкоштовним, основний дохід компанії складається з надання рекламодавцям можливості поширювати рекламу, що є релевантною до інформації на даній сторінці. Тисячі рекламодавців використовують програму Google AdWords для просування своїх товарів і послуг за допомогою цілеспрямованих оголошень, тисячі менеджерів сайтів використовують Google AdSense для показу оголошень, що є релевантними до змісту сайтів.
Від початку розробники Google відмовилися від типового використання потужностей декількох серверів, продуктивність яких зменшується при пікових навантаженнях, і почали використовувати можливості розподілених у мережі комп’ютерів.
Пошуковий движок Google проводить серії одночасних розрахунків тривалістю частки секунди і використовує технологію PageRank для вивчення всієї структури посилань Інтернету та об'єктивного визначення найважливіших сторінок шляхом розрахунку рівняння з більше як 500 змінними і 2 мільярдами термінів. Пошуковик Google аналізує якісний зміст сторінок - шрифти, підрозділи, точне місцеположення кожного слова, плюс зміст сусідніх сторінок для забезпечення максимальної релевантності результатів пошуку.
В компанії Google створено технологію пошуку для бездротових пристроїв з моментальним перетворенням HTML у формати для режимів WAP, І-mode, J-SKY і EZWeb.
Результатом багаторічного розвитку пошукової системи Google стала поява національних пошукових сервісів: підтримується різномовний інтерфейс і алгоритму пошуку адаптуються до локальних особливостей. Коли пошуковий сервіс Google стартував в Китаї, то, не дивлячись на численні складнощі, пов'язані з своєрідним трактуванням свободи слова китайськими властями (Google.com не доступний китайським користувачам приблизно 10% часу; Google News зовсім не працює, Google Images доступний лише час від часу), сервіс працює і набирає популярність.
Google забезпечує пошук по гіпертекстових документах, що знаходяться в різних мовних зонах - українською, російською, англійською, німецькою і ін. Пошукова система Google має власні піддомени для більшості країн, наприклад, для України - google.com.ua, для Росії - google.ru. Це одна з найбільших пошукових баз в світі.

ПЕРЕВАГИ

Використання механізму PageRank, який відображає "важливість" сайту і впливає на видачу результатів пошуку. PageRank схожий на індекс цитування у Яндекса (теж залежить від кількості і якості посилань на ресурс). Але на відміну від Яндекса, вплив PageRank у Google не настільки значний, тому люди в Google знаходять саме те, що і шукають.
Google шукає не лише гіпертекстові файли (html), але і файли у форматі PDF, DOC, PostScript, Corel Word Perfect і ін.
Пошукова система Google має можливість пошуку зображень. При цьому у запиті можна вказати бажаний розмір, глибину кольору, формат файлу.
На відміну від багатьох пошуковиків, роботи Google індексують всі сторінки, а не лише найголовніші.
Всі сторінки Google кешує (заносить в свою базу), і дозволяє користувачеві переглядати документ у кеші Google, не відкриваючи його в першоджерелі (що зазвичай є набагато швидше).
Google дозволяє обрати мову інтерфейсу, мовні зони для пошуку, кількість повідомлень при видачі результатів та ін.
Користувачі Microsoft Internet Explorer, Mozilla Firefox і Opera можуть встановити собі програму Google Toolbar, яка створює нову панель інструментів, що дозволяє шукати в Google, не заходивши на сам сайт.
Рядок пошуку в Google можна використати і як калькулятор. Якщо ввести (48-26)*21, Google видасть правильний результат.

СЕРВІСИ GOOGLE

Можливості Google не обмежені лише традиційним "джентльменським набором" пошуковика з розширеними налаштуваннями та новинами. Нижче наведено короткий і неповний список сучасних сервісів Google:

Google Local - знаходить місцеві підприємства та послуги в Інтернеті
Google Mac - пошук по сайтах тематики Apple/Macintosh
Google’s University Search - пошук по університетах
Google Linux - пошук по сайтах тематики Linux
Google GOV - пошук по всіх державних (*.gov) і військових (*.mil) сайтах
Froogle - пошук товарів/продукції
Google Options – опції
Google Map Site - карта сайту
Google Features - перелік різноманітних особливостей
Google Microsoft - пошук по сайтах Microsoft
Google Labs – сервіси
Hacker Style Google - у оригінальному стилі
Google BSD - пошук по BSD-сайтах
Google Наоборот - google в дзеркальному відображенні
Google Schoolar - пошук серед статей, книг, оглядів наукової літератури та підручників
Google Firefox - для фанатів Mozilla Firefox
Google Fight - поєдинок: потрібно ввести два слова, і пошуковик покаже яке з них посилається на більшу кількість сторінок
Google Suggest - можливі варіанти того, що потрібне, з показом кількості сторінок по даному запиту
Cheatoogle - пошук по читам і кодах до ігор
Google Easter - пасхальний кролик
Gmail - пошта від Google
Video google - пошук відео
Google для мобильников и КПК - міні-версія для зручної роботи з мобільних телефонів і КПК
Mobie Google - сервіс для мобільного зв’язку
Google Fan Logos - сайт з логотипами на тему Google
Google Hiliday Logos - святкові логотипи
Офіційні та Неофіційні - логотипи Google
Google April Fools - пошук про все, що пов'язане з днем дурнів
Google Maps - пошук по картах
Google Blog - офіційний блог Google
Google News - новини від Google
Google Print - пошук Google по мільйонах оцифрованих книг бібліотек Гарварду, Стенфорда, Оксфорда, Мічігану, а також з Нью-йоркської Публічної бібліотеки
Google Earth - програма для огляду Землі з космосу
Can’t find on google - сайт із переліком запитів, у відповідь на які видається не те, що потрібне
GoogleGulp- напої від Google
Uncle Sam - "патріотичний" пошуковик
Blogsearch - пошук по блогам і ЖЖ
Google Webmasters Guidelines - інформація та поради Google для веб-розробників
Google Reader - Google Reader
Google Code - для кодерів, відкриті ісходники і т.д.
Google VPN - безкоштовний VPN-сервіс від Google
Google Alerts - відстежує появу нових сторінок на пошуковий запит і повідомляє про це на e-mail
Google Answers- можна задати запитання, вказати суму винагороди за відповідь і дочекатися відповіді
Personalized Google Search- пошук з врахуванням налаштувань та потреб користувача
GoogleStore- магазин з аксесуарами в стилі і з логотипами Google
Google Trade Catalogs - каталог товарів
Google Personalize Homepage - підлаштування пошуку та зовнішнього вигляду Google під себе ;)
Google Base - база даних від Гугл, можна завантажити будь що

І це далеко не повний перелік можливостей, сервіси Google постійно поповнюються, а їх якість вдосконалюється.

http://ru.yahoo.com

Yahoo було засновано в 1994, і на сьогоднішній день це найстаріший і якнайповніший каталог Інтернет-ресурсів.
Ця неймовірно популярна система, що обслуговує мільйони запитів щодня, зародилася як проста колекція закладок, яку поповнювали всього 2 людини - Девід Філо і Джері Янг.
Yahoo є найпопулярнішим пошуковим засобом і секрет його успіху Yahoo криється в людях. Над складанням та редагуванням вмісту каталогів Yahoo працюють понад 150 редакторів. Yahoo має базу даних в більш, ніж 1 млн. проіндексованих сайтів. Також, у разі браку власної бази даних, Yahoo використовує базу даних Google (до липня 2000 року Yahoo користувався базою даних Inktomi).

Російська версія не містить пошукового каталогу, рейтингової системи.
Є виключно пошуковою машиною.

ОПИС РОСІЙСЬКИХ ПОШУКОВИХ СИСТЕМ

В Рунеті основними є пошукові системи Яndex, Rambler та Mail.ru На діаграмі представлена питома вага різних пошукових машин Рунету.

RAMBLER.RU (Спрощено - http://www.r0.ru)

Пошуковий каталог+рейтинг+пошукова машина.

Цей пошуковик займає сьогодні друге місце серед пошуковиків Ренета. Він був першою пошуковою програмою, що створено спеціально для російського Інтернету програмістом компанії Stack Ltd Дмитром Крюком у 1996 році. Слово "Rambler" перекладається як «гуляща людина», «бродяга» по Інтернету.
Rambler постійно вдосконалює свій пошуковий алгоритм. Проводяться роботи по оптимізації роботи системи для точності та актуальності пошуку. Як і більшість російських пошукових машин, Rambler враховує морфологію російської мови. При видачі результатів вплив має положення сайту в рейтингу Rambler's Top100. Rambler індексує сайти в зонах ru .su, .ua, .by, .kz, .kg, .uz, .ge, а також славяномовні сайти в доменах .com, .net або .org.
На сьогодні Rambler є в величезним інтернет-холдингом, до складу якого входять портал Рамблер, новинна інтернет-газета Лента.ру, медичний сайт Doctor.ru, онлайновий клуб батьків Mama.ru, картографічний сервіс NaKarte.ru, телекомунікаційний підрозділ "Рамблер Телеком".
На Рамблері реалізовано розумну систему, яка виводить в результатах пошуку слова, які є синонімами запиту. Ще однією функцією системи є видача контекстної реклами не лише за конкретними ключовими словами, але і за фразами, що тісно пов'язані з ними.
Реєстрація знаходиться за адресою http://www.rambler.ru/doc/add_site_form.shtml. Не реєструються сайти в доменах .com, .net, або .org. Якщо ж зміст сайту з цих зон має відношення до російськомовного Інтернету, то користувач має відправити лист на search.support@rambler-co.ru з проханням проіндексувати сайт.
Рамблер (на відміну від інших пошукачів) вміє витягувати гіперпосилання з об'єктів Macromedia Flash. Якщо сайт має заставку або навігаційні панелі, що виконані з використанням цієї технології, Рамблер обробляє їх, знаходить адреси всіх сторінок сайту і індексує весь сайт. Тексти flash-об'єктів не індексуються. Для сайтів, які цілком складаються з flash-об'єктів, рекомендується створити HTML-копію і зареєструвати її в пошуковій машині. Роботи Рамблера також справляються з конструкціями фреймів.
Роботи Рамблера ігнорують більшість мета-тегів. Коментарі в документі роботи Рамблера теж не сканують, але більшої уваги звертають на заголовки і виділення в документі. Базові поняття і ключові для даного сайту слова доцільно включати в наступні HTML-теги (у порядку значущості): "title", "h1"..."h4", "b", "strong", "u".
Максимальний розмір документа для роботів складає 200 кілобайт. Документи більшого розміру усікаються до вказаної величини.

APORT.RU

Пошуковий каталог, пошукова машина.

Пошукову систему "Апорт!" було розроблено компанією "Агама" за підтримки Intel і вперше продемонстровано в лютому 1996 року на прес-конференції "Агамы" з приводу відкриття "Російського клубу". Тоді вона шукала лише по сайту russia.agama.com.
Найважливішими особливостями першої версії "Апорту" були переклад запиту і результатів пошуку англійською мовою і зворотно, а також відновлення всіх проіндексованих сторінок з власної бази (що надає можливість переглядання сторінок, вже неіснуючих в оригіналі).
До кінця 1999 року було представлено нову версію Апорт - "Апорт 2000", який став першим російським пошуковиком, що побудований на основі видачі результатів по окремо взятих сайтах. "Апорт 2000" практично реалізував дві базові технології американської пошукової машини Google: облік "рангу сайту" (Page Rank), і обробка запиту, орієнтуючись на HTML-код сторінки. Серед недокументованих особливостей - більший пріоритет сайтам, які мають вищу та елітну лігу у каталозі AtRus.
Aport є повнотекстовою пошуковою системою, тобто вона індексує всі слова, які б побачила на екрані людина, що переглядатиме конкретну сторінку. В результаті будь-яке слово з тексту документів може бути критерієм для подальшого пошуку. Апорт також індексує тексти гіперпосилань на документ з інших сторінок, що знаходяться, як всередині сайту, так і за його межами, а також складені (або перевірені) редакторами описи сайтів з каталогу.
Результати пошуку впорядковуються за частотою використання шуканих термінів. Разом з посиланням відображається фрагмент тексту, де зустрічається термін, вказується індекс відповідності до запиту і дата останньої модифікації файлу. "Апорт!" у виданому фрагменті тексту виділяє червоним кольором запитані слова.
Реєстрація сайту в Апорті проводиться із сторінки http://www.aport.ru/addurl.asp. Ця сторінка доступна з будь-якої сторінки Апорту, наприклад, з головної сторінки Апорту. Додавати в пошукову систему Апорт слід російськомовні сайти, а також сайти, що мають безпосереднє відношення до російського Інтернету. У разі відмови в автоматичному додаванні сайту можна звернутися з проханням про додавання сайту за addurl-nr@aport.ru.
З моменту додавання сайту в Апорт до моменту його появи в пошуковій базі проходить від двох-трьох днів до двох тижнів.
При перегляданні вмісту сервера для індексування Апорт обов'язково перевіряє файл ROBOTS.TXT. Отже можна його використати, щоб обмежити 'діяльність' Апорту на своєму сервері. Апорт за умовчанням не індексує динамічні документи, в адресах яких зустрічається символ '?'.
Для документів HTML, окрім основного тексту документа індексуються також: заголовок документа "TITLE", ключові слова "KEYWORDS", описи сторінок "DESCRIPTION" і підписи до картинок "ALT". Апорт пропонує декілька варіантів направленої реклами http://www.aport.ru/adv, проте немає можливості купити вищі місця для свого сайту в результатах пошуку.
Ключові слова не мають визначального значення при визначенні релевантности документа. Але розумне використання цього тега рекомендується.
На відміну від багатьох інших пошукових систем, Апорт не застосовує спеціальних санкцій до сайтів, що намагаються обдурити пошукову систему за допомогою спаму, але досягнути подібним чином бажаного результату не вийде. Тому не варто писати невидимі тексти, набирати сотні ключових слів, що не мають жодного відношення до змісту документа і т.д.
Ось перелік основних критеріїв, які Апорт враховує при сортуванні сайтів: густина ключових слів, відстань між ключовими словами в тексті документа, місце, де зустрічаються пошукові слова (заголовок, опис, мета-тег і т.п.), зовнішній вигляд шрифту, яким набрані ключові слова (розмір, грубість, колір), кількість посилань з Інтернету на даний документ, використання ключового слова в тексті посилань з Інтернету на даний документ. Остаточний відсоток відповідності документа до запиту будується як певна функція від всіх цих показників.

УКРАЇНСЬКА ПОШУКОВА СИСТЕМА "МЕТА"

Пошуковий каталог, пошукова машина.

http://meta.ua/

Українська пошукова система "МЕТА" є найвідомішим проектом компанії - ЗАТ «МЕТА» - розробника пошукових і інформаційних рішень. Сьогодні "МЕТА" — один з найбільш відвідуваних українцями сайтів і найбільший рекламний майданчик України.
«Мета.ua» – проект український, він створений і працюватиме тільки для України.
А технології, які були створені в процесі роботи, цілком можуть бути використані в інших країнах.
Пошукові технології компанії працюють у внутрішніх мережах Верховної Ради і кабінету міністрів України, на сайтах національного банку України, фонду Разумкова, сайті Віктора Ющенка.
За 2005 рік аудиторія збільшилася більш ніж в два рази.
«Мета» – це безкоштовний сервіс, який не має ніяких зобов'язань перед власниками сайтів і не гарантує «правильного» місця видачі.
Нові сервіси пошукової системи "МЕТА" можна поділити на три типи: пошукові, інформаційні і комунікаційні.
З пошукових сервісів хочеться відзначити «Метановини». Це найпопулярніший розділ після великого пошуку і каталогу. Зараз там збираються новини від більше як 200 українських інтернет-джерел, близько 10 000 новин в день. Весь цей масив в режимі реального часу індексується, групується по темах і стає доступним для пошуку.
«Пошук рефератів». Практично єдиний сервіс в СНД, що дозволяє шукати не тільки по назві і опису, але і по всьому тексту. В період сесій і іспитів студенти і школярі активно користуються цим сервісом.
З останніх пошукових проектів – інтерфейс до бази законодавства України, що розроблено спільно з апаратом Верховної Ради. У базі більш як 80 000 різних юридичних документів. Автоматичний переклад запитів дає можливість задавати запит на російській або українській мовах.
З інформаційних сервісів цікавими є «Карти» і «Розклади потягів». В «Картах» зібрано найбільшу кількість карт по містах і областях України, що є доступними в Інтернеті, а «Розклади» – є найповнішими та найточнішими.
Комунікаційні сервіси – форум, який став найбільшим українським неполітичним форумом. Поштовий сервіс розроблявся значно пізніше за тих, що є зараз на ринку, тому в ньому вдалося обійти відомі недоліки і він вийшов зручним і функціональним. Пошта зараз самий швидкозростаючий сервіс на «Мете».
Пошуковому сервісу доводиться збільшувати потужність одночасно в двох площинах – з одного боку збільшується кількість запитів, з іншої - зростає об'єм індексу. З схожими проблемами працює всього декілька компаній в світі, і тому на вирішення технічних проблем, пов'язаних з швидким зростанням витрачається багато зусиль. Впроваджено і відпрацьовано технологію, що дозволяє швидко масштабувати систему, Мета може без проблем збільшити розмір індексу і обробити число запитів на порядок більше.
З останніх вдосконалень – «перевірка» правопису в запитах і додавання нових форматів документів – doc, pdf, xls, ppt.
«Повільна індексація» - це вже легенда, яка залишилася у минулому. Черги на розміщення в каталог зараз немає, бо технічних потужностей вистачає. Якщо сайт через 4-5 днів після додавання в каталог не потрапив в індекс, це означає, що він є або недоступним, або не піддається індексації. Окрім цього є спеціальний кластер, документи в якому оновлюються двічі у день.

http://www.ay.com.ua/

Пошуковий каталог, база об'яв по продажу/аренді нерухомості . Не містить пошукової машини.

http://www.topping.com.ua/

Каталог українських ресурсів з рейтингом сайтів та пошуковою системою.

Механізм пошуку в ІПС

Пошукові cистеми зазвичай мають три компоненти:

агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;
база даних(індексатор) яка містить інформацію, що зібрано павуками;
пошуковий механізм(пошукова машина), який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.

1. Спайдери (Spider, Crawler, Robot) — програма, що відвідує веб-сервери, зчитує й індексує цілком або частково їхній вміст і далі рухається через посилання, знайдені на сервері. Спайдер повертається через визначені періоди часу, наприклад, кожного місяця, і повторює індексацію сторінок.

Кожний пошуковий механізм має власний набір засобів, завдяки якому визначається збір документів. Зупинимось коротко на їх особливостях.

• Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача, а також шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

• Павуки здійснюють загальний пошук інформації в Інтернеті. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також можуть переглядати заголовки, деякі посилання і відправляти про- індексовану інформацію до бази даних пошукового механізму.

• Кроулери переглядають заголовки і повертають користувачу тільки перше посилання.

• Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.

2. Усе, що знаходить і зчитує спайдер, попадає в індекси пошукової системи. Індексатор системи — гігантське сховище інформації, де зберігаються копії текстової складової усіх сторінок, що відвідав і проіндексував спайдер.

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проін- дексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.

Користувачі можуть розміщувати власну інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли користувач хоче знайти інформацію, доступну в Інтернеті, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.

База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в списку будуть такі документи, що є найбільш релевантними до запиту користувача.

3. Пошуковий механізм - це програма, що відповідно до запиту користувача перебирає індекси пошукової системи в пошуках інформації і видає йому в порядку зменшення релевантності знайдені документи.

Релевантність визначає, наскільки повно той або інший документ (зміст знайденої веб-сторінки) відповідає критеріям, зазначеним у запиті користувача. Але комп'ютер — не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності.

Теоретичних методів визначення релевантності веб-сторінок існує більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Rambler, Hndex) і статистичне (Google). Основні російські пошукові системи (зокрема Rambler) використовують лінгвістичний напрям, коли пошуковий робот, переглядаючи сторінку, звертає увагу на «літературність» її написання (наприклад, «чом ти не прийшов» буде більш релевантною, ніж «чом ти не травень прийшов»).

Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:

• Кількість слів запиту, який є у текстовому вмісті документу (тобто в html-коді).

• Теги, в яких ці слова розташовуються.

• Місцеположення шуканих слів у документі.

• Питома вага слів, відносно яких визначається релевантність сторінки, у загальній кількості слів документу.

Вище вказані принципи застосовуються всіма пошуковими системами, в той час як наведені нижче використовуються лише деякими, але достатньо відомими (наприклад, AltaVista).

• Час — тобто як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Ін- тернеті існує багато веб-сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, то це означає, що його власник є досвідченим за певною темою. Вірогідно, що користувачу більше підійде веб-сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж тематикою.

• Індекс цитованості показує як багато посилань на дану веб- сторінку ведеться з інших сторінок, що зареєстровані у базі пошукової системи.

База даних виводить ранжований таким чином перелік документів з html-кодами і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отриманого переліку — деякі відображають лише посилання, інші — виводять посилання з декількома першими реченнями документу чи заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, цей документ завантажується з сервера, на якому він знаходиться.

Зрозуміло, далеко не завжди документ, визнаний пошуковою системою найбільш релевантним, буде таким на думку самого користувача.

У кожній пошуковій системі працює власний спайдер, кожна система індексує сторінки своїм особливим способом і пріоритети при пошуку за індексами теж відмінні. Тому запит на основі визначених ключових слів або виразів у кожній з пошукових систем зазвичай породжує різні результати.

Асоціативний кущ:

Загальні відомості про інформаційно–пошукові системи

Інформаційно–пошукові системи (ІПС) — це різновид автоматизованих інформаційних систем, в яких завершальна обробка даних не передбачається. Ці системи призначені для пошуку текстів (документів, їх частин, фактографічних записів) в сховищах (базах даних) за формальними характеристиками.
Тому в роботі ІПС можна виділити два основних етапи:

перший — збір і зберігання інформації
другий — пошук і видача інформації користувачам

В економіці ІПС можуть використовуватися для зберігання і пошуку нормативних, планових, бухгалтерських та інших документів, даних для наукових досліджень.
ІПС відрізняються одна від одної за багатьма ознаками, але при вирішенні задач збору, зберігання і видачі інформації мають такі спільні процедури:

аналіз документів і їх добір;
створення пошукового образу документів (ПОД);
запис документів і їх пошукових образів на прийняті носії;
зберігання документів і ПОД;
аналіз запитів;
видача документів користувачам.

Як уже зазначалося, на основі ІПМ використовують два основних режими чи методи організації пошуку: з вибірковим розподілом інформації і з ретроспективним пошуком.

При цьому застосовують різні мовні засоби, залежно від категорії користувачів і можливостей мов. Використовують мови, що забезпечують тільки можливості запитів, тобто виведення даних на екран чи друк в необхідному форматі; комплексні мови запитів-обновлень, що як більш розвинені мови дозволяють формулювати запити, які стосуються декількох взаємозв’язаних записів і дозволяють поновляти дані так же легко, як і формулювати запити; генератори звітів, що дозволяють вибирати необхідні дані і форматувати їх у вигляді потрібних форм документів; графічні мови, що дозволяють виводити інформацію у вигляді різних графіків і діаграм та інших зображувальних засобів.
При створенні ІПС неминуче виникає потреба у створенні тезаурусу системи, тобто набору спеціальних термінів для кодування понять та зв’язків між ними. Тезаурус дозволяє виражати зміст документів та запитів формалізованою інформаційною мовою.
Найбільш поширеними в сучасних автоматизованих ІПС є тезауруси з використанням мов дескрипторного типу, на відміну від тезаурусів з мовами класифікаційного типу, що використовуються, наприклад, в бібліотечно-бібліографічній класифікації з фіксованим обмеженим списком слів і словосполучень. Дескрипторами можуть бути окремі слова або словосполучення із групи синонімічних чи близьких за значенням слів, що використовуються в системі для контрольованого індексування (кодування) змісту документів і запитів встановленням відповідності між текстом документа і набором ключових дескрипторів.

Пошукова система — онлайн-служба, яка надає можливість пошуку інформації на сайтах в Інтернеті.

Всі пошукові системи Інтернету, складаються з трьох базових компонентів:

Веб-павук (web spider);
Індексатор;
Пошукова машина

     Web spider являє собою програму, що обходить сторінки із заданими URL, завантажує їх у базу даних, а потім архівує і перекладає в сховище один раз на добу. Робот розміщується на декількох машинах, кожна з яких виконує своє завдання. Так, робот на одній машині може качати нові сторінки, які ще не відомі пошуковій системі, а на іншій - сторінки, які були завантажені не менше місяця, але й не більше року тому. При цьому всі машини використовують одне й те саме сховище.
     При необхідності, роботу можна розподілити іншим способом: наприклад, розбивши список URL на N частин і роздавши їх N машинам. Паралельна робота веб-павука на декількох машинах дозволяє легко витримувати додаткове навантаження: при збільшенні кількості сторінок, які потрібно обійти роботу, достатньо просто розподілити завдання на більшу кількість машин. Дані, які збирає web spider, розміщуються в індексної базі.
     Індексатор - це програма, яка займається обробкою сторінок, завантажених за допомогою веб-павука. Її завдання - "прочитати" всі документи, витягти з них слова і розмістити їх в спеціальну базу даних - індекс. Інформація, що знаходиться у сховищі в стислому вигляді, поділяється на кілька частин. Ці частини поступово розподіляються між машинами, на яких запущено програму-індексатор. Як тільки індексатор на одній з машин закінчує обробку чергової частини сторінок, він звертається за наступною порцією. У результаті на першому етапі формується багато маленьких індексних баз, кожна з яких містить інформацію про деякої частини Інтернету, а вся обробка даних здійснюється паралельно, тому прискорення процесу індексації досягається за допомогою додавання машин в систему.
     Після того, як вся інформація оброблена, починається об'єднання (злиття) результатів, а також розміщення заміток: звідки узятий той чи інший документ. Завдяки тому, що часткові індексні бази і основна база, до якої звертається Пошукова машина, мають однаковий формат, процедура злиття є простою та швидкою операцією, що не вимагає жодних додаткових модифікацій часткових індексів. Основна база бере участь в аналізі як одна з частин нового індексу. Так, якщо об'єднуються N нових частин, то в аналізі бере участь N +1 фрагмент (N нових + основна база попередньої редакції). Крім того, єдиний формат дозволяє проводити тестування часткових баз ще до об'єднання їх з основною і виявляти помилки на більш ранньому етапі.
     Спеціальна програма складає таблиці перенумераціі документів бази та об'єднує вміст всіх частин. Серед сторінок з однаковими адресами вибирається найбільш свіжа версія, якщо при завантаженні веб-адрес (URL) останньою інформацією була помилка 404 (запитувана сторінка не існує), вона тимчасово видаляється з індексної бази. Паралельно здійснюється склейка дублів: сторінки, які мають однаковий зміст, але різні URL, об'єднуються в один документ.
     Збирання єдиної бази з часткових індексних баз являє собою простий і швидкий процес. Зіставлення сторінок не вимагає ніякої інтелектуальної обробки і відбувається зі швидкістю читання даних з диска. Якщо інформації, яка генерується на машинах-індексаторах, виходить занадто багато, то процедура "зливання" частин проходить у декілька етапів. Спочатку часткові індекси об'єднуються в декілька проміжних баз, а потім проміжні бази перетинаються з основною базою попередньої редакції. Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатися в інші проміжні бази, а вже потім об'єднуватися остаточно. Поетапна робота незначно уповільнює формування єдиного індексу і не відбивається на якості результатів.
     Пошукова машина - забезпечує точність і коректність обробки даних. Від її особливостей залежить, наскільки швидко і точно користувач знайде те, що його цікавить. Коли користувач вводить свій запит, пошукова машина шукає відповідь у своїй індексної базі і виводить результати у відповідності зі своїм алгоритмом пошуку.

вторник, 3 апреля 2012 г.

Оператори пошуку в Яндексі

domain: пошук по доменній зоні.

site: пошук сторінок з сайту.

host: оператор пошуку з домену:

Без префікса "WWW":

З префіксом "WWW":

Оператор url:

inurl: фільтрація пошуку за значенням УРЛа

title: оператор пошуку в заголовці сторінки (тег <title>)

lang: Оператор пошуку по мові

mime – пошуковий оператор по типу файла:

Пошукові оператори Google

site: пошук сторінок з сайту

site:пошук сторінок з каталогів сайту

Google Supplemental Indeх - "соплі"

Подача заявки на видалення сторінок з Google Supplemental Indeх («соплі») за допомогою панелі Вебмастера Google:

site:домен/& (site:домен/&) - пошук сторінок основного індекса Google

Оператор inurl: - фільтрація за параметром в УРЛі

intitle: оператор пошуку в заголовці (<title>)

Пошуковий оператор related:

Оператор info:

Оператор filetype:

Загальні для майжє всіх пошукових машин логічні оператори запитів

GOOGLE http://www.google.com

ПЕРЕВАГИ

СЕРВІСИ GOOGLE

ОПИС РОСІЙСЬКИХ ПОШУКОВИХ СИСТЕМ

RAMBLER.RU (Спрощено - http://www.r0.ru)

Пошуковий каталог+рейтинг+пошукова машина.

Пошуковий каталог, пошукова машина.

УКРАЇНСЬКА ПОШУКОВА СИСТЕМА "МЕТА"

Пошуковий каталог, пошукова машина.

вторник, 3 апреля 2012 г.

GOOGLE
http://www.google.com