Соціальна інформатика: Загальні відомості про інформаційно

Інформаційно–пошукові системи (ІПС) — це різновид автоматизованих інформаційних систем, в яких завершальна обробка даних не передбачається. Ці системи призначені для пошуку текстів (документів, їх частин, фактографічних записів) в сховищах (базах даних) за формальними характеристиками.
Тому в роботі ІПС можна виділити два основних етапи:

перший — збір і зберігання інформації
другий — пошук і видача інформації користувачам

В економіці ІПС можуть використовуватися для зберігання і пошуку нормативних, планових, бухгалтерських та інших документів, даних для наукових досліджень.
ІПС відрізняються одна від одної за багатьма ознаками, але при вирішенні задач збору, зберігання і видачі інформації мають такі спільні процедури:

аналіз документів і їх добір;
створення пошукового образу документів (ПОД);
запис документів і їх пошукових образів на прийняті носії;
зберігання документів і ПОД;
аналіз запитів;
видача документів користувачам.

Як уже зазначалося, на основі ІПМ використовують два основних режими чи методи організації пошуку: з вибірковим розподілом інформації і з ретроспективним пошуком.

При цьому застосовують різні мовні засоби, залежно від категорії користувачів і можливостей мов. Використовують мови, що забезпечують тільки можливості запитів, тобто виведення даних на екран чи друк в необхідному форматі; комплексні мови запитів-обновлень, що як більш розвинені мови дозволяють формулювати запити, які стосуються декількох взаємозв’язаних записів і дозволяють поновляти дані так же легко, як і формулювати запити; генератори звітів, що дозволяють вибирати необхідні дані і форматувати їх у вигляді потрібних форм документів; графічні мови, що дозволяють виводити інформацію у вигляді різних графіків і діаграм та інших зображувальних засобів.
При створенні ІПС неминуче виникає потреба у створенні тезаурусу системи, тобто набору спеціальних термінів для кодування понять та зв’язків між ними. Тезаурус дозволяє виражати зміст документів та запитів формалізованою інформаційною мовою.
Найбільш поширеними в сучасних автоматизованих ІПС є тезауруси з використанням мов дескрипторного типу, на відміну від тезаурусів з мовами класифікаційного типу, що використовуються, наприклад, в бібліотечно-бібліографічній класифікації з фіксованим обмеженим списком слів і словосполучень. Дескрипторами можуть бути окремі слова або словосполучення із групи синонімічних чи близьких за значенням слів, що використовуються в системі для контрольованого індексування (кодування) змісту документів і запитів встановленням відповідності між текстом документа і набором ключових дескрипторів.

Пошукова система — онлайн-служба, яка надає можливість пошуку інформації на сайтах в Інтернеті.

Всі пошукові системи Інтернету, складаються з трьох базових компонентів:

Веб-павук (web spider);
Індексатор;
Пошукова машина

     Web spider являє собою програму, що обходить сторінки із заданими URL, завантажує їх у базу даних, а потім архівує і перекладає в сховище один раз на добу. Робот розміщується на декількох машинах, кожна з яких виконує своє завдання. Так, робот на одній машині може качати нові сторінки, які ще не відомі пошуковій системі, а на іншій - сторінки, які були завантажені не менше місяця, але й не більше року тому. При цьому всі машини використовують одне й те саме сховище.
     При необхідності, роботу можна розподілити іншим способом: наприклад, розбивши список URL на N частин і роздавши їх N машинам. Паралельна робота веб-павука на декількох машинах дозволяє легко витримувати додаткове навантаження: при збільшенні кількості сторінок, які потрібно обійти роботу, достатньо просто розподілити завдання на більшу кількість машин. Дані, які збирає web spider, розміщуються в індексної базі.
     Індексатор - це програма, яка займається обробкою сторінок, завантажених за допомогою веб-павука. Її завдання - "прочитати" всі документи, витягти з них слова і розмістити їх в спеціальну базу даних - індекс. Інформація, що знаходиться у сховищі в стислому вигляді, поділяється на кілька частин. Ці частини поступово розподіляються між машинами, на яких запущено програму-індексатор. Як тільки індексатор на одній з машин закінчує обробку чергової частини сторінок, він звертається за наступною порцією. У результаті на першому етапі формується багато маленьких індексних баз, кожна з яких містить інформацію про деякої частини Інтернету, а вся обробка даних здійснюється паралельно, тому прискорення процесу індексації досягається за допомогою додавання машин в систему.
     Після того, як вся інформація оброблена, починається об'єднання (злиття) результатів, а також розміщення заміток: звідки узятий той чи інший документ. Завдяки тому, що часткові індексні бази і основна база, до якої звертається Пошукова машина, мають однаковий формат, процедура злиття є простою та швидкою операцією, що не вимагає жодних додаткових модифікацій часткових індексів. Основна база бере участь в аналізі як одна з частин нового індексу. Так, якщо об'єднуються N нових частин, то в аналізі бере участь N +1 фрагмент (N нових + основна база попередньої редакції). Крім того, єдиний формат дозволяє проводити тестування часткових баз ще до об'єднання їх з основною і виявляти помилки на більш ранньому етапі.
     Спеціальна програма складає таблиці перенумераціі документів бази та об'єднує вміст всіх частин. Серед сторінок з однаковими адресами вибирається найбільш свіжа версія, якщо при завантаженні веб-адрес (URL) останньою інформацією була помилка 404 (запитувана сторінка не існує), вона тимчасово видаляється з індексної бази. Паралельно здійснюється склейка дублів: сторінки, які мають однаковий зміст, але різні URL, об'єднуються в один документ.
     Збирання єдиної бази з часткових індексних баз являє собою простий і швидкий процес. Зіставлення сторінок не вимагає ніякої інтелектуальної обробки і відбувається зі швидкістю читання даних з диска. Якщо інформації, яка генерується на машинах-індексаторах, виходить занадто багато, то процедура "зливання" частин проходить у декілька етапів. Спочатку часткові індекси об'єднуються в декілька проміжних баз, а потім проміжні бази перетинаються з основною базою попередньої редакції. Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатися в інші проміжні бази, а вже потім об'єднуватися остаточно. Поетапна робота незначно уповільнює формування єдиного індексу і не відбивається на якості результатів.
     Пошукова машина - забезпечує точність і коректність обробки даних. Від її особливостей залежить, наскільки швидко і точно користувач знайде те, що його цікавить. Коли користувач вводить свій запит, пошукова машина шукає відповідь у своїй індексної базі і виводить результати у відповідності зі своїм алгоритмом пошуку.

Соціальна інформатика

вторник, 3 апреля 2012 г.

Загальні відомості про інформаційно–пошукові системи

Комментариев нет:

Отправить комментарий

вторник, 3 апреля 2012 г.

Загальні відомості про інформаційно–пошукові системи

Комментариев нет:

Отправить комментарий

вторник, 3 апреля 2012 г.