В.Шарко, О.Вознюк

Розвиток системи фільтрації текстів на базі значеннєвих ключів
і логічних фільтрів для реалізації програмних засобів
інтелектуального аналізу інформаційного простору

 

Інформаційна система Національного інституту україно-російських відносин повинна містити систему автоматизації документообігу (в якості такої системи була використана система колективної роботи Lotus Notes 4.5, на основі якої в теперішній час розроблені декілька баз даних (БД) та інтерфейсних додатків). Основою будь-якого документа, що зберігається в БД, являється текстова інформація, тому при значних обсягах БД велике значення мають засоби автоматизації інтелектуальних операцій при роботі з текстами.

З іншого боку, у Lotus Notes 4.5 (а також і в будь-який іншій системі автоматизації документообігу) подібні засоби реалізовані в недостатнім ступені. Наприклад, щоб знайти необхідний документ, що зберігається в БД, можна переглянути візуально вміст БД. Однак для одержання результату в плині розумного часу варто тримати в пам'яті заголовки документів за розглянутий період. У якості іншого способу пошуку можна запропонувати вбудовані функції пошуку по ключовій конструкції, реалізованої як у Lotus Notes 4.5, так і в інших системах (наприклад, функції пошуку в операційній системі Windows). Недоліком являється те, що подібні функції роблять пошук буквально і вимагає повної відповідності тексту запиту, не з огляду на розмаїтості конкретної мови. Якщо, наприклад, здійснюється пошук по фразі з п'яти слів, то будуть знайдені тексти, що містять кожне з них, причому саме в заданій формі. Тому у випадках, коли користувач пам'ятає зміст потрібного документа тільки загалом, подібні засоби пошуку малоефективні.

Аналогічні проблеми виникають при пошуку документів у Internet. Добре відомі пошукові системи (Alta Vista, HotBot, InfoSeek і ін.), що забезпечують доступ до великої кількості документів. Можливості пошуку в зазначеному класі систем набагато більш розвинені, ніж у настільних системах типу MS Word, однак ефективність їх недостатня.

Таким чином, основні недоліки пошукових систем Internet та інших стандартних засобів наступні:

  1. Відсутність пошуку на частковий збіг - так називаного нечіткого пошуку (знаходяться тільки документи, що містять усі слова запиту, тому досить одне слово запиту замінити на синонім або змінити форму та потрібний документ не буде знайдений).
  2. Відсутність морфологічного аналізу (наприклад, слова "система" і "системи" при пошуку вважаються різними).
  3. Низька якість ранжирування документів по убуванню ступеня відповідності запиту - на початку списку часто надаються документи, що не відповідають запиту, а потрібні документи видаються після них.
  4. Високий рівень шуму: не виключена поява в списку знайдених документів, що не містять жодного слова запиту.

Слід уточнити, що не всі наведені недоліки відносяться до кожної з пошукових систем, однак кожна з них обов'язково має деякі з указаних. Так, наприклад, Alta Vista має засоби морфологічного аналізу слів англійської мови і реалізує нечіткий пошук, однак ранжирування досить неефективне.

Розглянемо алгоритм пошуку окремих інформаційних об'єктів (наприклад, текстових файлів), де , - кількість об'єктів, у деякому інформаційному просторі (наприклад, на носії або в електронній мережі), досить просто реалізований у вигляді окремого додатка для персональної ЕОМ.

Припустимо, що кожний інформаційний об'єкт може бути описаний сукупністю ознак , , де - кількість ознак (наприклад, сукупність літер одного ключового слова), значення яких утворять вектор розмірності .

Припустимо також, що крім об'єктів в інформаційному просторі присутні інші об'єкти , де , що будуть являтися шумовими.

Таким чином,

. (1)

Приймемо для простоти , тобто наявність одного корисного інформаційного об'єкта і безкінечна множина інших:

(2)

Інформаційний простір, діє деяким чином (розглядається нижче) на , утворює вектор реалізації . Таким чином, задача зводиться до визначення наявності або відсутності корисного об'єкта з параметрами, що характеризуються вектором , укладеного в реалізації , в інформаційному просторі :

, (3)

де "1" відповідає наявності, "0" - відсутності корисного об'єкта. У теорії виявлення показано, що для ухвалення рішення можна обчислювати відношення правдоподібності (ОПП)

, (4)

де - щільність імовірності реалізації при наявності корисного об'єкта з параметрами , - щільність імовірності реалізації при відсутності корисного об'єкта, і порівнювати результат із деяким порогом : при перевищенні порога приймається рішення про наявність корисного інформаційного об'єкта, у противному випадку - відсутності.

У випадку нормального розподілу і вираження (4) записується у виді

. (5)

При пошуку декількох корисних інформаційних об'єктів необхідно обчислювати (5) для всіх , послідовно порівнювати з порогом і відбирати ті об'єкта, для котрих (5) перевищує встановлений поріг (мал.1)

Розглянемо можливість практичної реалізації вираження (5) стосовно до текстових об'єктів (текстовим файлам). Припустимо, що задане одне ключове слово, що представимо у вигляді вектора , значеннями якого є літери цього слова. Тому що будь-який текст являє собою деякий набір слів , , - кількість слів у тексті, розділених пробілами, то будемо знаходити скалярний добуток вектора з кожним словом із метою прийняття рішення про те, чи є слово ключовим. При обчисленні (5) варто використовувати операції логічного множення, наприклад: (СТОЛ)and(СТУЛ)=1101, а результат виражати як суму літер , що збіглися. У наведеному прикладі результат дорівнює 3.

Для прийняття рішення необхідно одержати нормоване значення результату. Однак, якщо нормувати до довжини досліджуваного слова , то можлива ситуація прийняття помилкового рішення типу: "ПО" (прийменник), "ПОЛІТИКА" (слово), , і у випадку приймається помилкове рішення про те, що прийменник "ПО" являється ключовим словом "ПОЛІТИКА". З іншого боку, при нормуванні до довжини ключового слова , то можлива ситуація прийняття помилкового рішення типу: "ПЕРЕМОГА", "ТАК", , , у випадку також приймається помилкове рішення про те, що слово "ПЕРЕМОГА" являється ключовим словом "ТАК". Після експериментування був зроблений висновок про доцільність обчислення двох нормованих значень і , що відповідають і , і вибору в якості кінцевого результату, порівнюваного з порогом, мінімального. Тоді, у першому прикладі , у другому прикладі , отже приймаються вірні рішення. Описаний приклад дозволяє істотно знизити імовірність помилкового рішення.

Результатом впливу ключового слова на текстовий об'єкт є кількість слів даного тексту, що збігаються з , при цьому в якості алгоритму визначення збігу використовується алгоритм, описаний вище. При впливі декількох ключових слів на об'єкт результатами являються значення кількості по кожному з ключових слів, а також, при необхідності, їхня загальна сума. Отримані результати можна використовувати безпосередньо при ухваленні рішення про те, наскільки досліджуваний текстовий об'єкт відповідає даній темі, описаною набором ключових слів, або при автоматичному прийнятті рішення. В останнім випадку варто знайти нормовані значення по кожному з ключових слів і визначити відповідні пороги.

Основними гідностями розробленого алгоритму являються наступні:

  1. алгоритм аналогічний процесу визначення теми текстового об'єкта людиною, коли робиться поверхневий перегляд із метою приблизної оцінки кількісного складу ключових слів, що відповідають даній темі; алгоритм не прив'язаний до конкретної мови, що дозволяє аналізувати тексти на невідомій мові;
  2. алгоритм простий, тому в ході експериментальних досліджень проявилося його висока швидкодія; ця властивість особливо важливо при обробці великого числа текстових об'єктів.

Основними нестачами алгоритму є наступні:

  1. необхідність установки значень порогів; у процесі експериментів ці значення установлювалися виходячи з евристичних міркувань; неможливість обліку лексичних особливостей конкретної мови;
  2. неможливість обліку конструкцій більших, ніж окреме слово (наприклад, словосполучень або речень).

Таким чином, після теоретичних і практичних досліджень був розроблений додаток "Фільтрація текстів" (ПФТ), що реалізує розроблений алгоритм, для персональних ЕОМ, що функціонують під керуванням ОС Windows 95/NT. ПФТ реалізовано в середовищі Delphi 3 і виконує наступні функції:

  1. запис в автоматичному режимі HTML-файлів, розташованих у Internet, у зазначений користувачем каталог;
  2. обробка записаних файлів із метою визначення їхньої тематики або пошук серед них файлів заданої тематики;
  3. вивід результатів аналізу в зручній формі.

Структурна схема додатка подана на мал.2.

Порядок роботи з ПФТ.

Основне меню ПФТ містить наступні пункти: "Работа", "Набор", "Анализ" і "Помощь" (мал.3).

Пункт меню "Робота" забезпечує створення нового набору ключових слів, що характеризують конкретну тематику, редагування існуючого (усі набори ключових слів зберігаються в окремому файлі *. swh). На мал.4 показане діалогове вікно, що забезпечує виконання зазначених функцій.

Пункт меню"Набір" забезпечує функції редагування, указані вище. Пункт меню "Аналіз" забезпечує введення початкової адреси Internet, глибину пошуку, вибір каталогу, в якому будуть зберігатися HTML-файли, уведення значень порогів. Фрагмент результату аналізу поданий на мал.5.

Для одержання більш докладної інформації про порядок роботи додатка варто читати інструкцію, що викликається з пункту меню "Помощь".

Додаток ПФТ зберігається у вигляді інсталяційного пакету на сервері інституту за адресою: "Serv1/ Common/ TF/ 144mb/ Disk1" і "... / Disk2". Програмою , що запускає , є " Serv1/ Common/ TF/ 144mb/ Disk1/Setup. exe". У процесі інсталяції необхідно виконувати запропонованої інструкції.