Лінгвістичне забезпечення для створення уніфікованого пошукового образу та пошукового запиту документа
Вилегжаніна Т.І., заступник генерального директора
Національної парламентської бібліотеки України
Основний принцип предметизації – «зміст книги може бути адекватно передано спеціально сформульованими рубриками» – вперше визначив відомий американський спеціаліст у галузі бібліотечної справи – Ч. Кеттер у 1876 р.. У цій статті мова йтиме про новий інформаційний продукт, заснований на цьому принципі і підготовлений фахівцями Національної парламентської бібліотеки України – “Інформаційно-пошуковий тезаурус” (далі – Тезаурус). Це спеціально створений словник, котрий базується на штучній мові, призначеній для відображення змісту документів і запитів користувачів з метою їхнього подальшого пошуку в автоматизованих інформаційних системах (АІС) у тому числі – автоматизованих інформаційно-бібліотечних системах (АІБС). Тезаурус – це інструмент, завдяки якому можна сформувати уніфікований пошуковий образ документу (ПОД) і пошуковий образ запиту (ПОЗ). Його можна використовувати в бібліотечних та інформаційних установах, де аналіз документів та визначення їхнього предмету здійснюється індексатором за допомогою уніфікованої пошукової мови, а також застосовувати як термінологічний словник, в якому визначені структурні зв’язки, котрі відображають місце терміну у понятійній системі. За Тезаурусом будь-яка бібліотека може формувати власні авторитетні файли предметних рубрик, або визначати ключові слова. У майбутньому використання саме уніфікованої інформаційно-пошукової мови у бібліотеках забезпечить, при якісному індексуванні документів, високу точність пошуку в АІБС і дозволить оперативно реагувати на появу нових понять (термінів).
До створення Тезауруса фахівців НПБ України спонукало саме життя. Аналізуючи ефективність діючого в бібліотеці з 1995 року електронного каталогу нових надходжень, одним з пошукових елементів якого є предметні рубрики, ми дійшли висновку, що предметні рубрики, котрі були сформульовані без використання нормалізованої лексики, не можуть бути ефективним засобом предметного пошуку.
Роботу з уніфікації лінгвістичних засобів ми розпочали з вивчення методик предметизації і існуючого світового досвіду щодо складання різних за тематикою Тезаурусів, технічні прийоми побудови яких мають спільні і відмінні особливості. Зосередимо увагу на універсальних за змістом тезаурусах.
У 1998 році інформаційному продукту Бібліотеки Конгресу США, «Library of Congress Subject Headings» (LCSH) («Предметні рубрики Бібліотеки Конгресу») виповнилося 100 років. Спочатку ця система була створена для забезпечення предметного доступу до карткових каталогів. Сьогодні вона перетворилася на контрольований словник для індексування мільйонів бібліографічних записів у сучасних електронних каталогах. LCSH широко використовується у публічних, академічних, наукових бібліотеках США, а також у бібліотеках інших англомовних країн. Ця система динамічна, вона постійно оновлюється і редагується, тому що створювалася протягом тривалого часу, що спричинило протиріччя між стилем і формою предметних рубрик. Сьогодні авторитетний файл предметних рубрик Бібліотеки Конгресу США в режимі доступу Online складає понад 250 тис. авторитетних записів з щорічним оновленням і вилученням предметних рубрик (Наприклад, у 1997 році було введено 8 100 нових предметних рубрик і вилучено 6 800. Крім друкованих варіантів LCSH (20-е видання – в 1997 році), щоквартально виходить кумулятивне видання на мікрофоні, а з 1996 р. – на CD-ROMах.
Цікавий досвід Національної бібліотеки у Варшаві, де з 1956 року видається універсальний «Словник мови предметних рубрик Бібліотеки Народової». Остання версія 1997 року, яка є у НПБ України, включає 8,5 тис. дескрипторів і 2,5 тис. аскрипторів. Цей Тезаурус є стандартизованим документом, який використовують при індексуванні всі бібліотеки Польщі, незалежно від видів і форм власності, і незважаючи на те, що деякі з них застосовують і інші інформаційно-пошукові мови (наприклад, Бібліотека Сейму користується ще й “Eurovok”, а в Науковій бібліотеці Варшавського університету працюють також і за французькомовним тезаурусом “Rameau”).
Досвід щодо розроблення тезаурусів із суспільних наук має і Інститут наукової інформації суспільних наук РАН (Росія), де протягом 17 років традиційними методами створювалися зведені списки предметних рубрик, які були використані для тезаурусів:
«Економіка і демографія» (обсяг 5 тис. термінів, в т. 3 тис. дескрипторів);
«Право» (обсяг 8,1 тис. термінів, в т.ч. 3,5 тис. дескрипторів);
«Філософія» (обсяг 3,4 тис. термінів, в т.ч. 2,8 тис. дескрипторів).
На 9-й Міжнародній конференції «Крим-2002» «Бібліотеки і асоціації у мінливому світі: технології і нові форми співробітництва» ці інформаційні продукти були представлені бібліотечній громадськості у друкованому і електронному вигляді.
Як свідчить практика, тезауруси в електронних каталогах бібліотечних фондів універсального змісту зустрічаються дуже рідко. Відомий російський фахівець О.О.Лавреньова у виданні «Методика разработки информационно-поискового тезауруса» стверджує, що «глубоко проработанных тезаурусов по универсальной тематике в мире не существует» (М., 2001, с. 13). Мабуть що так, тому що будь-яка існуюча терміносистема не може претендувати не вичерпність, вона повинна постійно розвиватися, удосконалюватися, доповнюватися тощо.
Методика побудови Інформаційно-пошукового тезауруса Національної парламентської бібліотеки України, що містить 34 690 термінів, в т.ч. 14,6 тис. дескрипторів, 5 тис. аскрипторів спирається на загальні принципи предметизації, прийняті у світі. Під час роботи над Тезаурусом автори орієнтувалися на Британський стандарт BS 5723:1987 «Створення і ведення одномовних тезаурусів», котрий ідентичний Міжнародному стандарту ISO 2788:1986 «Документування – Методичні поради по створенню та веденню одномовних тезаурусів»; Державний стандарт ДСТУ 2398-94 «Інформація та документація. Інформаційні мови. Терміни та визначення»; Міждержавний стандарт ГОСТ 7.74-96 «Информационно-поисковые языки. Термины и определения».
Тезаурус є універсальним за змістом.
До його складу включені терміни, що означають: дії і процеси; поняття наук (соціально-гуманітарні, технічні, природничі) і дисциплін; назви організацій і установ; персоналії, які не передбачають авторства; види, типи і назви матеріалів, біологічних організмів, хімікатів, сільськогосподарських культур, порід тварин тощо; назви народів, етнічних груп, мов (природних, штучних, комп’ютерних), небесних тіл; стилі, жанри, види мистецтва, літератури і архітектури; соціальні і природні явища (війни, революції, битви, катастрофи та ін.); назви священних книг, міфічних персонажів, легенд тощо.
До Тезауруса також включені терміни, якими означено: континенти і регіони; країни, їхній адміністративно-територіальний поділ (головним чином України); назви етнічних земель, елементів земної поверхні (океанів, морів, гір тощо), парків, заповідних зон.
Тематичне охоплення Тезауруса визначається документним потоком, який опрацьовується у бібліотеках в автоматизованому режимі при створенні електронних каталогів та інших баз даних.
Тезаурус створювався з використанням:
Термінологічних словників;
Енциклопедій;
Довідкових видань;
Навчальних посібників;
Термінологічних стандартів;
Таблиць УДК;
Таблиць ББК.
Загальна кількість використаних джерел сягає 138.
Головний прийом будування Тезауруса – забезпечення однозначності термінів. На відміну від термінологічних словників, де передбачається багатозначність природного слововжитку, кожний термін у Тезаурусі розуміється лише в будь-якому одному значенні – дескрипторі.
Якщо те ж саме поняття має два, або більше тлумачень (синонімів), тільки одне з них умовно вибирається як дескриптор. Усі інші синонімічні тлумачення, котрі могли б слугувати пошуковими елементами, мають посилання на цей дескриптор.
Якщо термін є полісемічним (багатозначним) або омонімічним (звуковий збіг різних за значенням термінів), за ним у круглих дужках подаються уточнення, наприклад:
мости (споруди) морфологія (біол.)
мости (ходові частини) морфологія (лінгв.)
Терміни, включені до Тезауруса, подаються природною мовою, за винятком, якщо необхідно:
уточнити національні, мовні, етнографічні характеристики,
наприклад:
пісні українські
образотворче мистецтво російське
перекладні словники українсько-англійські;
дати назви теорій, законів, правил, явищ, систем тощо, складовою частиною котрих є прізвища авторів, винахідників,
наприклад:
Ома закон
Макаренка педагогічна система;
географічні назви
наприклад:
Карпати, гори
Дніпро, ріка
Терміни, включені до Тезауруса, подаються у множині.
В однині подаються тільки терміни, які означають:
конкретні одиночні поняття (Сонце, Всесвіт)
абстрактні поняття процесів, явищ (культурна спадщина; трудове виховання)
назви конкретних наук (психологія; педагогіка; медицина)
поняття, що у множині мають інше значення:
наприклад:
дисципліни (як навчальні предмети)
дисципліна (як твердо встановлений порядок).
Мовним критерієм при створенні Тезауруса було застосування національних термінів, незважаючи на наявність іноземного еквіваленту, за винятком, якщо іноземний еквівалент є більш розповсюдженим і вживаним. У такому разі, саме він є дескриптором, наприклад:
гносеологія (а не теорія пізнання)
Широковживані у природній мові абревіатури використовуються як дескриптор, наприклад:
ЮНЕСКО (а не Організація Об’єднаних Націй з питань освіти, науки і культури).
У Тезаурусі присутні три класи основних відносин, властивих дескрипторам і відображених у словникових статтях під відповідними символами: еквівалентні, ієрархічні, асоціативні. Для позначення основних зв’язків прийнято такі символи:
Для еквівалентних відносин
В означає «вживається». Коли існує вибір між кількома синонімами, то термін під цією позначкою є дескриптором
НВ означає «не вживати». Термін з цією позначкою є синонімом дескриптора, тобто аскриптором.
Для ієрархічних відносин
Ш означає «ширший термін». Це родовий термін, який передає ширше за обсягом більш загальне поняття.
Н означає «вужчий термін». Це видовий термін, який передає вужче за обсягом поняття з більш конкретним значенням. Деякі рішення щодо ієрархічних відносин між термінами у словарній статті прийняті умовно розробниками тезауруса.
Для асоціативних відносин
А означає «асоціативний термін». Це термін, якимось чином пов’язаний, споріднений з даним поняттям, але не є його синонімом, родовим або видовим поняттям.
Як зазначалося вище, на кожний дескриптор існує словникова стаття, яка обов’язково має російський відповідник дескриптору, а також, відповідник латинською мовою на переважну більшість термінів з біології та медицини. Порядок елементів у рамках словникової статті стандартний, внаслідок чого забезпечується однозначність розуміння терміну. Словникова стаття відображає предмет у лаконічній формі і забезпечує уніфікацію відображення інформаційного змісту документів і запитів. Вона може мати примітки (енциклопедичного, уточнюючого, комплексного, шаблонного характеру), що розкривають значення дескриптора в індексній мові.
ПРИКЛАД СЛОВНИКОВОЇ СТАТТІ
театр (HП)
Під терміном театр збирається література про вид мистецтва, що відображає життя у сценічній дії, яку виконують актори перед глядачами. Література про установи, що здійснюють сценічні вистави певним колективом артистів, збирається під терміном театри
рос: театр
HВ театральне мистецтво
Ш видовищні мистецтва
H античний театр
· театр малих форм
H за сценічними жанрами
· драматичний театр
· ляльковий театр
· музичний театр
· сакральний театр
· театр пантоміми
H окремих країн
· театр російський
· театр український
· театр французький
А артисти театру і кіно
· драматургія
· кіно
· театри
· театрознавство
Інформаційно-пошуковий тезаурус складається з 8 розділів:
Лексико-семантичне зібрання термінів (загальний розділ)
Покажчик географічних назв.
Покажчик персоналій.
Покажчик установ і організацій.
Покажчик формальних підзаголовків.
Покажчик російських відповідників.
Покажчик термінів латинською мовою.
Покажчик термінологічних джерел.
Перший розділ – це основний абетковий пермутаційний покажчик, який має три типи словникових статей: дескрипторна стаття; посилання на дескриптори; пермутаційне посилання. Всі статті розташовані за алфавітом. На традиційних паперових носіях передбачається їхнє різне графічне відображення.
Всі інші розділи Тезаурусу є додатковими і призначаються для полегшення пошуку необхідного дескриптора.
Декілька слів щодо актуалізації тезауруса. Відповідно до статті 16 Закону України «Про авторські і суміжні права» виключні майнові права на службовий твір, яким є даний Тезаурус, належать Національній парламентській бібліотеці України. Тому актуалізація Тезаурусу буде здійснюватися саме власником цього інформаційного продукту централізовано, за визначеною періодичністю.
Нові терміни можуть використовуватися для індексування документів тільки після їхнього офіційного представлення (в друкованому або електронному вигляді). Будь-які несанкціоновані зміни у Тезаурусі не дозволяються.
Національною парламентською бібліотекою України у подальшому будуть створюватися методики індексування документів із використанням Тезауруса.
Національна парламентська бібліотека України буде приймати пропозиції від будь-якої бібліотеки або інформаційної установи, які погодяться дотримуватися встановлених методик індексування і надаватимуть свої пропозиції щодо актуалізації Тезауруса (пошта: 01001. Київ-1, Грушевського, 1. Сектор Тезауруса; факс: (044) 228-85-12; е-mail: ipt@nplu.kiev.ua)
Вважаємо за доцільне надати ще декілька порад щодо використання тезаурусу:
Здійснювати індексування відповідно до ДСТУ 2395-2000 (ISO 5963:1985) «Інформація та документація. Обстеження документа, встановлення його предмета та вибір термінів індексування. Загальна методика».
Відбирати з Тезаурусу дескриптор, який більш за все буде відображати зміст документу.
Формування предметної рубрики (далі ПР) здійснюйте відповідно до прийнятої в світі стандартної моделі:
Кількість підзаголовків у ПР не регламентується. Всі підзаголовки теж можна уніфікувати, якщо використовувати терміни ,наведені у Тезаурусі.
Кількість ПР на один документ не регламентується. Заохочується доцільне багаторазове відображення документу, що дозволяє індексаторові виявити важливі аспекти і всебічно розкрити їх в авторитетних файлах ПР. Зокрема, кількість ПР у бібліографічному запису Бібліотеки Конгресу США дорівнює 10-ти і більше.
Тезаурус повинен розглядатися кожною бібліотекою, котра його використовує, як нормативний документ, що є авторитетним джерелом для складання предметних рубрик.
Таким чином авторитетні файли предметних рубрик, побудовані бібліотеками країни з використанням Тезаурусу, будуть слугувати засобом обміну інформацією і доступу до баз їхніх даних.