Оригінальна стаття

 

Безперешкодний пошук цифрових

і текстових ресурсів

Підсумковий звіт

Інституту музейного та Національного бібліотечного обслуговування

Грант на лідерство № 178

Головні дослідники:

Майкл К. Бакленд, Фредрік К. Гей та Рэй Р. Ларсон

Школа інформаційного менеджменту і систем

Каліфорнійський університет, Берклі, CA 94720-4600

20 грудня 2002 р.

1. Резюме

Цей трирічний проект продемонстрував полегшений доступ до письмовими матеріалами і числовим даними по тій же темі при пошуку в двох дуже різних типах баз даних (книги, статті та їх бібліографічні записи) і числових даних (соціально-економічні бази даних).  Також була розроблена підтримка пошуку для поперечного пошуку.

При цьому дані, знайдені в текстовій базі даних, можуть використовуватися для пошуку пов’язаних даних в числовий базі даних і т. д., а також навпаки.

2. Вступ

Надія на нову технологію в бібліотеках полягала в підтримці безперешкодного пошуку в зростаючому діапазоні ресурсів при зростаючому цифровому ландшафті.  Реальність така, що доступні в мережі ресурси, такі як вміст добре укомплектованої довідкової бібліотеки, досить різнорідні, особливо за різноманітністю індексації, класифікації – визначення, категоризації та інших форм «метаданих».

Мета цього проекту – продемонструвати покращений доступ до письмових матеріалів і числових даних по одній і тій же темі при пошуку в двох абсолютно різних типах баз даних: текстові бази даних (книги, статті та їх бібліографічні записи) і числові дані (соціально-економічні бази даних).

Проблема в тому, що до цих пір не існувало простого шляху інтеграції числових баз даних з бібліографічними і текстовими базами даних, які можуть містити відомості про причину і наслідок. Словник який класифікує числові дані, може сильно відрізнятися від предметних заголовків, які використовуються для книг, журналів, статей в журналах і газетних статей на ту ж цікаву тему. Також повинне бути середовище підтримки пошуку, яке полегшує такий поперечний пошук, встановлення з’єднань, передачу даних і корисний виклик відповідних утиліт.

Цей проект вирішує обидві проблеми за допомогою розробки і демонстрації бібліотечного шлюзу під забезпечення підтримки пошуку як для текстових, так і для соціально-економічних числових баз даних.  Шлюз допоможе користувачам проводити пошук в кожному типі бази даних, приймаючи запит в термінах користувачів бібліотеки, а потім ще пропозиція спеціалізованих термінів категоризації для пошуку в інформаційному ресурсі (базі даних). Намір полягає в тому, що якщо ви знайшли щось цікаве в соціально-економічній базі даних, шлюз допоможе вам знайти документи на ту саму тему в текстовій базі даних, і навпаки.  Підбір кращих пошукових запитів в цільові бази даних підтримуються за допомогою «Індексів словникового запасу введення», які нагадують індекси Мелвіла Дьюї  «Відносний індекс», але створюються з використанням методів статистичної асоціації.

 

3 Набори даних

Ми отримали копію файлів MARC з MELVYL, онлайн-каталогу Каліфорнійського університету.  Нами обрано 4 246 510 записів, що містять хоча б один предметний заголовок (поле 6xx).  З цього набору рекордів ми витягли поля, що містять заголовки і підзаголовки (245, підполя a і b), резюме, що описують обсяг і загальний вміст матеріалу (520, підполі а), і основні предметні рубрики (6хх, підполі а).  Два зразки записів показані нижче.

Приклад запису 1:

<DOC>

 <001> 73180254 // r86 </ 001>

 <245> <a> Дослідження оперантного обумовлення при відстроченому підкріпленні

в ранньому дитинстві </a> </ 245>

 <650> <a> Дитяча психологія.  </a> </ 650>

 <650> <a> Оперантное кондиціонування.  </a> </ 650>

 </ DOC>

Приклад запису 2:

 <DOC>

 <001> 73180255 </ 001>

 <245> <a> Хвороба рептилій: розпізнавання і лікування, </a> </ 245>

 <650> <a> Рептилії </a> <x> Хвороби. </ X> </ 650>

 </ DOC>

4. Міра асоціації

Ми використовували методи статистичної асоціації, щоб вказати шлях від слів в запиті до тематичного класу класифікації (класифікаційні номери, коди категорій, предметні рубрики і т. д.) в наборі даних. Заключний етап для створення Індексу словникового запасу на вході полягає в розробці вагового коефіцієнта максимальної правдоподібності, пов’язаного з  кожним терміном (словом або фразою) і кожним значенням метаданих. Будується двостороння таблиця непередбачених обставин для кожної пари слів / словосполучень і класифікаційні коди ¡, як показано в таблиці 1., де a – кількість

Таблиця 1: Таблиця непередбачених обставин від слів/фраз до класифікації

 

документи, заголовки яких містять слово або фразу і класифікуються за класифікаційного коду; 

b – це число документів, заголовки яких містять слово або фразу, але не класифікуються за класифікаційного коду;

c – це кількість документів, заголовки яких не містять слова або фрази, але класифікуються за класифікаційного коду;

і d – є кількість документів, з назвами, що не містять слово або фразу, і не класифіковані кодом класифікації.

 

Оцінка асоціації між a словом, b фразою і класифікацією с обчислюється за методикою Дун-Нін [3]

а також

Метаданими можуть бути предметні рубрики Бібліотеки Конгресу (LCSH), Класифікація Бібліотеки Конгресу.

Номери, номери класифікацію патентів США і т. д., що можна створювати не тільки асоціативні словники які будуть відображати слова на природних мовах в терміни метаданих, а також, навпаки, асоціативні словники які повернуть слова на природній мові, які тісно пов’язані з терміном метаданих.  Якщо є навчальні записи, що містять тексти на двох мовах, тоді можна було б створювати асоціативні словники, які будуть, у відповідь на слова як від слів запиту на одній мові, повертати слова на іншій мові, які пов’язані зі словами запиту.

На додаток до вимірювання зв’язку на основі відносини максимального правдоподібності існує ряд інших заходів асоціації, такі як статистика хі-квадрат, міра взаємної інформації та т. д., які можна використовувати при створенні асоціативних словників.

 

5. Словникових покажчиків для входу

Індекси словника введення (EVI) – це асоціативні словники, які відображають словники з однієї мови на іншу.

Ми створили індекс словникового запасу, який відображає слова природної мови в Предметні заголовки Бібліотеці Конгресу (LCSH), які найбільш тісно пов’язані зі словами запиту, і запис в словниковий покажчик, який відображає LCSH на слова, які найбільш тісно пов’язані з кожним основним заголовком в LCSH .

 

5.1 Попередня обробка

Навчальний набір, який використовується для створення цього словникового покажчика для перетворення слів в LCSH, містить бібліографічні записи, як мінімум з одним призначеним предметним заголовком Бібліотеки Конгресу (т. е. Як мінімум з одним полем 6xx).  Слова витягуються з підполів a і b в поле 245 заголовка і з підполя a в поле 520.  В тексти в підполях a і b поля 245 і підполі a поля 520 розмічені;  стоп-слова видалені;  а інші слова нормалізовані.  Жетон тут може містити тільки букви і цифри.  Усі потім наступні токени переводяться в нижній регістр.  У стоп-аркуші близько 600 слів, які вважаються змістовними: несучі слова, такі як займенники, прийменники, координатори, визначники тощо.  Ми посилаємося на слова які не використовуються в якості слів змісту.  Слова змісту нормалізовані з використанням таблиці, отриманої з програми Англійська морфологічний аналізатор [2].  У таблиці іменники множини відображаються в однині;  дієслова в основний формі (форма інфінітива);  прикметники в вищого та найвищого ступеня до позитивної формі.  Наприклад, іменник у множині принтери скорочується до принтера, а діти – до дитини;  порівняльне прикметник довше і найвищий ступінь прикметника довгі зменшуються до тих пір; і друк, і роздруківки зводяться до одного й того ж – базової формі друку.  Коли слово, що належить більш ніж до однієї категорії частин мови, може бути скорочено до кількох ніж одна форма, вона замінюється першою формою, вказаною в таблиці морфологічного аналізатора.  Наприклад, слово saw, яке може бути іменником або дієсловом «бачити» в минулому часі, не скорочується «бачити».  Тематичні рубрики витягуються з підполя a полів 600, 610, 611, 630, 650 і 651. Предметні заголовки: змінені на нижній регістр.  Кожен предметний заголовок в підполі, а поля 6xx розглядаються як одна одиниця при створенні слова в словниковий покажчик статей LCSH.  Тексти в записах MARC кодуються в кодуванні MARC-21.

Символи з умляутами кодуються двома байтами, один байт для основного символу, за яким слідує інший для діакритичного знака.  При попередній обробці даних ми не видаляли діакритичні знаки.

З цього навчального набору записів MARC ми створили індекс словника словникових статей LCSH, використовуючи міру статистичної зв’язку, що описана в розділі 4.

 

5.2 Індекс словникового запасу слів в LCSH

Слово в словниковому покажчикустатей LCSH відображається як слово в LCSH, які найбільш тісно пов’язані з словом запиту.  Як приклад, в таблиці нижче представлені десять кращих LCSH (тільки підполі а в нижній регістр), які найбільш тісно пов’язані з запитним словом алкоголізм.

    

Індекс словникового запасу статей приймає в якості запиту фрагмент тексту, який може являти собою окреме слово, фразу, набір ключових слів, неповного (або повного) пропозиції, назви книги і т. Д. Запит обробляється так само, як тексти, витягнуті з полів 245  і 520 MARC при створенні словника. Запит спочатку токенізуется, ігноровані слова видаляються, а потім слова змісту нормалізуються. Набір нормованих слів потрапляють в покажчик словникового запасу. Для кожного слова список ранжуваних LCSH з асоціацією ваги, як показано в таблиці вище, генеруються.  Ранжовані списки LCSH для всього контенту слова запиту об’єднуються для створення єдиного ранжированного списку LCSH для всього запиту.  Ніякої різниці немає між мовами, тому включаються іноземні слова, що зустрічаються в назвах книг на іноземних мовах.

Наприклад, запит з використання слова Wirtschaftspolitik, що на німецькій мові означає економічна політика, призводить до відповідно наступним предметними рубриками:

Як приклад запиту, що містить більше одного слова, десять кращих LCSH (тільки підполі а в нижньому регістрі), які найбільш тісно пов’язані із запитом арахісове масло, перераховані в таблиці нижче.

Ранжований список LCSH для запиту арахісове масло було отримано шляхом об’єднання ранжувального списку LCSH для слова запиту арахісу і для слова запиту масла.  При об’єднанні ранжувальних списків LCSH, додаються ваги для того ж LCSH.  Як інший приклад в наступній таблиці представлені найпопулярніші десять LCSH (тільки підполі а в нижньому регістрі) для запиту В’єтнамська війна.

5.3 LCSH у словниковий покажчик словникової статті

Приклади, що представлені в попередньому розділі, продемонстрували використання асоціативних заходів при створенні в Індекси словника статей, які запропонують ранжований список LCSH, які найбільш тісно пов’язані з запитом.  Та ж міра статистичної асоціації також може використовуватися для створення індексів словникового запасу статей, які запропонує ранжований список слів або фраз, які найбільш тісно пов’язані з LCSH.  З цього ж навчальний набір бібліографічних записів, ми створили словниковий індекс LCSH-to-word, який повертає список слів, які найбільш тісно пов’язані з LCSH.  Наприклад, з двадцяти найкращих слів, знайдених в назві або замітки полів, які найбільш тісно пов’язані з темою Алкоголізм представлені в таблиці нижче.

Зверніть увагу на наявність іноземних слів (алкоголізм, алкоголь, алкоголь і спирт).  Ці слова, що взяті з заголовків на іноземних мовах, демонструють, то, що методика не залежить від мови та може бути прийнятий в будь-якій країні.  Це також може підтримувати різноманітність в бібліотеках США, дозволяючи пошук на іспанській або будь-якою іншою мовою та іншими мовами, якщо навчальний набір містить слова змісту на цих мовах в заголовках або анотаціях.

Обидва словникових покажчика статей знаходяться у відкритому доступі за адресою http://metadata.sims.berkeley.edu/prototypesI.html.

 

6. Доступ до онлайн-каталогу

Щоб продемонструвати можливість пошуку з бібліографічного запису в деяку числову базу даних, перший крок полягає в тому, щоб отримати і відобразити бібліографічний запис з онлайн- каталогу.  Ми реалізували веб- інтерфейс для пошуку в онлайн- каталогах з використанням власної реалізації протоколу Z39.50.  Крім цього, протокол Z39.50, важливий компонент, який робить можливим пошук в віддалених онлайн-каталогах, – це також і шлюз між протоколом HTTP (протокол передачі гіпертексту) і протоколом Z39.50.  Хоча HTTP поза Z39.50 – це протокол без встановлення з’єднання, Z39.50 – це протокол із установленням з’єднання.  Шлюз підтримує підключення до віддалених серверів Z39.50.  Всі пошукові запити до будь-якого віддаленого сервера Z39.50 проходять через шлюз.

Малюнок 1: Інтерфейс пошуку.

Веб-інтерфейс пошуку, показаний на малюнку 1, приймає запит в якості вхідних даних, а потім відправляє запит в слово до LCSH індекс початкового словникового запасу.  У відповідь на запит ранжируваних список LCSH, повертається, як найтісніше пов’язаний із запитом.

На малюнку 2 представлені п’ять кращих предметних заголовків, найбільш тісно пов’язаних із запитом публічні бібліотеки у Каліфорнії.  З цього ранжованого списку LCSH користувач може вибрати один LCSH, а потім клацнути Кнопку Пошук Melvyl для пересилання обраного LCSH в якості запиту в онлайн-каталог MELVYL.  Веб-клієнт буде

Малюнок 2: Результати пошуку EVI.

формулювати пошуковий запит з обраного LCSH і відправить його на веб-сервер, який, в свою чергу, відправить його до шлюзу.  Шлюз встановить з’єднання з віддаленим сервером Z39.50 (MEYLVL онлайн каталог), якщо з’єднання ще не існує.  Потім шлюз відправить запит на віддалений сервер Z39.50.  На сайті MELVYL буде виконаний точний пошук по предметної рубрики.  І пошукові результати підуть для відображення на екрані користувача.

Запис результату пошуку, якщо такий є, містить тільки ім’я автора і заголовок.  Початкове відображення може не перерахувати всі отримані записи, так як тільки невелика кількість бібліографічних записів повертається у відповідь на кожен запит через обмежений розміру повідомлення.  Однак у користувача є можливість запросити більше витягнутих записів шляхом вказівки діапазону повертаються записів з використанням протоколу Z39.50.  На малюнку 3 представлені 4 з

Малюнок 3: Частина результату пошуку, що повертається MELVYL.

132 заголовка отримані в результаті точного пошуку по предметним заголовкам за запитом публічні бібліотеки на сайті MELVYL.  З цього списку результатів пошуку, що відображаються в короткій формі, користувач може вибрати відображення повний запис MARC в поміченої формі.  Повна запис MARC в поміченої формі для заголовка 12 відображається у

Малюнок 4: Запис в форматі MARC відображається у вигляді тегів.

 

7. Доступ до цифрових баз даних

Для створення покажчика словникового запасу потрібно навчальний набір записів, що містять як описові слова, так і актуальні метадані.  Це часто не завжди доступно для наборів числових даних.  Нашою першою спробою було створити Індекс словникового запасу стандартної галузевої класифікації, широко використовуваний протягом багатьох років в числових наборах даних.  Це було можливо, тому що ми знайшли бібліографічну базу даних, яка використовувала коди SIC в якості навчального набору.  Але на той час, коли SIC Entry Vocabulary Index був завершений, SIC був припинений, так як замінений на Північноамериканської галузевої класифікаційної системи, тому ми створили зіставлення з кодів SIC за кодами НАІКС.  До цього часу стало очевидно, що при нинішньому низькому рівні взаємодії в програмному забезпеченні і форматах даних, праця, необхідна для створення словникових покажчиків введення і інтерфейсів до числових наборів даних буде великою.  Ми не могли мати справу з більш ніж двома або трьома наборами даних в рамках наявного фінансування, це насправді було набагато менше того, на що ми сподівалися.  Щоб запобігти витрати на EVI і розробку інтерфейсу обмежуючи проект таким чином, ми звернули увагу на набір з 3000 доступних наборів числових даних через єдиний інтерфейс, відомий як Підрахунок Каліфорнії.

 

7.1 Числова база даних

Числова база даних, яку ми використовували, щоб продемонструвати поліпшені можливості пошуку для доступу до числових Баз даних – це цифрова база даних Counting California, доступна в Каліфорнійській цифровій бібліотеці за адресою http://countingcalifornia.cdlib.org/.  База даних являє собою набір з приблизно 3000 числових таблиць, що містять статистику по ряду тем.  Числові набори даних в основному отримані з Каліфорнійського Департаменту Служби охорони здоров’я, Департаменту фінансів Каліфорнії і Бюро перепису населення.  Таблиці організовані за дворівневою схемою класифікації за темами.  На верхньому рівні є 16 тим, які поділяються на 184 підтеми (Джерело: http://countingcalifornia.cdlib.org/).  Всі числові таблиці розміщені під підтемами, деякі можуть бути поміщені під більш ніж одну підтему.  Теми верхнього рівня:

Tab.7.1.1.

Наприклад, підтеми основної теми “Сільське господарство і природні ресурси” включають:

1. Ферми і фермерство

2. Риболовля

3. Лісове господарство і пиломатеріали

4. Видобуток копалин

 

На веб-сайті Counting California користувач може переглядати таблиці за темами, починаючи з теми верхнього рівня, до обраної підтеми, потім до обраної таблиці.  Також передбачений логічний пошук по таблицях.

Ми надали два нових способи доступу до цього набору числових таблиць: імовірнісний пошук і EVI– пошук на його основі.

Ми витягли заголовки близько 3000 таблиць з веб-сайту Counting California на http://countingcalifornia.cdlib.org/, і розглядали заголовок таблиці як запис, що як витягнутий зразок запис показаний в наступній таблиці.

табл 7.1.3

 <Таблиця>

 <Topic> освіту </ topic>

 <Subtopic> бібліотеки </ subtopic>

 <Заголовок>

СТАТИСТИКА БІБЛІОТЕКИ, РЕЗЮМЕ ПО ВИДУ БІБЛІОТЕКИ КАЛИФОРНИЯ,

1992-93 до 1997-98

 </ Caption>

 </ Table>

Кожен запис містить заголовок числовий таблиці, підтему, в якій розташована таблиця, і тему, що на верхньому рівні.

 

7.2 Імовірнісний доступ до числової базі даних

Ми створили словниковий покажчик для цієї колекції приблизно з 3000 записів.  Тексти в поле підпису були токенізовані першим;  стоп-слова видалені;  а потім зміст слів нормалізувався.  Ми надали веб-інтерфейс пошуку, показаний на малюнку 5 і доступний за адресою http://otlet.sims.berkeley.edu/countingcalifornia.html,

який буде приймати запити у вільній формі.  Запит може бути окремим словом, фразою, набором ключових слів, неповним або повні пропозиції.

Малюнок 5: Інтерфейс пошуку для числових баз даних Counting California.

 

ймовірнісного алгоритму повнотекстового пошуку, розробленого в Берклі.  Подробиці про алгоритм пошуку можна знайти в [1].  Пошукова система приймає запит довільної форми і повертає ранжований список заголовків таблиць, що ранжовані відно до їх оцінкам релевантності.  Ймовірніше релевантні таблиці за запитом отримують більш високий рейтинг, ніж ті, які менш вірогідні.  Наприклад, 5 кращих заголовків, повернутих нашої пошуковою системою у відповідь на запит «публічні бібліотеки в Каліфорнії» показані на малюнку 6.

Малюнок 6: Результати пошуку в базі даних Counting California для

запиту публічних бібліотек в Каліфорнії.

У цієї пошукової системи є кілька переваг перед звичайно використовуваним логічним пошуком.  По-перше, потрібно запити у вільній формі.  По-друге, результати ранжуються відповідно до їх релевантність запиту алгоритм пошуку був протестований на десяти мовах, включаючи арабську, китайську та іспанську, на трьох великих конференціях з оцінки текстового пошуку: TREC, CLEF і NTCIR.  Показано, що алгоритм пошуку ефективний для всіх протестованих мов.  Кожен запис в списку результатів пов’язана з числовою таблицею на веб-сайті Counting California.

Натиснувши відповідне посилання, користувач може відобразити числову таблицю в форматі PDF або в MS Excel формат.  На малюнку 7 показана частина числової таблиці, яка посідає перше місце на малюнку 6.

Малюнок 7: Частина числовий таблиці (джерело: http://countingcalifornia.cdlib.org/).

 

7.3 Доступ до цифрової базі даних на основі індексу словникового запасу

З витягнутих записів ми створили словниковий покажчик словникових статей для підтем.  Слова витягуються з заголовків таблиць і підтем зі схеми класифікації тим, розробленої на основі Обчислення Каліфорнійського проекту.  Веб-інтерфейс доступний за адресою http://otlet.sims.berkeley.edu/countingcaliforniaEVI.html.

Наприклад, підтеми, що входять в першу десятку за запитом «особистий / індивідуальний прибутковий податок»:

ранжувати підтему

Користувач може клацнути вибраний підтему в ранжованих списках підтем, щоб переглянути заголовки всіх таблиць, які класифікуються за обраною підтемою.  При натисканні на «ПДФО» відкривається список підписів, показані на малюнку 8.

Малюнок 8: Список таблиць, поміщених в підтему «ПДФО».

 

8. Пошук між онлайн-каталогами та базами даних

8.1 Пошук в числових базах даних по бібліографічних записів

У розділі 6 ми говорили про те, як отримати доступ до онлайн-каталогу через словниковий запас словника словника LCSH index і відобразити повний запис MARC у поміченій формі.  Якщо користувач бажає знати, чи є якісь цікаві факти або статистика в числовий базі даних, що відносяться до тієї ж теми, що і у видимій частині маркеру запису, він / вона може натиснути кнопку формулювання запиту, розташовану в кінці що відображається повною запису MARC, щоб створити запит для пошуку в числовий базі даних.  Початковий запит буде містити тексти, витягнуті з підполя a і b поля заголовка 245 і тематичні заголовки у видимій повної записи MARC.  Початковий запит вміщається у нове вікно, де користувач може згодом уточнити запит перед відправкою його у пошукову систему для числової бази даних.  На малюнку 9 показаний запит, витягнутий з записи MARC.

Малюнок 9: Запит, витягнутий з запису MARC.

показано на малюнку 4. Пошукова система повертає ранжований список заголовків таблиць, які, швидше за все, що мають відношення до запиту.  З відображеного ранжованого списку підписів користувач може переглянути повну таблицю або в форматі PDF, або в форматі MS Excel.  На малюнку 10 показані результати пошуку в Counting California бази даних, використовуючи витягнутий запит, що показаний на малюнку 9.

Малюнок 10: Результати пошуку в базі даних Counting California з

використанням запиту, витягнутого з MARC запису.

 

8.2 Пошук в онлайн-каталогах з числових таблиць

Якщо користувач почав з пошуку в числовий базі даних Counting California по темі і зацікавився літературою по тій же темі в онлайн-каталозі, користувач може клацнути пронумеровану кнопку, розташовану на початку -ning кожного запису результату.  Після натискання кнопки з номером в результатах пошуку заголовок, пов’язаний з пронумерована кнопка буде перенаправлено як запит до словникового індексу словникової запису LCSH.  Клацнувши пронумеровану кнопку «1» на малюнку 6, що призвело до відправки пов’язаного підпису у вигляді запиту в слово-к-індекс словникового запасу LCSH.  Сім кращих предметних рубрик, найбільш тісно пов’язаних з обраним заголовком, який використовується в якості запиту, показаний на малюнку 11. Процес перегляду повного запису MARC той же, що описаний в розділі 6.

8.3 Реалізація

На малюнку 12 представлена схема, що показує реалізацію безшовного пошуку числових і бібліографічних / текстових ресурсів.  Рубрики, що показані на малюнку:

  1. Інтерфейс пошуку, показаний на малюнку 1, для доступу до бібліографічних / текстовим ресурсів через слово –

покажчик словника статей to-LCSH.

  1. Слово з словникового покажчика статей LCSH.
  2. Ранжируваний список LCSH, тісно пов’язаних із запитом, як показано на Мал. 2 або Мал. 11.
  3. Онлайн-каталог.
  4. Результати пошуку в онлайн-каталозі з використанням LCSH, як на малюнку 3.
  5. Повний запис MARC відображається у вигляді тегів, як на малюнку 4.
  6. Новий запит, сформований шляхом вилучення полів заголовка і теми з відображається повного запису marc, як на малюнку 9.


Малюнок 11: Результати пошуку в індексі словника записів LCSH

для запиту, витягнутого з заголовка таблиці.

  1. Числова база даних.
  2. Список заголовків числових таблиць, ранжованих за оцінкою релевантності запиту, як показано на малюнку 6.
  3. Числова таблиця відображається в форматі PDF або MS Excel, як на малюнку 7.
  4. Інтерфейс пошуку, показаний на малюнку 5, для числових баз даних на основі імовірнісного алгоритму пошуку.

Користувач може почати пошук, використовуючи будь-який інтерфейс, і знайти записи по тій же темі, що в бібліографічні / текстові бази даних і у соціально-економічні бази даних.

 

9. Майбутня робота

9.1 Географічний доступ до числових баз даних

Набори соціально-економічних числових даних майже завжди мають географічний аспект: дані відносяться до конкретного місця або області, і пошукові системи дуже часто хочуть отримати дані, що відносяться до місця.  Ми виявили, що це було складно домогтися з кількох причин.  Назви місць неоднозначні і нестабільні: пошук даних, що стосуються Тринідад може привести до Тринідаду, Вест-Індія, замість, наприклад, Тринідаду, Каліфорнія.  З числовими базами даних проблема посилюється тим, що використовуються спеціалізовані геополітичні підрозділи, такі як переписні ділянки і округів.  Ці підрозділи не підходять для використання пошуковими системами географічних назв.

Врешті-решт ми прийшли до висновку, що використання назв місць ніколи не могло працювати задовільно.  Єдиний ефективний шлях до надійного доступу до даних, що належать до місць, – це використання геопросторових координат (широта і

довгота), щоб однозначно встановити особу і місцезнаходження будь-якого місця, а також зв’язок між такими місцями.  Дані, що відносяться до Берклі, можуть бути доступні лише в агрегованих даних по округу Аламеда, що це означає, що географічні довідники і візуалізація карт стають важливими.  Картографи пов’язують назви місць з місцями, місця розташування в географічні назви і розкривають просторові відносини між місцями, наприклад, місто Аламеда є островом в окрузі Аламеда.  Саме ця проблема спонукала нас запропонувати недавно затверджений IMLS.

Премія Національної бібліотеки за лідерство під назвою «Цікаві місця в каталозі: поліпшений географічний доступ».

 

Малюнок 12: Реалізація безшовного пошуку по числовим (соціально-економічним) і

бібліографічним / текстовим ресурсам.

 

9.2 Розширений доступ до числових баз даних

Описові тексти, такі як заголовки, пов’язані з числовими таблицями, часто бувають короткими і лаконічними, що надає досить обмежену основу для пошуку таблиці у відповідь на запити.  Іноді підпис / заголовок таблиці може бути єдиним текстовим описом вмісту таблиці, доступного для пошуку.  Заголовки іноді бувають дуже загальними.  Наприклад, одна з таблиць в базах даних Counting California називається «СТАТИСТИКА БІБЛІОТЕКИ, ОГЛЯД ПО ВИДУ БІБЛІОТЕКИ КАЛИФОРНИЯ, 1992-93 рр.  по 1997-98 рр.» Назва настільки загальна, що тут не розкриваються ні статистика, ні типи бібліотек у назві.  Якщо користувач задає питання «Які загальні поточні витрати публічних бібліотек в Каліфорнія? » Для системи запитів, яка індексує тільки заголовки таблиць, пошук може виявитися неефективним, оскільки єдине загальне слово між заголовком таблиці і запитом користувача -« бібліотека », припускаючи що множина іменників наводяться до форми однини.

Заголовки стовпців таблиці і заголовки рядків надають додаткову інформацію про вміст числовий таблиці.  Однак заголовки стовпців і рядків зазвичай не доступні для прямого пошуку.  Наприклад, Таблиця з назвою «Мова, на якій розмовляють вдома» в базах даних Counting California складається з рядків і стовпців.

У заголовках стовпців перераховані мови, якими розмовляють вдома, а в заголовках рядків вказані назви округів в Каліфорнії.  У кожній клітинці таблиці вказано кількість людей у віці 5 років і старше, які говорять  певною мовою вдома.  Щоб відповісти на такі питання, як «Скільки людей говорять по-іспанськи в будинках в Аламеда?  Округ, Каліфорнія?», Використовуючи тільки заголовок таблиці, не можна отримати таблицю, що містить відповідь на приклад питання.  Якщо текстовий опис було доповнено заголовками стовпців і рядків, то шанси на отримання таблиць, що цікавлять, повинні бути збільшені.

Ми рекомендуємо доповнити текстові описи числової таблиці.  Це можна було зробити автоматично або математично, комбінуючи заголовок таблиці і заголовки її стовпців і рядків.

 

10. Адміністрування

Дослідницькі та демонстраційні проекти не завжди розвиваються так, як задумано.  Так було до цього проекту.  Після того, як пропозиція щодо цього проекту було представлено, IP отримали суттєве фінансування від Агентство перспективних оборонних дослідницьких проектів для досліджень по створенню та оцінці Вхідних словникових індексів.  Це додаткове фінансування пішло на користь нашій роботі над IMLS, оскільки дозволило нам зрозуміти краще те, що нам потрібно зробити, а також купувати більш швидкі комп’ютери і великі обсяги дискового сховища без чого ми не змогли б обробити мільйони записів MARC.  Він також надав кошти на поїздки, які дозволили нам відвідувати більше конференцій і розповідати про нашу роботу, пов’язаної з IMLS, ширшої аудиторії.  В обставинах, коли в наших неофіційних піврічних звітах пояснюється, що має сенс уповільнити темпи реалізації проекту IMLS, щоб отримати з цього вигоду від досліджень, що фінансуються DARPA.  Ось чому ми запросили безкоштовне продовження і розтягнули дворічний проект на три роки.

Був призначений Консультативний комітет, і ми дуже вдячні Джорджу МакГрегор (Chiron Corporation) округ Емерівілл, Каліфорнія), Гері Піт (Бібліотека бізнес-школи Хааса, Каліфорнійський університет, Берклі), Вівіан Пізано (Публічна бібліотека Сан-Франциско) і Андреа Севетсон (фахівець  по урядовим документам, Університетська бібліотека, Каліфорнійський університет в Берклі) за згоду послужити цій роботі.  Мета, досягти яку ми найбільше хотіли, що б Піклувальний Комітет з оцінки повинен був би проконсультувати по зручності використання дизайну інтерфейсу і по вибору баз даних для зв’язку.

Зрештою, технічні труднощі з виконанням обіцяного прототипу взагалі означали, що то що ми зробили не досягло стадії, на якій ми могли б вивчити ці уточнення, і, як наслідок, мало використовувалися Консультативним комітетом.

 

Веб-сайт проекту знаходиться за адресою

http://metadata.sims.berkeley.edu/GrantSupported/seamless.html.

 

Публікації та опис виконаної роботи знаходиться в стадії підготовки, а список відповідних публікацій наводиться нижче.

Фінансові звіти подаються окремо центральним бухгалтерським персоналом кампуса.

Д-р Аїта Чен зіграв центральну роль в проведенні цього проекту.  Помічники аспірантів Хуей-Мінь Чен, Майкл Гебб, Картік Гурісанкаран, Наталя Перельман, Джоанна Платтнер і Яцек Пурат також працювали над цим.

Робота, яку ми проробили в цьому проекті, виявилася складнішою, ніж очікувалося.  Зокрема, ми знайшли що створення доступу до числовим наборам даних виявилося складніше і зажадало більше часу на це, ніж очікувалося.  Як стандарти будуть розвиватися, то сумісність стане простіше.  Нам подобається думати, що ми випередили свій час.  Проте ми виконали завдання, які ми взяли на себе.

 

11. Пов’язані публікації

Майкл Бакленд.

Вхідний словниковий запас, посередники і ефективність пошуку.  В: Інформація в мережевому світі: Har-в потоці.  Матеріали 64-го засідання Американського товариства інформаційних наук і Technology, 3-8 листопада 2001 року, Вашингтон, округ Колумбія.  Медфорд, Нью-Джерсі: Інформація сьогодні, 2001. С. 112-117.

 

Фредрік С. Гей, Майкл Бакленд, Айта Чен і Рей Ларсон.

Entry Vocabulary – технологія для поліпшення цифрового пошуку.  В: Праці Першого Інтернаціоналу. Конференція з технологій людської мови, Сан-Дієго, березень 2001, с. 91-95.

http://metadata.sims.berkeley.edu/papers/hlt01-final.pdf

 

Юнин Кім, Барбара Норгард, Айта Чен, Фредрік Гей.

Використання звичайного мови для доступу до метаданих різних типів інформаційних ресурсів: торгова класифікація катіон і числові дані.  В: Знання: створення, організація та використання.  праці американського Щорічних зборів Товариства інформаційних наук, 31 жовтня – 4 листопада 1999 року, Вашингтон, округ Колумбія.  Медфорд, Нью-Джерсі: Інформація сьогодні, 1999, стор. 172-180.

 

Посилання

 [1] Вільям С. Купер, Аїта Чен і Фредрік К. Гей.  Повнотекстовий пошук на основі імовірнісних рівнянь з коефіцієнтами, підібраними логістичної регресією.  У Д.К.  Харман, редактор, The Second Text REtrieval Конференція (TREC-2), сторінки 57-66, березень 1994 р

 [2] Мартін Зайдель Даніель Карпо, Ів Шабес і Данія Егед.  Вільно доступний морфо-логічний аналізатор для англійської мови.  У працях COLING, 1992.

 [3] Тед Даннінг.  Точні методи статистики несподіванки і збіги.  Комп’ютерна лінгвістика, 19: 61-74, березень 1993 р