Оригинальная статья

 

Беспрепятственный поиск цифровых

и текстовых ресурсов

 

Итоговый отчет

Института музейного и Национального библиотечного обслуживания

Грант на лидерство № 178

Главные исследователи:

Майкл К. Бакленд, Фредрик К. Гей и Рэй Р. Ларсон

Школа информационного менеджмента и систем

Калифорнийский университет, Беркли, CA 94720-4600

20 декабря 2002 г.

1. Резюме

Этот трехлетний проект продемонстрировал улучшенный доступ к письменным материалам и числовым данным по той же

теме при поиске в двух очень разных типах баз данных (книги, статьи и их библиографические записи) и числовых данных (социально-экономические базы данных). Также была разработана поддержка поиска для поперечного поиска.

При этом данные, найденные в текстовой базе данных, могут использоваться для поиска связанных данных в числовой базе данных и т. д. наоборот.

 

2. Введение

Надежда на новую технологию в библиотеках заключалась в поддержке беспрепятственного поиска в растущем диапазоне

ресурсов при растущем цифровом ландшафте. Реальность такова, что доступные в сети ресурсы, такие как содержимое

хорошо укомплектованной справочной библиотеки, довольно разнородны, особенно по разнообразию индексации, классификации – определение, категоризация и другие формы «метаданных».

Цель этого проекта – продемонстрировать улучшенный доступ к письменным материалам и числовым данным по одной и той же теме при поиске в двух совершенно разных типах баз данных: текстовые базы данных (книги, статьи и их библиографические записи) и числовые данные (социально-экономические базы данных).

Проблема в том, что до сих пор не существовало простого пути интеграции числовых баз данных с библиографическими и текстовыми базами данных, которые могут содержать сведения о причине и следствии. Словарь который классифицирует числовые данные, может сильно отличаться от предметных заголовков, используемых для книг, журналов, статей в журналах и газетных статей на ту же интересную тему. Также должна быть среда поддержки поиска, которая облегчает такой поперечный поиск, установление соединений, передачу данных и полезный вызов соответствующих утилит.

Этот проект решает обе проблемы посредством разработки и демонстрации библиотечного шлюза под обеспечение поддержки поиска как для текстовых, так и для социально-экономических числовых баз данных. Шлюз поможет пользователям проводить поиск в каждом типе базы данных, принимая запрос в терминах пользователей библиотеки, а затем предложение специализированных терминов категоризации для поиска в информационном ресурсе (базе данных). Намерение состоит в том, что если вы нашли что-то интересное в социально- экономической базе данных, шлюз поможет вам найти документы по той же теме в текстовой базе данных, и наоборот. Подбор лучших поисковых запросов в целевые базы данных поддерживаются с помощью «Индексов словарного запаса ввода», которые напоминают индексы Мелвила Дьюи

«Относительный индекс», но создаются с использованием методов статистической ассоциации.

 

3. Наборы данных

Мы получили копию файлов MARC из MELVYL, онлайн-каталога Калифорнийского университета. Нами выбрано 4 246 510 записей, содержащих хотя бы один предметный заголовок (поле 6xx). Из этого набора рекордов мы извлекли поля, содержащие заголовки и подзаголовки (245, подполя a и b), резюме, описывающие объем и общее содержание материала (520, подполе а), и основные предметные рубрики (6хх, подполе а). Два образцы записей показаны ниже.

Пример записи 1:

<DOC>

<001> 73180254 // r86 </001>

<245> <a> Исследование оперантного обусловливания при отсроченном подкреплении

в раннем детстве </a> </245>

<650> <a> Детская психология. </a> </650>

<650> <a> Оперантное кондиционирование. </a> </650>

</DOC>

Пример записи 2:

<DOC>

<001> 73180255 </001>

<245> <a> Болезнь рептилий: распознавание и лечение, </a> </245>

<650> <a> Рептилии </a> <x> Болезни.</x> </650>

</DOC>

 

4. Мера ассоциации

Мы использовали методы статистической ассоциации, чтобы указать путь от слов в запросе к тематическому классу

классификации (классификационные номера, коды категорий, предметные рубрики и т. д.) в наборе данных. Заключительный этап для создания Индекса словарного запаса на входе заключается в разработке весового коэффициента максимального правдоподобия, связанного с каждым термином (словом или фразой) и каждым значением метаданных. Строится двусторонняя таблица непредвиденных обстоятельств для

каждой пары слов / словосочетаний и классификационные коды ¡, как показано в таблице 1., где a – количество

Таблица 1: Таблица непредвиденных обстоятельств от слов / фраз до классификации

 

документы, заголовки которых содержат слово или фразу и классифицируются по классификационному коду; – это число

документов, заголовки которых содержат слово или фразу, но не классифицируются по классификационному коду; c – это

количество документов, заголовки которых не содержат слова или фразы, но классифицируются по классификационному коду;

и d – является количество документов , с названиями , не содержащие слово или фразу , и не классифицированы

кодом классификации.

 

Оценка ассоциации между a словом, b фразой и классификацией C вычисляется по методике Дун-

Нин [3]

а также

Метаданными могут быть предметные рубрики Библиотеки Конгресса (LCSH), Классификация Библиотеки Конгресса.

Номера, номера классификации патентов США и т. Д. Можно создавать не только ассоциативные словари которые будут отображать слова на естественных языках в термины метаданных, а также, наоборот, ассоциативные словари которые вернут слова на естественном языке, которые тесно связаны с термином метаданных. Если есть обучающие записи, содержащие тексты на двух языках, тогда можно было бы создавать ассоциативные словари, которые будут, в ответ на слова в качестве слов запроса на одном языке, возвращать слова на другом языке, которые

связанные со словами запроса.

В дополнение к измерению связи на основе отношения максимального правдоподобия существует ряд других мер ассоциации, такие как статистика хи-квадрат, мера взаимной информации и т. д., которые можно использовать при создании ассоциативных словарей.

 

5. Cловарных указателей для входа

Индексы словаря ввода (EVI) – это ассоциативные словари, которые отображают словари с одного языка на другой.

Мы создали индекс словарного запаса, который отображает слова естественного языка в Предметные заголовки Библиотеке Конгресса (LCSH), которые наиболее тесно связаны со словами запроса, и запись в словарный указатель, который отображает LCSH на слова, которые наиболее тесно связаны с каждым основным заголовком в LCSH.

 

5.1 Предварительная обработка

Обучающий набор, используемый для создания этого словарного указателя для преобразования слов в LCSH, содержит библиографические записи, как минимум с одним назначенным предметным заголовком Библиотеки Конгресса (т. е. как минимум с одним полем 6xx). Слова извлекаются из подполей a и b в поле 245 заголовка и из подполя a в поле 520 . В

тексты в подполях a и b поля 245 и подполе a поля 520 размечены; стоп-слова удалены; а остальные слова нормализованы. Жетон здесь может содержать только буквы и цифры. Все последующие затем токены переводятся в нижний регистр. В стоп-листе около 600 слов, которые считаются не содержательными: несущие слова, такие как местоимения, предлоги, координаторы, определители и тому подобное. Мы ссылаемся на слова которые не используются в качестве слов содержания. Слова содержания нормализованы с использованием таблицы, полученной из программы Английский морфологический анализатор [2]. В таблице существительные множественного числа отображаются в единственном числе; глаголы в основной форма (форма инфинитива); прилагательные в сравнительной и превосходной степени к положительной форме. Например, существительное во множественном числе принтеры сокращается до принтера , а дети – до ребенка ; сравнительное прилагательное длиннее и

превосходная степень прилагательного длинные уменьшаются до тех пор ; и печать , печать и распечатки сводятся к одному и тому же – базовой форме печати . Когда слово, принадлежащее более чем к одной категории частей речи, может быть сокращено до нескольких чем одна форма, она заменяется первой формой, указанной в таблице морфологического анализатора. Например,

Слово saw , которое может быть существительным или глаголом « видеть» в прошедшем времени, не сокращается « видеть» . Тематические рубрики извлекаются из подполя a полей 600, 610, 611, 630, 650 и 651. Предметные заголовки: изменены на нижний регистр. Каждый предметный заголовок в подполе а поля 6xx рассматривается как одна единица при создании слово в словарный указатель статей LCSH. Тексты в записях MARC кодируются в кодировке MARC-21.

Символы с диакритическими знаками кодируются двумя байтами, один байт для основного символа, за которым следует другой для диакритического знака. При предварительной обработке данных мы не удаляли диакритические знаки.

Из этого обучающего набора записей MARC мы создали индекс словаря словарных статей LCSH, используя меру статистической связи, описанная в разделе 4.

 

5.2 Индекс словарного запаса слов в LCSH

Слово в словарный указатель статей LCSH отображается как  слово в LCSH, которые наиболее тесно связаны с словом запроса. В качестве примера в следующей таблице представлены десять лучших LCSH (только подполе а в нижний регистр), которые наиболее тесно связаны с запросным словом алкоголизм .

    

Индекс словарного запаса статей принимает в качестве запроса фрагмент текста, который может представлять собой отдельное слово, фразу, набор ключевых слов, неполного (или полного) предложения, названия книги и т. д. Запрос обрабатывается так же, как тексты, извлечённые из полей 245 и 520 MARC при создании словаря. Запрос сначала токенизируется, игнорируемые слова удаляются, а затем слова содержания нормализуются. Набор нормированных слов попадают в указатель словарного запаса. Для каждого слова список ранжированных LCSH с ассоциацией веса, как показано в таблице выше, генерируются. Ранжированные списки LCSH для всего контента слова запроса объединяются для создания единого ранжированного списка LCSH для всего запроса. Никакого различия нет между языками, поэтому включаются иностранные слова, встречающиеся в названиях книг на иностранных языках.

Например, запрос с использование слова Wirtschaftspolitik , что на немецком языке означает экономическая политика , приводит к соответственно следующим предметным рубрикам:

В качестве примера запроса, содержащего более одного слова, десять лучших LCSH (только подполе а в

нижнем регистре), которые наиболее тесно связаны с запросом арахисовое масло , перечислены в таблице ниже.

Ранжированный список LCSH для запроса арахисовое масло был получен путем объединения ранжированного списка

LCSH для слова запроса арахиса и для слова запроса масла . При объединении ранжированных списков LCSH,

добавляются веса для того же LCSH. В качестве другого примера в следующей таблице представлены самые популярные

десять LCSH (только подполе а в нижнем регистре) для запроса Вьетнамская война.

5.3 LCSH в словарный указатель словарной статьи

Примеры, представленные в предыдущем разделе, продемонстрировали использование ассоциативных мер при создании в Индексы словаря статей, которые предложат ранжированный список LCSH, которые наиболее тесно связаны с

запрос. Та же мера статистической ассоциации также может использоваться для создания индексов словарного запаса статей, которые предложит ранжированный список слов или фраз , которые наиболее тесно связаны с LCSH. Из этого же обучающий набор библиографических записей, мы создали словарный индекс LCSH-to-word, который возвращает список слов, которые наиболее тесно связаны с LCSH. Например, из двадцати лучших слов, найденных в названии или заметки полей, которые наиболее тесно связаны с темой Алкоголизм представлены

в таблице ниже.

Обратите внимание на наличие иностранных слов (алкоголизм, алкоголь, алкоголь и спирт). Эти слова, что взяты из заголовков на иностранных языках, демонстрируют, то, что методика не зависит от языка и может быть принят в любой стране. Это также может поддерживать разнообразие в библиотеках США, разрешая поиск на испанском или любом другом языке и других языках, если обучающий набор содержит слова содержания на этих языках в заголовках или аннотациях.

Оба словарных указателя статей находятся в открытом доступе по адресу http://metadata.sims.berkeley.edu/prototypesI.html.

 

6. Доступ к онлайн-каталогу

Чтобы продемонстрировать возможность поиска из библиографической записи в некоторую числовую базу данных, первый шаг состоит в том, чтобы получить и отобразить библиографическую запись из онлайн-каталога. Мы реализовали веб- интерфейс для поиска в онлайн-каталогах с использованием собственной реализации протокола Z39.50. Кроме этого, протокол Z39.50, важный компонент, делающий возможным поиск в удаленных онлайн-каталогах, – это также и шлюз между протоколом HTTP (протокол передачи гипертекста) и протоколом Z39.50. Хотя HTTP вне Z39.50 – это протокол без установления соединения, Z39.50 – это протокол с установлением соединения. Шлюз поддерживает подключения к удаленным серверам Z39.50. Все поисковые запросы к любому удаленному серверу Z39.50 проходят через шлюз.

Рисунок 1: Интерфейс поиска.

Веб-интерфейс поиска, показанный на рисунке 1, принимает запрос в качестве входных данных, а затем отправляет запрос в

слово к LCSH индекс начального словарного запаса. В ответ на запрос ранжированный список LCSH, возвращается, как  наиболее тесно связанный с запросом.

На рисунке 2 представлены пять лучших предметных заголовков, наиболее тесно связанных с запросом публичные библиотеки в

Калифорнии . Из этого ранжированного списка LCSH пользователь может выбрать один LCSH, а затем щелкнуть Кнопку Поиск Melvyl для пересылки выбранного LCSH в качестве запроса в онлайн-каталог MELVYL. Веб-клиент будет

Рисунок 2: Результаты поиска EVI.

формулировать поисковый запрос из выбранного LCSH и отправит его на веб-сервер, который, в свою очередь, отправит его

к шлюзу. Шлюз установит соединение с удаленным сервером Z39.50 (MEYLVL онлайн каталог), если соединение еще не существует. Затем шлюз отправит поисковый запрос на удалённый Сервер Z39.50. На сайте MELVYL будет выполнен точный поиск по предметной рубрике. И поисковые результаты пойдут для отображения на экране пользователя.

 Запись результата поиска, если таковая имеется, содержит только имя автора и заголовок. Начальное отображение может не

перечислить все полученные записи, так как только небольшое количество библиографических записей возвращается в ответ на

каждый запрос из-за ограниченного размера сообщения. Однако у пользователя есть возможность запросить больше извлеченных записей путем указания диапазона возвращаемых записей с использованием протокола Z39.50. На рисунке 3 представлены 4 из

Рисунок 3: Часть результата поиска, возвращаемого MELVYL.

132 заголовка получены в результате точного поиска по предметным заголовкам по запросу публичные библиотеки

на сайте MELVYL. Из этого списка результатов поиска, отображаемых в краткой форме, пользователь может выбрать отображение

полная запись MARC в помеченной форме. Полная запись MARC в помеченной форме для заголовка 12 отображается в

Рисунок 4: Запись в формате MARC отображается в виде тегов.

 

7. Доступ к цифровым базам данных

Для создания указателя словарного запаса требуется обучающий набор записей, содержащих как описательные слова, так и

актуальные метаданные. Это часто не всегда доступно для наборов числовых данных. Нашей первой попыткой было создать

Индекс словарного запаса стандартной отраслевой классификации, широко используемый в течение многих лет в числовых наборах данных. Это было возможно, потому что мы нашли библиографическую базу данных, которая использовала коды SIC в качестве обучающего набора. Но к тому времени, когда SIC Entry Vocabulary Index был завершён, SIC был прекращён, так как заменён Североамериканской отраслевой классификационной системой, поэтому мы создали сопоставление из кодов SIC по кодам НАИКС. К этому времени стало очевидно, что при нынешнем низком уровне взаимодействия в программном обеспечении и форматах данных, труд, необходимый для создания словарных указателей ввода и интерфейсов к числовым наборам данных был большим. Мы не могли иметь дело с более чем двумя или тремя наборами данных в рамках имеющегося финансирования, это было гораздо меньше того, на что мы надеялись. Чтобы предотвратить затраты на EVI и разработку интерфейса ограничивая проект таким образом, мы обратили внимание на набор из 3000 доступных наборов числовых данных через единый интерфейс, известный как Подсчет Калифорнии.

 

7.1 Числовая база данных

Числовая база данных, которую мы использовали, чтобы продемонстрировать улучшенные возможности поиска для доступа к числовым Базам данных – это цифровая база данных Counting California, доступная в Калифорнийской цифровой библиотеке по адресу http://countingcalifornia.cdlib.org/. База данных представляет собой набор из примерно 3000 числовых таблиц, содержащих статистика по ряду тем. Числовые наборы данных в основном получены из Калифорнийского Департамента

Службы здравоохранения, Департамента финансов Калифорнии и Бюро переписи населения. Таблицы организованы по двухуровневой схеме классификации по темам. На верхнем уровне есть 16 тем, которые подразделяются на 184 подтемы (Источник: http://countingcalifornia.cdlib.org/). Все числовые таблицы размещены под подтемами, некоторые могут быть помещены под более чем одну подтему. Темы верхнего уровня:

Tab.7.1.1.

Например, подтемы основной темы ” Сельское хозяйство и природные ресурсы” включают:

 

1. Фермы и фермерство

2. Рыбалка

3. Лесное хозяйство и пиломатериалы

4. Добыча ископаемых

 

На веб-сайте Counting California пользователь может просматривать таблицы по темам, начиная с темы верхнего уровня, к выбранной подтеме, затем к выбранной таблице. Также предусмотрен логический поиск по таблицам.

Мы предоставили два новых способа доступа к этому набору числовых таблиц: вероятностный поиск и EVI- поиск на основе . 

Мы извлекли заголовки около 3000 таблиц с веб-сайта Counting California на http://countingcalifornia.cdlib.org/, и рассматривал заголовок таблицы как запись. Извлеченный образец

запись показана в следующей таблице.

Табл 7.1.3

<таблица>

<topic> образование </topic>

<subtopic> библиотеки </subtopic>

<заголовок>

СТАТИСТИКА БИБЛИОТЕКИ, РЕЗЮМЕ ПО ВИДУ БИБЛИОТЕКИ КАЛИФОРНИЯ,

1992-93 до 1997-98

</caption>

</table>

Каждая запись содержит заголовок числовой таблицы, подтему, в которой расположена таблица, и тему.

на верхнем уровне.

 

7.2 Вероятностный доступ к числовой базе данных

Мы создали словарный указатель для этой коллекции примерно из 3000 записей. Тексты в поле подписи были токенизируется первым; стоп-слова удалены; а затем содержание слов нормализовалось. Мы предоставили веб-интерфейс поиска, показанный на рисунке 5 и доступный по адресу http://otlet.sims.berkeley.edu/countingcalifornia.html,

который будет принимать запросы в свободной форме. Запрос может быть отдельным словом, фразой, набором ключевых слов, неполным или полные предложения.

Рисунок 5: Интерфейс поиска для числовых баз данных Counting California.

вероятностного алгоритма полнотекстового поиска, разработанного в Беркли. Подробности об алгоритме поиска можно найти в [1]. Поисковая система принимает запрос произвольной формы и возвращает ранжированный список заголовков таблиц, ранжированных в соответствии с их оценками релевантности. Более вероятно релевантные таблицы по запросу получают более высокий рейтинг, чем те, которые менее вероятны. Например, 5 лучших заголовков, возвращенных нашей поисковой системой в ответ на запрос «публичные библиотеки в Калифорнии» показаны на рисунке 6.

Рисунок 6: Результаты поиска в базе данных Counting California для

запроса публичных библиотек в Калифорнии.

У этой поисковой системы есть несколько преимуществ перед обычно используемым логическим поиском. Во-первых, требуется запросы в свободной форме. Во-вторых, результаты ранжируются в соответствии с их релевантностью запросу 

алгоритм поиска был протестирован на десяти языках, включая арабский, китайский и испанский, на трёх крупных конференциях по оценке текстового поиска: TREC, CLEF и NTCIR. Показано, что алгоритм поиска эффективен для всех протестированных языков. Каждая запись в списке результатов связана с числовой таблицей на веб-сайте Counting California.

Щёлкнув соответствующую ссылку, пользователь может отобразить числовую таблицу в формате PDF или в MS Excel.

формат. На рисунке 7 показана часть числовой таблицы, занимающей первое место на рисунке 6.

Рисунок 7: Часть числовой таблицы (источник: http://countingcalifornia.cdlib.org/).

 

7.3 Доступ к цифровой базе данных на основе индекса словарного запаса

Из извлеченных записей мы создали словарный указатель словарных статей для подтем. Слова извлекаются из заголовков таблиц и подтем из схемы классификации тем, разработанной на основе Подсчета Калифорнийского проекта. Веб-интерфейс доступен по адресу http://otlet.sims.berkeley.edu/countingcaliforniaEVI.html.

Например, подтемы, входящие в первую десятку по запросу «личный / индивидуальный подоходный налог»:

ранжировать подтему

 

Пользователь может щелкнуть выбранную подтему в ранжированных списках подтем, чтобы просмотреть заголовки всех

таблицы, которые классифицируются по выбранной подтеме. При нажатии на «НДФЛ» открывается список

подписи, показанные на рисунке 8.

Рисунок 8: Список таблиц, помещенных в подтему « НДФЛ» .

 

8. Поиск между онлайн-каталогами и базами данных

8.1 Поиск в числовых базах данных по библиографическим записям

В разделе 6 мы говорили о том, как получить доступ к онлайн- каталогу через словарный запас словаря словаря LCSH index и отобразить полную запись MARC в помеченной форме. Если пользователь желает знать, есть ли какие-нибудь интересные

факты или статистика в числовой базе данных, относящиеся к той же теме, что и в отображаемом маркере записи, он / она может щелкнуть кнопку формулировки запроса , расположенную в конце отображаемой полной записи MARC, чтобы

создать запрос для поиска в числовой базе данных. Первоначальный запрос будет содержать тексты, извлеченные из подполя a и b поля заголовка 245 и тематические заголовки в отображаемой полной записи MARC. В

первоначальный запрос помещается в новое окно, где пользователь может впоследствии уточнить запрос перед отправкой это в поисковую систему для числовой базы данных. На рисунке 9 показан запрос, извлеченный из записи MARC.

Рисунок 9: Запрос, извлеченный из записи MARC.

показано на рисунке 4. Поисковая система возвращает ранжированный список заголовков таблиц, которые, скорее всего, что имеет отношение к запросу. Из отображаемого ранжированного списка подписей пользователь может просмотреть полную таблицу либо в формате PDF, либо в формате MS Excel. На рисунке 10 показаны результаты поиска в Counting California базу данных, используя извлеченный запрос, показанный на рисунке 9.

Рисунок 10: Результаты поиска в базе данных Counting California с использованием

запроса, извлеченного из MARC запись.

 

8.2 Поиск в онлайн-каталогах из числовых таблиц

Если пользователь начал с поиска в числовой базе данных Counting California по теме и заинтересовался литературой по той же теме в онлайн-каталоге, пользователь может щелкнуть пронумерованную кнопку, расположенную в начале -ning каждой записи результата. После нажатия кнопки с номером в результатах поиска заголовок, связанный с пронумерованная кнопка будет перенаправлена как запрос к словарному индексу словарной записи LCSH. Щелкнув пронумерованную кнопку «1» на рисунке 6, что привело к отправке связанной подписи в виде запроса в слово-к-индекс словарного запаса LCSH . Семь лучших предметных рубрик, наиболее тесно связанных с выбранным заголовком, используемый в качестве запроса, показан на рисунке 11. Процесс просмотра полной записи MARC тот же, что описан в разделе 6.

 

8.3 Реализация

На рисунке 12 представлена схема, показывающая реализацию бесшовного поиска числовых и библио-графических / текстовых ресурсов. Рубрики, показанные на рисунке:

  1. Интерфейс поиска, показанный на рисунке 1, для доступа к библиографическим / текстовым ресурсам через слово –

указатель словаря статей to-LCSH.

  1. Слово из словарного указателя статей LCSH.
  2. Ранжированный список LCSH, тесно связанных с запросом, как показано на Рис. 2 или Рис.11.
  3. Онлайн-каталог.
  4. Результаты поиска в онлайн-каталоге с использованием LCSH, как на Рисунке 3.
  5. Полная запись MARC отображается в виде тегов, как на Рисунке 4.
  6. Новый запрос, сформированный путем извлечения полей заголовка и темы из отображаемой полной записи marc, как

на Рисунке 9.

Рисунок 11: Результаты поиска в индексе словаря записей LCSH для запроса,

извлеченного из заголовка таблицы

  1. Числовая база данных.
  2. Список заголовков числовых таблиц, ранжированных по оценке релевантности запросу, как показано на Рисунке 6.
  3. Числовая таблица отображается в формате PDF или MS Excel, как на Рисунке 7.
  4. Интерфейс поиска, показанный на Рисунке 5, для числовых баз данных на основе вероятностного алгоритма поиска.

Пользователь может начать поиск, используя любой интерфейс, и найти записи по той же интересующей теме в библио- графические / текстовые базы данных и социально- экономические базы данных.

 

9. Будущая работа

9.1 Географический доступ к числовым базам данных

Наборы социально-экономических числовых данных почти всегда имеют географический аспект: данные относятся к конкретным места или области, и поисковики очень часто хотят получить данные, относящиеся к месту. Мы обнаружили, что это было сложно добиться по нескольким причинам. Названия мест неоднозначны и нестабильны: поиск данных, касающихся

Тринидад может привести к Тринидаду, Вест-Индия, вместо, например, Тринидада, Калифорния. С числовыми базами данных проблема усугубляется тем, что используются специализированные геополитические подразделения, такие как переписные участки и округов. Эти подразделения не подходят для использования поисковиками географических названий.

В конце концов мы пришли к выводу, что использование названий мест никогда не могло работать удовлетворительно. Единственный эффективный путь к надёжному доступу к данным, относящимся к местам, – это использование геопространственных координат (широта и

долгота), чтобы однозначно установить личность и местонахождение любого места, а также связь между

местами. Данные, относящиеся к Беркли, могут быть доступны только в агрегированных данных по округу Аламеда. Этот

означает, что географические справочники и визуализация карт становятся важными. Картографы связывают названия мест с местами, местоположениями в географические названия и раскрывают пространственные отношения между местами, например, город Аламеда является островом в округе Аламеда. Именно эта проблема побудила нас предложить недавно утверждённый IMLS.

Премия Национальной библиотеки за лидерство под названием «Интересные места в каталоге: улучшенный географический доступ».

Рисунок 12: Реализация бесшовного поиска по числовым (социально-экономическим)

и библиографическим / текстовым ресурсам.

 

9.2 Расширенный доступ к числовым базам данных

Описательные тексты, такие как заголовки, связанные с числовыми таблицами, часто бывают краткими и лаконичными, что предоставляет довольно ограниченную основу для поиска таблицы в ответ на запросы. Иногда подпись / заголовок

таблицы может быть единственным текстовым описанием содержимого таблицы, доступного для поиска. Заголовки

иногда бывают очень общими. Например, одна из таблиц в базах данных Counting California называется «СТАТИСТИКА БИБЛИОТЕКИ, ОБЗОР ПО ВИДУ БИБЛИОТЕКИ КАЛИФОРНИЯ, 1992-93 гг. по 1997-98 гг. » Название настолько общее, что не раскрываются ни статистика, ни типы библиотек в названии. Если пользователь задает вопрос «Каковы общие текущие расходы публичных библиотек в Калифорния? » для системы запросов, которая индексирует только заголовки таблиц, поиск может оказаться неэффективным, поскольку единственное общее слово между заголовком таблицы и запросом пользователя – «библиотека», предполагая что множественное число

существительных приводятся к форме единственного числа.

Заголовки столбцов таблицы и заголовки строк предоставляют дополнительную информацию о содержимом числовой таблицы. Однако заголовки столбцов и строк обычно не доступны для прямого поиска. Например, Таблица с названием «Язык, на котором говорят дома» в базах данных Counting California состоит из строк и столбцов.

В заголовках столбцов перечислены языки, на которых говорят дома, а в заголовках строк указаны названия округов в Калифорнии. В каждой ячейке таблицы указано количество людей в возрасте 5 лет и старше, говорящих на определенном

языке дома. Чтобы ответить на такие вопросы, как «Сколько людей говорят по-испански дома в Аламеде? Округ, Калифорния? », Используя только заголовок таблицы, нельзя получить таблицу, содержащую ответ на пример вопроса. Если текстовое описание было дополнено заголовками столбцов и строк, то шансы на получение интересующих таблиц должны быть увеличены.

Мы рекомендуем дополнить текстовые описания числовой таблицы. Это можно было сделать автоматически или

математически, комбинируя заголовок таблицы и заголовки ее столбцов и строк.

 

10. Администрирование

Исследовательские и демонстрационные проекты не всегда развиваются так, как задумано. Так было с настоящим

проектом. После того, как предложение по этому проекту было представлено, ИП получили существенное финансирование от

Агентство перспективных оборонных исследовательских проектов для исследований по созданию и оценке Входящих словарных индексов. Это дополнительное финансирование пошло на пользу нашей работе над IMLS, поскольку позволило нам понять лучше то, что нам нужно сделать, а также покупать более быстрые компьютеры и большие объемы дискового хранилища без чего мы не смогли бы обработать миллионы записей MARC. Он также предоставил средства на поездки, которые позволили нам посещать больше конференций и рассказывать о нашей работе, связанной с IMLS, более широкой аудитории. В обстоятельствах, когда в наших неофициальных полугодовых отчетах объясняется, что имеет смысл замедлить темпы реализации проекта IMLS, чтобы чтобы извлечь из этого выгоду от исследований, финансируемых DARPA. Вот почему мы запросили бесплатное продление и растянул двухлетний проект на три года.

Был назначен Консультативный комитет, и мы очень благодарны Джорджу МакГрегору (Chiron Corporation) округ Эмеривилл, Калифорния), Гэри Пит (Библиотека бизнес-школы Хааса, Калифорнийский университет, Беркли), Вивиан Пизано (Публичная библиотека Сан-Франциско) и Андреа Севетсон (специалист по правительственным документам,

Университетская библиотека, Калифорнийский университет в Беркли) за согласие послужить этой работе. Цель, достигнуть которую мы больше всего хотели, что бы Попечительный Комитет по оценке должен был бы проконсультировать по удобству использования дизайна интерфейса и по выбору баз данных для связи.

 

 В конце концов, технические трудности с выполнением обещанного прототипа вообще означали, что то что мы сделали не достигло стадии, на которой мы могли бы изучить эти уточнения, и, как следствие, мало использовались

Консультативным комитетом.

 

Веб-сайт проекта находится по адресу http://metadata.sims.berkeley.edu/GrantSupported/seamless.html

 

Публикации и описание проделанной работы находится в стадии подготовки, а список соответствующих публикаций приводится ниже. 

Финансовые отчеты подаются отдельно центральным бухгалтерским персоналом кампуса.

Д-р Аитао Чен сыграл центральную роль в проведении этого проекта. Помощники аспирантов Хуэй-Минь

Чен, Майкл Гебби, Картик Гурисанкаран, Наталья Перельман, Джоанна Платтнер и Яцек Пурат также работали над этим.

Работа, которую мы проделали в этом проекте, оказалась более сложной, чем ожидалось. В частности, мы нашли что создание доступа к числовым наборам данных оказалось сложнее и потребовало больше времени на это, чем ожидалось. Как стандарты будут развиваться, то совместимость станет проще. Нам нравится думать, что мы опередили свое время. Тем не менее мы выполнили задачи, которые мы взяли на себя.

 

11. Связанные публикации

Майкл Бакленд.

Входной словарный запас, посредники и эффективность поиска. В: Информация в сетевом мире: Har-в потоке. Материалы 64-го заседания Американского общества информационных наук и Technology , 3–8 ноября 2001 г., Вашингтон, округ Колумбия. Медфорд, Нью-Джерси: Информация сегодня, 2001. С. 112-117.

 

Фредрик С. Гей, Майкл Бакленд, Айтао Чен и Рэй Ларсон.

Entry Vocabulary – технология для улучшения цифрового поиска. В: Труды Первого Интернационала.

Конференция по технологиям человеческого языка , Сан-Диего, март 2001 г., стр. 91-95.

http://metadata.sims.berkeley.edu/papers/hlt01-final.pdf

 

Юнин Ким, Барбара Норгард, Айтао Чен, Фредрик Гей.

Использование обычного языка для доступа к метаданным различных типов информационных ресурсов: торговая классификация катион и числовые данные. В: Знания: создание, организация и использование. Труды американского

Ежегодного собрания Общества информационных наук , 31 октября – 4 ноября 1999 г., Вашингтон, округ Колумбия. Медфорд, Нью-Джерси: Информация сегодня , 1999, стр. 172-180.

 

Ссылки

[1] Уильям С. Купер, Аитао Чен и Фредрик К. Гей. Полнотекстовый поиск на основе вероятностных уравнений

с коэффициентами, подобранными логистической регрессией. В Д.К. Харман, редактор, The Second Text REtrieval

Конференция (TREC-2) , страницы 57–66, март 1994 г.

 

[2] Мартин Зайдель Даниэль Карп, Ив Шабес и Дания Эгеди. Свободно доступный морфо-логический анализатор для английского языка. В трудах COLING , 1992.

 

 

[3] Тед Даннинг. Точные методы статистики неожиданности и совпадения. Компьютерная лингвистика , 19: 61–74, март 1993 г