logo
Все ответы шпоры госы

Документальные информационные системы, их характеристики. Информационный поиск в документальных системах, оценка полноты и релевантности. Модели поисковых образов

Чаще информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого документальные БД сразу выделялись в особый тип баз данных. Исторически сложилось так, что за системами, ориентированными на работу с текстовыми документами, закрепился термин информационно-поисковые системы (ИПС). Хотя их следовало бы называть документальными системами (ДС), поскольку традиционные СУБД также являются ИПС, только фактографическими.

Основной функцией любой ДС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Выдача системой требуемых данных реализуется с помощью главной операции ДС – проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы. ДС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. Информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные моменты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке, и представляет собой информационный запрос, с которым пользователь обращается к системе.

При проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но и по отношению к информационному запросу.

Для выражения данных отношений в теории ДС введены два фундаментальных понятия: пертинентность и релевантность. Под пертинентностью понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными. Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми (или просто информационными).

В процессе проведения информационного поиска в ДС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. На основе такого сопоставления принимается решение о выдаче (он признается релевантным) или невыдаче документа (он считается нерелевантным).

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной релевантности — соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.

В традиционных системах используется понятие поискового образа документа — ПОД. Обычно этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл.

Векторная модель:

где - термин; - документ.

Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске.

Запрос к системе:

где q — вектор запроса; r— вектор отклика.

При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются — элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Интернета.

Существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска модель поиска в нечетких множествах.