Документальные информационные системы, их характеристики. Информационный поиск в документальных системах, оценка полноты и релевантности. Модели поисковых образов
Чаще информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого документальные БД сразу выделялись в особый тип баз данных. Исторически сложилось так, что за системами, ориентированными на работу с текстовыми документами, закрепился термин информационно-поисковые системы (ИПС). Хотя их следовало бы называть документальными системами (ДС), поскольку традиционные СУБД также являются ИПС, только фактографическими.
Основной функцией любой ДС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Выдача системой требуемых данных реализуется с помощью главной операции ДС – проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы. ДС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.
Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. Информационная потребность может быть представлена в виде некоторой последовательности ее частных значений в фиксированные моменты времени. Такое частное значение информационной потребности потребителя в определенные моменты времени, выраженное на естественном языке, и представляет собой информационный запрос, с которым пользователь обращается к системе.
При проведении информационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но и по отношению к информационному запросу.
Для выражения данных отношений в теории ДС введены два фундаментальных понятия: пертинентность и релевантность. Под пертинентностью понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными. Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает запросу потребителя, носят название релевантных.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми (или просто информационными).
В процессе проведения информационного поиска в ДС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. На основе такого сопоставления принимается решение о выдаче (он признается релевантным) или невыдаче документа (он считается нерелевантным).
Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДС определяется степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности, а на понятии формальной релевантности — соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.
В традиционных системах используется понятие поискового образа документа — ПОД. Обычно этим термином обозначают нечто, заменяющее собой документ и использующееся при поиске вместо реального документа. Поисковый образ является результатом применения некоторой модели информационного массива документов к реальному массиву. Наиболее популярной моделью является векторная, в которой каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл.
Векторная модель:
где - термин; - документ.
Если быть более точным, то документу приписывается вектор размерности, равный числу терминов, которыми можно воспользоваться при поиске.
Запрос к системе:
где q — вектор запроса; r— вектор отклика.
При булевой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются — элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему соответствие данного термина документу. Именно последняя модель стала наиболее популярной в ИПС Интернета.
Существуют и другие модели описания документов: вероятностная модель информационных потоков и поиска модель поиска в нечетких множествах.
- Раздел 1. Теория автоматического управления
- Частотные характеристики систем управления и связь между ними
- Временные характеристики систем управления
- Типовые звенья систем управления
- Интегрирующее звено
- Консервативное звено
- Запаздывающее звено
- Частотные методы оценки устойчивости систем
- Методы построения логариф частотных хар-к
- Законы распределения и числовые характеристики случайных сигналов
- Оценка качества регулир. Показатели качества
- Передаточные функции дискретных су
- Алгебраический критерий устойчивости дискретных систем
- Частотный критерий устойчивости дискретных систем
- Метод гармонич линеариз нелин систем
- Раздел 2. Локальные системы управления
- Особенности математического описания объектов управления. Входные и выходные переменные. Векторы состояния, управления и возмущения. Оператор и переходная функция
- Д атчики систем автоматики
- Устойчивость датчиков к действию высокочастотных помех
- Двигатель постоянного тока как элемент автоматики. Принципиальная схема, основные уравнения движения
- Асинхронный двигатель как элемент автоматики. Структурная схема, передаточная функция, переходные характеристики
- Дискретные законы управления. Математическая модель дискретного управляющего устройства. Импульсные передаточные функции каналов дискретного уу
- Раздел 3. Вычислительные машины, системы
- Принципы построения вычислител машин
- Понятие логической функции. Полностью и неполностью определенные логические функции. Способы задания логических функций
- Комбинационные автоматы. Синтез комбинационных конечных автоматов
- Методы минимизации логических функций
- Модели вычислений. Многоуровневая организация вычислительных процессов
- Прерывания. Шина современных пк
- Типы и основные принципы построения периферийных устройств
- Многомашинные комплексы и многопроцессорные системы
- Управляющие вычислительные комплексы
- Раздел 4. Технические средства обработки текста и изображений
- Методика светоэнергетического расчета лазерного фотовыводного устройства
- Методика расчета параметров лазерных выводных устройств, определ скорость сканирования
- Структура, назначение и принцип работы проявочных машин. Основные системы автоматизации процессов обработки фотоматериалов
- Технические средства анализа и ввода изображения в систему допечатной обработки
- Основные виды, параметры и принцип работы источников и модуляторов лазерного излучения
- Структурная схема, назначение и принцип работы формовыводного устройства (рекордера)
- Основные этапы и характеристики электрофотографического процесса цветной электрофотографии. Структурная схема, назначение устройств и принцип работы аппарата цветной электрографии
- Принцип работы, назначение и разновидности струйных принтеров
- Структурная схема, назначение устройств и принцип работы лазерного принтера (одноцветный вариант)
- Структурная схема, назначение устройств и принцип работы лазерного фотонаборного автомата
- Цифровые печатные машины (цпм). Основные типы цпм и принцип работы
- Раздел 5. Автоматизированное управление полиграфическим производством
- Задачи управления дискретным производством: планирование ассортимента выпуска продукции, транспортная задача
- Симплекс-метод решения задачи линейного программирования. Табличная реализация симплекс-метода в задаче об ассортименте выпускаемой продукции. Алгоритм поиска оптимального плана
- Табличный метод решения транспортной задачи. Использование циклов пересчетов и метода потенциалов при поиске оптимального плана перевозок. Достаточное условие оптимальности
- Информационное обеспечение систем управления. Фактографические базы данных. Типы субд и их характеристики
- Документальные информационные системы, их характеристики. Информационный поиск в документальных системах, оценка полноты и релевантности. Модели поисковых образов
- Методы защиты информации в информационно-управляющих системах. Алгоритмы шифрования данных. Метод открытого ключа. Средства анализа защищенности компьютерных сетей