3. Документальные бд - davaiknam.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Документальные фильмы 1 Документальные фильмы «бсср в 1917-1945 гг. 1 15.95kb.
Лаборатория телевидеообеспечения аннотированный каталог 1 196.45kb.
Профориентационная работа для учащихся Документальные фильмы: Телепередачи... 1 26.22kb.
Родился в Красноярске, проживаю в Москве Монтажер/Оператор/Исполнительный... 1 211.6kb.
Статья из аиф №39 от 24 сентября 2008 00: 04: 15 1 143.56kb.
Музыка документальные фильмы 1 303.63kb.
Искусство побеждать. Полководцы Красной Армии 1 297.11kb.
Елена Егорова Наш влюблённый Пушкин Документальные поэмы, очерки... 3 927.08kb.
Фонд редких изданий 1 55.45kb.
Кубанские областные ведомости. 1888г. №№19, 20, 21, 22, 23. 1 156.9kb.
История Холокоста 1 100.5kb.
Инициативный проект Российского семинара по оценке методов информационного... 1 145.98kb.
Направления изучения представлений о справедливости 1 202.17kb.

3. Документальные бд - страница №1/1

3.Документальные БД

Часто И для БД представлена не в виде структурированных массивов данных, а в виде текстовых докумен­тов. Вследствие этого документальные БД (пол­нотекстовые) сразу выделялись в особый тип баз данных. Применяется также термин информационно-поисковые систе­мы (ИПС). Хотя, точнее - документальными ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, толь­ко фактографическими (ФИПС).

Основной функцией любой ДИПС является информационное обеспе­чение потребителей на основе выдачи ответов на их запросы. Осуществле­ние выдачи данных реализуется главной операцией ДИПС - информационным поиском. Информационный поиск - про­цедура отыскания документов, содержащих ответ на заданные потреби­телем вопросы. ДИПС в резуль­тате проведения информационного поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует его запросу. ДИПС ориенти­рованы на частичное, приближенное представление данных, имеющих зна­чительно более сложную смысловую структуру, чем в ФИПС, поэтому результатом по­иска служат тексты, которые в какой-то мере соответствуют запросам, представленным на входе в форме текста.

Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Информационная потребность людей постоянно изменяется и трансформируется. Частное значение информационной потребности потребителя в определенные моменты вре­мени, выраженное на естественном языке (ЕЯ) - ин­формационный запрос (ИЗ), с которым пользователь обращается к системе.

Однако запрос может быть неправильно сформулирован потребителем (не отражать инф. потр.), и при проведении информационного по­иска рассматривается не информационная потреб­ность пользователя, а только информационный запрос. Для выражения данных отношений в теории ДИПС введены два фун­даментальных понятия: пертинентность и релевантность. Пертинентность - соответствие смыслового содержания документа ин­формационной потребности потребителя. Релевантность - соответствие содержания доку­мента информационному запросу в том виде, в каком он сформулирован. Автоматизация процесса информационного поиска потребовала фор­мализации представления смыслового содержания ИЗ и документов в виде соответственно поискового предписа­ния (ПП) и поисковых образов документов (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковы­ми.

В процессе проведения информационного поиска в ДИПС определяет­ся степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. На основе такого сопоставления прини­мается решение о выдаче документа (признается релевантным) или его невыдаче (нерелевантным).



Общая функциональная структура ДИПС

В состав типичной ДИПС входят, как правило, четыре основные под­системы:

подсистема ввода и регистрации, подсистема обработки,подсистема хранения. подсистема поиска.

Подсистема ввода и регистрации решает сле­дующие основные задачи:



  • создание электронных копий бумажных документов (сканирование, распознавание);




  • обеспечение подключения к каналам доставки электронных доку­ментов;

  • распознавание, а при необходимости и преобразование формата электронных документов;

  • присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен.

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. Для хранения документов применяют средства сжатия и быст­рого поиска информации. В этом случае подсистема хранения представля­ет собой совокупность стандартных или специализированных средств ар­хивации, СУБД и т. п. Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа его ПОД.

ПОД сохраняются в индексе. Логически индекс представляет собой таб­лицу, строки которой соответствуют документам, а столбцы - информа­ционным признакам, на основе которых строится ПОД. В ячейках табли­цы могут храниться либо 1, либо 0-в зависимости от наличия или отсут­ствия данного признака в данном документе. В качестве набора признаков может использоваться набор слов. В этом случае в индексе в строке, соответствующей тексту, единицы будут в столбцах, соответству­ющих словам, встречающимся в тексте.

Очевидно, что такая таблица будет сильно разреженной, и хранить все значения не имеет смысла. Поэтому на практике используют свертку таб­лицы по строкам или столбцам. Вместо строки или столбца из единиц и нулей хранятся номера столбцов, содержащих 1, или номера строк, в кото­рых рассматриваемый столбец имеет значение 1. Такую форму хранения называют прямой или инверсной соответственно.

При поступлении на вход системы запроса пользователя, запрос пре­образуется в ПП и передается в подсистему поиска, задачей которой яв­ляется отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового соответствия. Идентификаторы релевантных до­кументов подаются с выхода подсистемы поиска на вход подсистемы хра­нения, которая осуществляет выдачу пользователю самих релевантных документов.



Информационно-поисковые языки

Информационно-поисковым языком (ИПЯ) называется специализирован­ный искусственный язык, предназначенный для описания основного смыс­лового содержания поступающих в систему сообщений с целью обеспече­ния возможности последующего их поиска ЕЯ для этого плохо подходит из-за наличия синонимии и пр. смысловых проблем. ИПЯ создается на базе ЕЯ, отличается компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности.

ИПЯ принято разбивать на два основных типа:



  • классификационные языки; (1)

  • дескрипторные языки. (2)

Принципиальная разница между данными типами языков заключена в процедуре построения предложений языка. В (1) в лексический состав наряду со словами, выражающими про­стые понятия, заранее включены также словосочетания и фразы, выра­жающие сложные понятия. Таким образом, с помощью таких языков производится классифика­ция сообщений, т. е. отнесение их к классам, обозначенным лексическими единицами (ЛЕ) ИПЯ.

Частным случаем (1) является рубрикатор, ЛЕ которого являются названия тематических рубрик. В целом под рубрикатором Побл. понимается ориентированный граф, состоящий из независимых деревьев. Листья де­ревьев будем называть рубриками - объектами, инкапсулирующими зна­ния о конкретных фрагментах ПОбл. Все нелисто­вые вершины являются классификационными родово-видовыми обобще­ниями и используются лишь при ведении поиска. Обычно формируется группой экспертов.

Другой тип языков составляют (2), в которых ЛЕ заранее не связаны никакими текстуальными отношениям. Сложные син­таксические конструкции - предложения или фразы - создаются в этих язы­ках путем объединения ЛЕ во время процедуры представ­ления смыслового содержания документов.

Различают (2) с грамматикой и без грамматики. Пер­вые ИМЕЮТ ряд жестких правил формирования син­таксических конструкций.

В (2) без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПП не играет роли. Кроме того, различают дескрипторные ИПЯ с контролируемой и со свободной лексикой.

Лексический состав первых строго ограничен и зафик­сирован в словаре ИПЯ, на лексический состав вторых не налагается никаких ограничений.



1. Обработка входящей текстовой информации

Поступающие документы в ДИПС должны проводиться с ЕЯ на ИПЯ. В случае применения ИПЯ дескрипторного типа - индексирование, при использовании рубрикатора - рубрицирование.

На сегодняшний день среди дескрипторных ИПЯ наибольшее получили языки без грамматики и без контроля по словарю. При их использовании говорят о полнотек­стовом индексировании.

В операции перевода можно выделить два этапа:

1. Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также от­ношениях между ними.

2. Выражение этих сведений на ИПЯ, т. е. принятие решения о припи­сывании данному сообщению выражений на ИПЯ.

Лингвистический анализ текста может состоять из двух этапов:

1. Морфологического анализа.

2. Синтаксического анализа.

Цель морфологического анализа состоит в получении основ (словоформа без окончания) со значениями грамматических категорий (род, число, падеж).

Задачей синтаксического анализа является осуществление грамматичес­кого разбора предложений, на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т. п., между которыми указываются связи по управлению в виде дерева зависимостей.

Автоматическое индексирование

Автоматическое индексирование документов может основываться на про­стых, однословных или многословных составных терминах (фразах). Простые, однословные термины далеко не идеальны для индексирования, поскольку смысл слов вне контекста нередко бывает неоднозначным. Термины-фразы более осмысленны, обладают большей дискриминирующей мощью.



Автоматическое рубрицирование

В современных исследованиях по данной проблеме выделяют два ос­новных подхода: рубрицирование, основанное на знаниях, и рубри­цирование, основанное на обучении по примерам.

В первом случае используются заранее сфор­мированные БЗн, в которых описываются языковые выражения, соответствующие рубрике, правила выбора между рубрика­ми. Наиболее распрост­ранены две модели представления знаний: модель семантической сети (МСС) и продукционная модель (ПМ). В МСС знания о предметной области описываются независи­мо от рубрикатора в специального вида тезаурусе. Основу методов, использующих ПМ представления знаний, составляет выделение из текста концепций (или понятий), заранее описанных экспертом. Преимуществами данного подхода являются высокое качество рубри­цирования и высокое быстродействие на тех текстовых потоках, для кото­рых они проектировались. Основными недостатками обоих систем являются:


  • высокая трудоемкость и значительные затраты, необходимые для разработки системы;

  • жесткая привязка БЗн и алгоритмов к ПОбл, конкретному рубрикатору, а также размеру и формату рубрицируемых текстов.

Системы основанные на обучении по примерам, рассматривают в качестве понятий, которым нужно обучиться, рубрики. Машинное обучение производится на основе примеров тек­стов, которые были заранее отрубрицированы экспертом вручную.

2. Поиск текстовой информации

Модель поиска текстовой информации характеризуется четырьмя па­раметрами:

• представлением документов и запросов;

• критерием смыслового соответствия; методами ранжирования результатов запроса;



• механизмами обратной связи, обеспечивающими оценку релевант­ности пользователем.

Булева модель, Модель нечетких множеств, Пространственно-векторная модель, Вероятностная модель




Я держусь старых правил. Я верю, что люди должны сочетаться браком пожизненно, как голуби и католики. Вуди Аллен
ещё >>