New media общая информация об Internet - davaiknam.ru o_O
Главная
Поиск по ключевым словам:
Похожие работы
Название работы Кол-во страниц Размер
Лабораторная работа №1 «Программа Internet Explorer и поиск информации... 1 160.19kb.
Лабораторная работа №1 «Программа Internet Explorer и поиск информации... 1 215.63kb.
Глобальная сеть Internet и создание Web-документов 1 133.24kb.
Что такое Интернет (Internet)? 1 102.48kb.
Windows Internet Explorer (читается интернет эксплорер, ранее Microsoft... 1 84.25kb.
Лабораторная работа №32 Работа с World Wide Web в программе Internet... 1 69.18kb.
Понятие и сущность internet определение Internet 1 82.37kb.
Лекция 7 Понятие компьютерной сети 1 77.82kb.
Инструкция пользователя ресурсами глобальной сети Internet 1 63.8kb.
Internet-сообщество портала дистанционного обучения неудачин Илья... 1 33.04kb.
Урок №1. Тема. Знакомство с internet explorer 1 119.54kb.
Грядущая схватка за ресурсы. Глобализация против регионализма 8 1573.95kb.
Направления изучения представлений о справедливости 1 202.17kb.

New media общая информация об Internet - страница №1/19


Содержание

ВВЕДЕНИЕ

ГЛАВА 1. NEW MEDIA

  1. Общая информация об Internet

  2. New Media и СМИ

  3. Гипертекст и WWW

  4. Интеграция информационных ресурсов

  5. Топология Web-пространства

  6. Навигация в Internet

  7. Информационно-поисковые системы

  8. "Скрытый" Web




  1. Очередной феномен Internet

  2. Типы скрытых ресурсов

  3. Базы данных "скрытой" Сети

  4. Сталкеры в скрытом пространстве

  5. "Скрытый" Web в каталогах

  6. Системы поиска в "скрытом" Web

  7. Информация в различных форматах

  8. Скрытые новостные ресурсы

  9. "Скрытый" архив "поверхностного" Web

1.8.10. Подходы к решению проблемы "скрытого" Web

ГЛАВА 2. ПОИСК В INTERNET

  1. Характеристики ИПС

  2. Лингвистическое обеспечение ИПС

  3. Семантические методы

  4. Этапы поисковой процедуры

  5. Процесс поиска непосредственно

  6. Запросы пользователей

  7. Поиск подобных документов

  8. Ранжирование откликов

  9. Поиск по словам и словоформам




  1. Логические операторы

  2. Операторы контекстной близости

12

15

15

17

19

20

23

25

28

31 31 33 34 37 38 39 40 40 41 41

43 43 45 49 52 54 55 57 57 57 58 59

2.12. Поиск по параметрам

59



2.13. Популярные сетевые информационно-поисковые службы 61

  1. Крупнейшие зарубежные службы 61

  2. Службы поиска в российском сегменте Сети 68

  3. Крупнейшие украинские службы 70

2.14. Поиск информации в корпоративных сетях 73

  1. Популярные ИПС 73

  2. Новый уровень обработки сетевой информации 79

  3. Порталы знаний 81

2.15. Поисковые программно-аппаратные комплексы 83

ГЛАВА 3. СИСТЕМЫ ИНТЕГРАЦИИ INTERNET-КОНТЕНТА 87

  1. Статическая и динамическая составляющие Web-пространства 87

  2. Недостатки традиционного поиска 88

  3. Невизуальный Web 89

  4. Синдикация новостной информации 91

  5. От "поисковиков" — к "интеграторам" 91

  6. Форматы синдикации новостей 93

  7. OPML — формат для хранения списка RSS-фидов 96

  8. Источники новостного контента 98

  9. Системы поиска RSS-фидов 104




  1. Агрегаторы 106

  2. Новые подходы 109

  3. Информационные ресурсы для мобильных устройств 110




  1. Wireless Application Protocol 110

  2. WAP-ресурсы 111

  3. Реализация WAP-протокола 113

  4. WML и микробраузеры 114

  5. Эмуляторы WAP 116

  6. Проблемы и перспективы WAP 118

  7. Доступ к сетевому контенту с КПК 121

  8. Информационные ресурсы для КПК 122

  9. Эмуляция мобильности 124




  1. RSS-формат на КПК 125

  2. Игрушка или рабочий инструмент 126

3.13. Службы доставки новостей по электронной почте 127

  1. История сервиса 127

  2. Система телеконференций Usenet 128

  3. Доставка новостей с отдельных сайтов 131

  4. Специализированные службы рассылки новостей 133

  5. Интеграция новостей с целью рассылки 135


  1. Спам — альтернатива востребованной рассылке 139

  2. Перспективы технологий доставки новостей 139

ГЛАВА 4. XML — ЯЗЫК РАЗМЕТКИ И МОДЕЛЬ ДАННЫХ 141

  1. XML как модель данных 144

  2. XML-поиск и языки запросов 145

  3. XML-решения для хранения данных 149

  4. Корпоративные и офисные приложения для XML 154

  5. Настоящее и обозримое будущее XML 156

ГЛАВА 5. ОСНОВЫ ТЕХНОЛОГИИ TEXT MINING 159

  1. Основные элементы Text Mining 161

  2. Контент-анализ 162

  3. Модели поиска 166




  1. Булева модель поиска 166

  2. Векторно-пространственная модель 168

  3. Гибридные модели поиска 169

5.4. Группировка текстовых данных 169

  1. Кластеризация 171

  2. Тематическая близость 172

  3. Вероятностная модель . 174

  4. Латентно-семантический анализ 178




  1. Автоматические ответы на вопросы 188

  2. Реализация систем Text Mining 190




  1. Intelligent Miner for Text 191

  2. PolyAnalyst 192

  3. Text Miner 194

  4. SemioMap 195

  5. InterMedia Text, Oracle Text 196

  6. Autonomy IDOL Server 196

  7. Galaktika-ZOOM 197

  8. InfoStream 198




  1. Text Mining не только для спецслужб 198

  2. Автоматическое реферирование 199




  1. Квазиреферирование 201

  2. Алгоритмы автореферирования 202

  3. Дайджесты 203

  4. Поисковые образы документов 205

  5. Информационные портреты 205

  6. Программы автореферирования 205

  7. Автореферирование на основе семантических методов 212

  8. Перспективы автореферирования 214

ГЛАВА б. ИНСТРУМЕНТАРИЙ КОНКУРЕНТНОЙ РАЗВЕДКИ 217

  1. Задачи конкурентной разведки 218

  2. Источники информации и базы данных 219

  3. Подходы к анализу контента 220

  4. Некоторые примеры 221

  5. Конкурентная разведка и "скрытый" Web 227

  6. Перспективы систем конкурентной разведки 227

ГЛАВА 7. ЗАКОНОМЕРНОСТИ, ПРИСУЩИЕ

ИНФОРМАЦИОННЫМ СИСТЕМАМ 231

  1. Правило Парето 231

  2. О переходе количества в качество 233

  3. Закон Зипфа 234

  4. Закономерность Брэдфорда 238

  5. Прогноз Мура и информационная сфера 239

  6. Фракталы и информационное Пространство 240




  1. Примеры абстрактных фракталов 241

  2. Фракталы из жизни 244

  3. Информационные фракталы 245

7.7. Проблемы и феномены Internet 249

ГЛОССАРИЙ 253

ЛИТЕРАТУРА 263

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 267

Предисловие

Эта книга для тех, кто интересуется методами получения новых знаний на основе анализа современного информационного пространства, а также способами обработки информационных потоков с целью выявления тенденций, новых по­нятий, феноменов, взаимосвязей.

Одно из определений знаний, которое дает энциклопедический словарь Webster, следующее: состояние осведомленности о чем-то или обладание информа­цией. Именно эта трактовка знаний наиболее близка к проблематике данной рабо­ты. Объем данных, из которого приходится выискивать крупицы необходимой, актуальной, готовой к немедленному использованию информации для решения про­блем, обусловливает актуальность и значимость самого процесса поиска знаний.

Если знания — это сила, то сегодня первоочередная задача — найти эту силу. При этом поиск знаний, в отличие от простого поиска информации, при котором зачастую не учитывается семантика запросов, должен предоставлять пользовате­лю только действительно актуальную информацию, наиболее точно соответст­вующую его потребностям, и вместе с тем адекватную исходному запросу. Если при обычном информационном поиске пользователь в конечном итоге знает, что он может получить, то при поиске знаний он должен получить нечто до сих пор ему неизвестное и познать его.

О сложности такого процесса говорит, например, недавнее исследование, про­веденное фирмой Reuters среди 1300 менеджеров, которое показало, что "менеджеры чувствуют, что не могут эффективно работать без получения боль­шого объема информации, но эта тяжелая загрузка данными, часто не имеющи­ми никакого отношения к делу, снижает эффективность их работы и препятст­вует нормальному функционированию корпоративной машины". Это состояние было названо "синдромом информационной усталости", что свидетельствует об избытке информации и недостатке знаний. Из опрошенных фирмой Reuters ме­неджеров, 38% утверждают, что "тратят много времени, пытаясь найти нужную информацию". По оценкам экспертов, около 79% журналистов обращаются к Internet в поисках новостей и лишь 20 % находят ту информацию, которая им необходима. Все они на самом деле ищут именно знания.

В последнее время о поиске знаний пишут достаточно много. Появилось новое направление в обработке текстовой информации — "глубинный анализ текстов" (Text Mining). Это направление, скорее технологическое, чем научное, включило в себя все реальные, реализуемые на практике результаты исследований в облас­ти контент-анализа и компьютерной лингвистики, которая, как и теория баз знаний, интенсивно развивалась в 70-80-е годы прошлого века.

Сегодня прагматичные подходы, свойственные технологии Text Mining, мо­гут применяться как студентами при написании обзорных курсовых работ, так и маркетологами при анализе рынков, политиками, бизнесменами, учеными — всеми, кто активно участвует в современных информационных, политических и бизнес-процессах.

Методы Text Mining уже используются в таких основных областях, как:

» политические исследования — геополитика, анализ предвыборной и вы­борной ситуации, деятельность партий, общественных организаций, от­дельных политических деятелей и т.д.;


  1. конкурентная разведка — обобщенный анализ деятельности конкурентов, их PR-активности, клиентской базы;

  2. анализ рынков — выявление основных тенденций в производстве и по­треблении товаров и услуг определенных видов, в политике фирм, участ­вующих в рынках, ареалах;

  3. анализ новых технологий — в различных сферах науки, бизнеса, безо­пасности;

  4. образование, культура.

Несмотря на то что книга ориентирована на широкий круг читателей, инте­ресующихся современными информационными технологиями, хочется верить, что она будет также полезна и аналитикам, которые с помощью методологии Text Mining или отдельных ее компонентов смогут повысить эффективность и качество своей работы.

Введение

К

оличество информации, обрушивающейся на человека в современном ми­ре, обусловливает актуальность задачи отделения действительно важных сведений от информационного шума. Человек, группа людей, информационная служба, профессиональные эксперты-аналитики уже не могут пропускать через себя потоки информации, которые изливаются на них сегодня электронными медиа. Зачастую даже опытные эксперты не могут выделить главного, не на­ходят сведений, необходимых для принятия решений, в результате чего дейст­вия как отдельных людей, так и коллективов или даже государств становятся неадекватными реальной обстановке.

Таким образом, самая главная проблема современных коммуникаций — это извлечение действительно ценных сведений из информационных потоков; дру­гими словами, получение знаний из информации.

Обилие информации уже давно воспринимается как нечто само собой разу­меющееся. Количественные оценки ее суммарного объема как таковые вряд ли могут стать поводом для особых размышлений. Но если подобные показатели подвергнуть структурному анализу, то полученные результаты могут оказаться весьма неожиданными.

Возьмем, к примеру, исследование изменения объема информации в мире за год [54]. С 2000 года оно проводится в Калифорнийском университете в Беркли под руководством профессоров Питера Лаймана и Хода Вэриена. Ученые пришли к выводу, что на протяжении трех лет, предшествующих 2002 году, количество информации, произведенной человечеством, удвоилось. А в самом 2002 году в мире было произведено пять экзабайт (миллионов терабайт) информации. Для сравне­ния приведем данные об объеме фонда библиотеки Конгресса США, где хранится 19 млн книг и 56 млн рукописей: он составляет около десяти терабайт информа­ции. В упомянутом исследовании информация структурировалась по типам но­сителей. Оказалось, что лидерство прочно удерживают магнитные носители, до­ля которых превышает 90%. Из них большую часть составляют жесткие диски. На кино, фото, печатные издания и другие бумажные документы вместе с опти­ческими цифровыми носителями приходится лишь 7% информации.

Очевидно, что лишь человеческого опыта в данной информационной ситуации становится уже недостаточно. Сама среда поступления информации определяет и возможные реальные подходы к ее обработке. Только мощные возможности информационной техники — компьютеров, сетей — в совокупности со специаль­ным программным обеспечением могут оказаться той панацеей, которая спасет нас от информационного хаоса. В свое время казались очень перспективными системы искусственного интеллекта, экспертные системы со своими парадигма­ми фреймов и правил — баз знаний. То ли в 80-х годах двадцатого столетия не до конца сформировалась общественная потребность в широком использовании таких систем, то ли недостаточными были мощности компьютеров, то ли не до­работаны были теоретические и алгоритмические основы таких систем, но бум их популярности в конце 80-х годов закончился. За прошедшее с тех пор время наряду с бурным технологическим процессом (до сих пор не опровергнут закон Мура) сложилось понимание того, что для решения проблемы информационного хаоса больше всего подходят технологии, порожденные некогда таким направле­нием, как контент-анализ, и сегодня получившие названия Data Mining и Text Mining. В настоящее время существуют достаточно развитые системы, реали­зующие эти направления. Практически все самые известные производители про­граммного обеспечения предлагают на рынке системы глубинного анализа дан­ных и текстов (у компании Oracle — это Oracle Text, у IBM — Intelligent Miner for Text, у SAS — Text Miner).

Следует отметить, что большая часть информационного потока — это не­структурированная текстовая информация, в то время как значительная часть электронной информации, порожденной путем использования современных СУБД, — это численные фактографические данные. Если обработка таких данных позволяет использовать уже отработанные методы и погружать потоки данных в СУБД, то задача анализа текстовой информации открывает широкое поле для применения новейших методик и технологий, таких как XML, лингвистические, эмпирические, статистические подходы. В настоящее время уже определено не­сколько задач, стоящих перед технологией Text Mining, — это автоматическая классификация, кластеризация, выявление смысловых взаимосвязей отдельных фрагментов и понятий, выраженных в тексте, а также составление осмысленных рефератов, резюмирующих знания, содержащиеся в текстовых массивах больших объемов. Возможно, эти технологические подходы в случае массового применения смогут облегчить ориентацию человека в постоянно расширяемом информацион­ном поле, позволят ему адекватнее реагировать на происходящие события, уве­ренно принимать важные решения на основе концентрации знаний.

Развитие вычислительной техники и компьютерных сетей способствовало по­явлению систем, назначение которых — поиск в массивах полнотекстовых до­кументов. К таким документам можно отнести, например, статьи, нормативные акты, реферативные описания, тексты брошюр, диссертаций, монографий. До определенного времени полнотекстовые информационно-поисковые системы ис­пользовались преимущественно специалистами, круг которых был не очень ши­рок, — архивные работники, сотрудники библиотек, ученые, аналитики.

Появление и развитие сети Internet в корне изменило ситуацию. Сегодня ин­формационные ресурсы Сети составляют около десяти миллиардов документов (Web-страниц), к которым возможен свободный доступ любого пользователя. Ес­тественно, чтобы найти необходимую информацию в этой крупнейшей полнотек­стовой базе данных, необходимо использовать очень мощные поисковые средства, которые в зачаточном состоянии уже существуют, развиваются и конкурируют друг с другом на рынке информационных технологий.

Сегодня миллионам пользователей Internet известны такие системы, как Google, Yahoo, AllTheWeb, AltaVista, каждая из которых охватывает несколько миллиардов Web-документов. Мы стали свидетелями "информационного взры­ва", в результате которого менее чем за 10 лет мало кому известная технология полнотекстового поиска стала повседневным инструментом миллионов людей.

В связи с этим первая глава книги — "New Media" — посвящена Internet и ее информационному подпространству World Wide Web. В этой главе описывается топология этого подпространства, а также средства навигации в нем и эволюция этих средств — от простейших наборов ссылок и каталогов до многофункцио­нальных порталов.

Вторая глава посвящена поисковым системам, процессу поиска информации и его отдельным звеньям, а также включает трактовки таких фундаментальных понятий информационного поиска, как полнота и релевантность. Кроме того, эта глава содержит информацию о практической стороне использования процедур поиска, особенностях формирования запросов к различным информационно-поисковым системам с использованием слов, словоформ, фрагментов текстов, а также о поиске с учетом структуры документов, морфологии, подобия.

Третья глава охватывает вопросы ориентации в новостной информации, пред­ставленной в Сети. Для такого поиска используется специальный класс инфор­мационно-поисковых систем — системы мониторинга контента Internet, на осно­ве которых строятся современные службы синдикации новостей.

Вопросам современного унифицированного представления информации в пер­спективном формате гипертекстовой разметки XML, а также технологическим решениям, построенным на основе идеологии XML, посвящена четвертая глава "XML — язык разметки и модель данных".

Технологиям выявления знаний в текстовых массивах с использованием как классических, так и новых, интеллектуальных подходов к анализу информации посвящена пятая глава "Технология Text Mining".

Шестая глава посвящена очень популярному сегодня направлению использо­вания технологии Text Mining — конкурентной разведке, которая заключается в сборе и аналитической обработке информации, необходимой для принятия оп­тимальных управленческих решений. Очень важно, что при этом конкурентная разведка выполняется строго в рамках правовых норм.

Седьмая, заключительная, глава книги содержит обзор общих закономерностей, присущих информационным системам, в частности таких, как правило Парето, законы Зипфа и Брэдфорда и так далее, что должно дать читателю некоторое обобщенное представление о тенденциях и подходах, обсуждаемых в книге.

Дмитрий Ландэ, сентябрь 2004 года


Глава I

New Media

I

nternet, появившись вначале как феномен новых технологий, породила мощ­ный инструмент специфического воздействия на сознание человека, получив­ший название "New Media" [10].

1.1. Общая информация об Internet

Internet более чем за 30 лет своего существования вышла за пределы военных лабораторий США (где она родилась в рамках проекта ARPANET) и научных кругов [11] и к настоящему времени стала одним из самых известных явлений современности.

Благодаря чему же произошло это, почему из сотен компьютерных сетей именно Internet получила такое развитие? Ответов несколько.


  1. Высокая технологичность, надежность и расчет на работу сети в любых, даже экстремальных условиях.

  1. Открытость протоколов (правил), их доступность каждому.

  1. Вследствие этого — поддержка как широким кругом пользователей, так и крупнейшими производителями программного и аппаратного обеспечения.

  2. И последнее, на чем можно остановиться, — способность системы к само­развитию, саморасширению. Это объясняется тем, что чем больше ресур­сов вовлекается в Сеть, тем она становится интереснее и полезнее пользо­вателям, круг которых в результате растет. Есть и другая причина — постоянное снижение расходов на работу в Internet.

Internet-ресурсы сегодня — это, прежде всего, объемы — свыше 10 млрд до­кументов на более 50 млн Web-сайтов. По заявлению аналитической компании Cyveillance (http://www.cyveillance.com), темпы роста Сети составляют 7 млн новых страниц в день. По прогнозам, "центр роста" Internet сейчас уходит из США. Динамика роста объемов информационных ресурсов в Сети настолько ве­лика (для сравнения, можно отметить — количество Web-сайтов в 1998 году со­ставляло около 1 млн), что методы решения задачи обеспечения навигации в ре­сурсах Internet кажутся далеко не очевидными.

Сегодня каждый пользователь New Media на собственном опыте "ощущает" один из самых больших парадоксов этой среды: "полезной информации стано­вится все больше, но найти что-то определенное все сложнее".

Как гласит опубликованный аналитической службой Netcraft Web Server Survey (www.netcraft.com) отчет (рис. 1.1), количество Web-сайтов в Internet в 2004 году достигло 50 млн, а темпы увеличения их числа составляют 1,7 млн в месяц. Количество же отдельных документов (страниц), размещенных на этих сайтах, составляет около 10 млн. Заметим, речь идет о ресурсах открытой части Internet, доступной информационно-поисковым системам. О гораздо большем объеме ресурсов "скрытого" Web речь пойдет ниже.

При этом даже самые крупные информационно-поисковые системы в мире охватывают в своих индексах не более 30-40% доступных ресурсов. Было бы логичным, чтобы владельцы некоторых систем подобного типа, договорившись, попытались охватить лишь определенные "вертикальные" фрагменты Сети, со­вместно решая задачу полного охвата ресурсов и обеспечивая качественную на­вигацию в своих областях. Однако такая модель утопична, а тенденции на рын­ке глобальных информационно-поисковых систем никак нельзя назвать радужными. Реалии таковы: новизна охватываемой информации падает, навига­ционные сервисы в основной своей массе не улучшаются, а количество самих глобальных информационно-поисковых систем (за редким исключением не ставших порталами, решающими другие задачи) стремительно растет.



Свалка или Клондайк?

Эффективное использование традиционных поисковых систем достигается только в случае обращения их к относительно стабильной части информационно­го пространства. Но парадокс заключается как раз в том, что Internet в основ­ном таковым не является.

С точки зрения обновляемое™ информации, все Internet-пространство можно условно разделить на две составляющие — стабильную и динамическую. Стабильная составляющая содержит информацию "долговременного" плана, например монографии, галереи, коллекции или архивы. Динамическая состав­ляющая включает постоянно обновляемые или новые ресурсы. Небольшая часть этой составляющей вливается затем в стабильную, в то время как боль­шая часть "исчезает" из Сети.

В свою очередь, информационные потребности пользователей можно условно разделить на две части — "знания и понятия" и "новости". Очевидно, что первая часть потребностей в большей мере удовлетворяется стабильной составляющей Internet, в то время как потребности в новостях могут найти свое удовлетворе­ние только в динамической составляющей New Media.



следующая страница >>



История повторяется, потому что не хватает историков с фантазией. Станислав Ежи Лец
ещё >>