Исследование частотных характеристик языковых элементов - davaiknam.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Лабораторная работа №3 Исследование последовательного и параллельного... 1 105.78kb.
Басалин П. Д. Оптимизация частотных характеристик линейных пассивных... 1 39.5kb.
Методом лазерного зондирования 1 19.2kb.
Исследование характеристик малогабаритной гировертикали мгв-1 5 617.62kb.
Макаров Валентин Михайлович Традиционным направлением научных исследований... 1 55.23kb.
Исследование распределения элементов в матрице на 1 174.81kb.
Исследование статистических свойств параметров однотипных элементов 1 52.31kb.
Исследования вариаций магнитного поля Солнца как звезды К. С. 1 13.96kb.
Тема особенности построения генератор различных частотных диапазонов. 1 13.41kb.
Аспекты квантитативности в практике перевода 1 77.09kb.
Исследование структурно-механических характеристик плавленого сыра... 1 43kb.
Громадська організація спілка захисту сім’ї та особистості 1 59.49kb.
Направления изучения представлений о справедливости 1 202.17kb.

Исследование частотных характеристик языковых элементов - страница №1/1


-- Квантитативная лингвистика.

Исследование частотных характеристик языковых элементов.



II. Исследование частотных характеристик языковых элементов.

Закон Ципфа.

  1. Основные частотные характеристики языковых элементов


F (Wi) - слово i;
С(Wi) – абсолютная частота слова i в корпусе;

Именно так? Не просто



fi - относительная частота слова (fi = С(Wi) / N);
rранг слова в списке слов, упорядоченных по частоте

N – объем анализируемого корпуса
L – объем словника, составленного по корпусу

Пример 1. Данные для статьи «Интеллигенция и свобода (К анализу интеллигентского дискурса)» Ю. М. Лотмана




словоформа

абс. частота

кол-во букв

отн частота

И

411

1

0.042132

В

348

1

0.035674

Не

195

2

0.01999

С

125

1

0.012814

интеллигенции

103

13

0.010559

Как

96

3

0.009841

Что

88

3

0.009021

Для

72

3

0.007381

На

71

2

0.007278

Русской

70

7

0.007176

Из

66

2

0.006766

К

66

1

0.006766

Но

64

2

0.006561

Же

62

2

0.006356

Но

64

2

0.006561

Же

62

2

0.006356

Это

59

3

0.006048

Так

56

3

0.005741

эмигрантская

1

12

0.000103

Эпизоде

1

7

0.000103

Эпштейн

1

7

0.000103

Эссе

1

4

0.000103

Эстетику

1

8

0.000103

эсхатологизмом

1

14

0.000103

эсхатологии

1

11

0.000103

эсхатологическая

1

16

0.000103

эсхатология

1

11

0.000103

эталонных

1

9

0.000103

Этапа

1

5

0.000103












Объем текста в словоупотреблениях

9755




Объем словника

3937




Максимальная длина слова

21

противопоставленность

Средняя длина слова

6,37





  1. Закон Ципфа. Связь ранга слова и его частотной характеристики.


  • Между рангом слова и его частотой существует обратно пропорциональная зависимость



NB: значения в графе Е колеблются около 1000

значения предсказываемые и реальные частоты отличаются, в основном, не очень сильно


    1. История вопроса


      1. 1916г. Эсту

Словник текста (N – объем текста в словах, L – объем словника составленного по тексту):

Номер слова

Частота слова

1

f1

...




R

fr






L

fL

(французский ученый, занимался усовершенствованием системы стенографического письма):

Установил закономерность:



  • f1*1 f2*2  …  fr*r  fL*L

если N – объем текста в словах,

L – объем словника составленного по тексту,

слова в словнике расположены в порядке убывания частот и пронумерованы от 1 до L,

f – частота слова,

r - номер слова (1 <= r<= L)


  • величина произведения частоты слова на его номер приблизительно постоянна для всего списка; или зависимость между частотой слова и его номером в списке по убывающим частотам:

fr*r = C или fr= (1)

1.1.2. 1928 г. - Э. Кондон


(сотрудник лаборатории телефонной компании Белл, где в целях повышения пропускной способности телефонных линий изучались некоторые статистические свойства речи)

исследовал данные частотных словарей Дьюи и Эйрса – график:

по оси абсцисс - логарифм номера слова r,

по оси ординат – логарифм частоты слова f

(ср. Слово №1 имеет частоту 104 , слово №L – частоту 1)


  • В билогарифмических координатах соотношение между частотой слова и его номером приближенно изображается прямой линией (пересечение прямой с осью ординат находится в точке шкалы, соответствующей логарифму частоты первого, самого частого слова, а пересечение с осью абсцисс – точке, соответствующей логарифму номера последнего слова (самого редкого))

Зависимость между частотой и номером слова в билогарифмических координатах близка к линейной.

fr= (2),

где С и  - константы, гамма указывает на угол наклона прямой к оси абсцисс и численно равна тангенсу этого угла, а С – ордината пересечения прямой с осью ординат

С точки зрения относительной частоты:

(3),

Экспериментальные точки, полученные Кондоном, располагались на билогарифмическом графике в области прямой с углом наклона к оси абсцисс, равным 45 градусов, т.е. в формуле  = 1.На основании этого Кондон предложил для описания наблюденной им зависимости формулу вида fr=Cr-1 или в относительных величинах pr=kr-1

Определение k:

сумма всех вероятностей должна равняться 1, а объем словника для данного текста известен – L, выразив pr через k/r имеем , отсюда найдем k

для данных Дьюи: L=10161, k = 0.102



Рис.1. Эксперимент Кондона

1.2. Закон Ципфа Дж.К.


1.2.1. Ципф

(George Kingsley Zipf, профессор лингвистики Гарвардского университета, 1902-1950)

Экспериментальный материал: роман Джойса «Улисс», индекс Хэнли, представляющий собой частотный словарь к «Уллису» (текст длиной 260430 слов, объем словника 29899 слов )

если r=1, то k=p1, то есть константа численно равна частоте самого частого слова и приблизительно =0.1




fr= (4),


Выводы Ципфа:

  • хотя экспериментальные точки несколько уклоняются от вычисленных по формуле, но в целом все тексты независимо от языка, автора и эпохи ведут себя одинаково по отношению к этой зависимости.

  • эта зависимость универсальна и описывает распределение слов в любом тексте



Рис. 2. Закон Ципфа в логарифмических координатах

Рис. 2. Распределение Ципфа по данным словаря языка Пушкина (N=500000, L=21197) (см. файл Zipf_Grafiki или [Фрумкина Р.М. 1964])

1.2.2. Критика Ципфа:


Джус – зависимость Ципфа чисто математически не может быть универсальна

– если k=0.1, а сумма всех вероятностей =1, то 0.1*сумма по всем r от1 до L 1/r =1, то L=1200



  • эта зависимость описывает не текст вообще, а текст с объемом словника 1200 слов

поскольку k не зависит от текста, тогда  =1 – частный случай

если  =1.08, то объем словника возрастет до 600000 (соответствует словнику типа Вебстер), при  = 0.98, объем словника будет меньше 12000


Ципф согласился, что показатель степени при r может отличаться от 1,но в «неправильных» текстах – детской речи и т.п., а его закономерности подчиняется «нормальная» речь (см. Zipf «Human behavior»)

1.2.3. Уточнение закона Ципфа


В 50-х гг в связи с развитием теории информации интерес к закону Ципфа возрос и появились работы, посвященные его уточнению и интерпретации, а также вычислению констант для различных языков:

  • Мандельброт

  • Белевич

  • Зоммерс

  • Вей

  • Миллер и Ньюмен

  • Хердан

Мандельброт показал, что если предположить, что язык близок к оптимальному коду, то он должен подчиняться формуле pr=kr-

Мандельброт:



  •  не является константой, а является параметром, меняющимся от текста к тексту;  как существенная характеристика текста может быть использована для сравнения текстов с точки зрения распределения слов с различной частотой


Рис. 3 См. файл Zipf –grafiki или [Фрумкина Р.М. 1964] Рис. 4 см. файл Zipf-grafiki или [Фрумкина Р.М. 1964]

1.2.4. Другие примеры ранговых распределений


    • распределение информационных потоков (Брэдфорда, Лотка)

    • множество всех статей по определенной тематике, опубликованных в некоторый период в некотором конечном множестве журналов: ранговое распределение характеризует степень близости того или иного журнала данной тематике

    • распределения биологических родов определенного семейства по числу видов, принадлежащих данному роду

    • распределение людей по доходам

    • распределение городов по численности населения и т.п.

Общее: в этих примерах выступает относительно замкнутая система объектов и множество с помощью которого эти объекты разбиваются на классы

Практически при изучении ранговых распределений устойчивыми являются лишь общие свойства формы распределения в целом, место же в этом распределении отдельных элементов текста окказионально и не может быть объектом прогноза.



Закон Ципфа-Мандельброта – Брэдфорда, Лотка, Эсту, Виллиса

1.2.6. Поправка Мандельброта


  • при r <15 закон Ципфа не выполняется и предложил внести поправку – константу

  • после 15 эта константа не оказывает влияние на вид кривой и ею можно пренебречь

  • улучшенное соответствие между эмпирическими и теоретическими данными описывается т.н. "каноническим законом" Ципфа [1, с. 98]:




    ,

    (5)

  • где B - поправка Мандельброта.

An interesting consequence of that rule is easily verified by perusing any of the lists mentioned, for example a list of cities with their populations. First let us look at, say, the third digit of each population figure. As expected, the third digit is randomly distributed; the numbers of 0s, 1s, 2s, 3s, etc. in the third place are all roughly equal. A totally different situation obtains for the distribution of first digits, however. There is an overwhelming preponderance of 1s, followed by 2s, and so forth. The percentage of population figures with initial 9s is extremely small. That behavior of the first digit is predicted by the rule, which, if exactly obeyed, would give a proportion of initial 1s to initial 9s of 45 to 1.


Rank
n


 

City

Population
(1990)


Unmodified
Zipf's law
10,000,000
divided by n


Modified
Zipf's Law
5,000,000
divided by
(n - 2/5)3/4


1

 

NewYork

7,322,564

10,000,000

7,334,265

7

 

Detroit

1,027,974

1,428,571

1,214,261

13

 

Baltimore

736,014

769,231

747,639

19

 

Washington, D.C.

606,900

526,316

558,258

25

 

New Orleans

496,938

400,000

452,656

31

 

Kansas City, Mo.

434,829

322,581

384,308

37

 

Virginia Beach, Va.

393,089

270,270

336,015

49

 

Toledo

332,943

204,082

271,639

61

 

Arlington'Texas

261,721

163,934

230,205

73

 

Baton Rouge, La.

219,531

136,986

201,033

85

 

Hialeah, Fla.

188,008

117,647

179,243

97

 

Bakersfield, Calif.

174,820

103,093

162,270

Populations of U.S. cities from the 1994 World Almanac compared with Zipf's original law and a modified version of it.



1.2.5. Юл. Связь между частотой и объемом группы слов с данной частотой.


Наличие групп равновероятных слов в любом достаточно длинном тексте впервые было отмечено английским статистиком Юлом:

  • независимо от длины и характера текста в любом достаточно длинным тексте между частотой и объемом группы слов с данной частотой существует обратная пропорциональность

  • с уменьшением частоты слова и увеличением номера возрастает длина площадки, соответствующей данному значению частоты

  • в пределах такой площадки закон Ципфа не выполняется


1.2.6. Исследования Фрумкиной Р.М.


[Фрумкина Р.М. 1964]: подробное исследование распределения Ципфа на материале индекса Хенли и Словаря языка Пушкина


  • анализ характера отклонений экспериментальных точек от закона Ципфа дает основания предполагать, что в формуле Ципфа  даже в пределах одного текста не является константой

Построен график для словаря языка Пушкина:

    • длина текста более 500000 слов,

    • словник 21197

    • площадки на графике отражают наличие групп слов с одинаковой частотой, которые при нумерации слов в списке по убыванию частоты приходится, согласно условию, обозначать разными номерами – иначе словник уменьшился бы во много раз

Так в индексе Хэнли слов с частотой=2 с 8672 по 13467, а с =1 13468 по 29899

Пусть С=20000, =1, то для произвольного r, пусть r=833 – частота f833=20000/833=23.9


23833

36 слов с одинаковой частотой имеют разные номера


  • Для небольших групп и малых номеров закон Ципфа дает хорошее приближение, но при больших номерах и малых частотах объем групп возрастает до нескольких тысяч слов

  • закон Ципфа не описывает распределения слов с малой вероятностью

У Пушкина слова с p~0.2*10-5 составляют 48% словника

У Джойса из 29899 слов 21208 слов употреблено в тексте Улисса не более 2 раз, т.е. закон Ципфа описывает только часть словника, и не слишком большую


Таблица 1. Соотношение длины текста и слов с частотой 1 (Фрумкина)

Название текста

Длина текста

Количество различных слов

Количество слов с частотой 1

Пушкин «Капитанская дочка»

5000

1568

927

То же

10000

2432

1477

То же

20345

4900

2384

Пушкин, Собрание сочинений

544777

21197

6389

  • С увеличением длины текста увеличивается число новых слов с малыми вероятностями

  • С увеличением длины текста аппроксимация распределения слов зависимостью Ципфа ухудшается


6.3. Определение объема выборки при составлении частотного словаря

    1. словарь должен давать достаточно точные сведения о частоте (величина относительной ошибки)

    2. выборка не должна превосходить некоторого разумного объема, доступного для обработки

    3. словарь должен содержать информацию о частотах по крайней мере большей части слов текста

Для оценки снизу – при заданной ошибке частота редких должна быть больше или равно q

(например, в словаре Вандер Беке при ошибке =0.3, N=A=1.5*106, q приблизительно равно 0.00003)


Зависимость между выборкой и заданной величиной покрытия текста C (Фрумкина)

Вывод формулы основывается на законе Ципфа




Литература

Тулдава Ю.А. Частотная структура текста и закон Ципфа // Учен. зап. Тартус. ун-та. Тарту, 1985. Вып. 711. С. 93-116.



Фрумкина Р.М. Статистические методы изучения лексики. М.:Наука. 1964

G. Zipf. Human Behavior and the Principle of Least Effort (Addison-Wesley), 1949.




Вы так невинны, что можете сказать совершенно страшные вещи. Евгений Шварц
ещё >>