О компьютерной коррекции психологически обусловленных ошибок правописания в текстах на русском языке - davaiknam.ru o_O
Главная
Поиск по ключевым словам:
страница 1страница 2
Похожие работы
Название работы Кол-во страниц Размер
«Знаки препинания как средство художественной выразительности» 1 96.12kb.
Исследовательская работа по теме «Заимствование англицизмов в русском... 1 252.36kb.
И в жизни. Это первая на русском языке книга 35 5012.37kb.
Урок изучение новой темы. «Степени сравнения имен прилагательных» 1 70.93kb.
Описание спектаклей 1 182.77kb.
Внеклассное мероприятие по русскому языку: «На чистом русском…» 1 178.34kb.
«Глаголы поведения в современном русском языке 1 22.57kb.
Формирование орфографических умений и навыков на уроках русского... 1 63.25kb.
Руководство для тех, кто хочет работать действительно профессионально. 54 3566.39kb.
Первая Категория наклонения глагола в современном русском языке 5 4 557.45kb.
Тема № введение в компьютерную графику 1 223.81kb.
Vi характеристика геофизических полей и их интерпретация 3 535.25kb.
Направления изучения представлений о справедливости 1 202.17kb.

О компьютерной коррекции психологически обусловленных ошибок правописания в текстах - страница №1/2

ЛАВОШНИКОВА Э. К.
О КОМПЬЮТЕРНОЙ КОРРЕКЦИИ ПСИХОЛОГИЧЕСКИ ОБУСЛОВЛЕННЫХ ОШИБОК ПРАВОПИСАНИЯ В ТЕКСТАХ НА РУССКОМ ЯЗЫКЕ
Рассматривается проблематика компьютерных систем проверки правописания. Даются многочисленные примеры типичных и «популярных» орфографических ошибок, встречающихся даже у достаточно грамотных людей. Приводятся также примеры слов с «неоднозначной» орфографией (когда разные словари дают свой вариант написания, что особенно характерно для заимствованных слов).

Работа автокорректора разбирается на примере одного из самых распространенных – ОРФО, встроенного в текстовый редактор MICROSOFT WORD. Даются рекомендации для разработчиков новых версий автокорректоров. В частности, предлагается дополнять внутренние системные словари списками перечисленных и подобных им слов с наиболее «популярными» ошибками и информацией об их правильном написании, поскольку сервисная программа-«подсказка» спеллера ОРФО часто выдает слишком много вариантов исправления, не упорядоченных по их вероятности, а с другой стороны, для слов с двумя ошибками или не с однобуквенными искажениями, как правило, ничего предложить не может.


ВВЕДЕНИЕ
Автоматизированные корректоры (автокорректоры, орфокорректоры, спелл-чекеры, спеллеры), разумеется, не могут решать все задачи по проверке текста. Ошибки могут быть не только орфографическими или синтаксическими, но и стилистическими, смысловыми, логическими, фактическими и др. Приведем пример смысловой ошибки. Одна радиостанция объявила: Бомбовый удар был нанесен в шесть утра по Москве. Имелось в виду «по московскому времени». Очень часто в наших СМИ вместо «Патриархия» употребляют слово «Патриархат», любят прилагательное «нелицеприятный» использовать в значении просто ‘неприятный’, путают «иммиграцию» с «эмиграцией». Вряд ли найдется спеллер, который вылавливает такие лексические ошибки.
Один из самых распространенных в настоящее время спеллеров – автокорректор ОРФО, встроенный в редактор MS WORD. В системе ОРФО есть возможность отключения любых предусмотренных проверок. Мы ссылаемся на работу спеллера при настройке на все предложенные грамматические правила.
В статье будут рассматриваться наиболее типичные орфографические и грамматические ошибки в текстах на русском языке, собираемые автором (в том числе и в процессе редакторской правки), а также особенности компьютерной коррекции ошибок разного рода.

Далее мы будем употреблять термин словоформа, который означает конкретное слово в одной из его грамматических форм. Например, идти, идет, шел, шла, идя, идущий, шедший являются разными словоформами лексемы идти. Формально можно считать, что словоформа – это просто цепочка букв в тексте между двумя ограничителями (пробелами, знаками препинания и т. п.).


Правильное написание примеров сверялось со 2-ым изданием (2005 г.) «Русского орфографического словаря» [10]. Существование в текстах и даже «популярность» приведенных ниже искаженных вариантов этих слов может подтвердить поиск в Интернете.
1. Подсказка ОРФО – только для однобуквенных ошибок?
Автокорректор ОРФО, встроенный в текстовый редактор MS WORD, в текстах пользователей подчеркивает красной волнистой линией слова, отсутствующие в его внутренних системных словарях, «подозревая» в них орфографические ошибки; зеленым иногда подчеркивается слово, употребленное не в той грамматической форме, которая требуется, или со стилистическими особенностями (если подчеркивается не группа слов).

Далее в тексте статьи мы тоже будем подчеркивать подчеркнутые (не из-за стилистики) спеллером ОРФО 2002 примеры.
Для каждого неопознанного слова сервисная программа-«подсказка» – в случае ее вызова пользователем – пробует заменить каждую букву другой буквой, убрать одну букву или дефис, поменять местами две смежные буквы, вставить одну букву или дефис, а также убрать пробел (склеить две, а иногда даже три словоформы). Полученные всеми такими способами «слова» Подсказка пытается найти во внутренних словарях системы. Все, что найдено, выводится в список предлагаемых пользователю вариантов исправления неопознанного слова.

Примеры: для неправильного, но даже более часто встречающегося в Интернете слова барсетка ОРФО 2002 выдает (среди других предлагаемых «похожих» слов) нормативное написание борсетка; для «популярного» скурпулезный – правильное скрупулезный; для «ньюйоркский» – написание через дефис; сочетание «не в терпеж» предлагает писать слитно: невтерпеж; но для ошибочного досчатый программа-подсказка ОРФО 2002 не дает правильного дощатый, так как в этом случае следовало две буквы заменить одной (другой) буквой.


Справедливости ради следует отметить, что программа-подсказка спеллера ОРФО 2002 выдает варианты исправления не только однобуквенных, но и некоторых двойных ошибок: для искаженных слов полувер или дифецит предлагаются правильные пуловер и дефицит. То есть Подсказка может переставить расположенные через одну буквы. Однако для искаженных слов булгахтер и землятресение, в которых буквы, разделенные двумя буквами, поменялись местами, ОРФО 2002 правильных вариантов исправления бухгалтер и землетрясение не дает.
Иногда в речи и на письме вставляют «лишний» слог: театрализировать, разбухнувший (ОРФО 2002 не выдает правильных театрализовать, разбухший), увянул, «нет никаких препонов» (среди выданных программой-подсказкой нет словоформ увял, препон), «пара сапогов». В последнем случае словоформа образована по регулярной модели, но правильно: «пара сапог». Здесь программа-подсказка автокорректора ОРФО 2002 нормативного варианта тоже не предлагает.
Память и быстродействие современных компьютеров уже позволяют снимать те ограничения, которые имелись раньше, поэтому можно было бы расширить количество проверок – исследовать гипотезы о двойных и неоднобуквенных искажениях. Однако если отсутствующие в системных словарях слова программа-подсказка будет подвергать многобуквенным заменам, то в большинстве случаев получится слишком много неадекватных вариантов исправления. Во избежание выдачи пользователю лишних словоформ (включая всю парадигму неопознанного слова) желательно, чтобы разработчики при дальнейших усовершенствованиях автокорректоров встраивали в систему списки наиболее часто встречающихся искаженных словоформ с их исправлениями.

Например, этот список мог бы состоять из пар вроде {болезненен, болезнен}, {досвидание, до свидания}, {маслянница, масленица}, {маслянницы, масленицы}, {масляннице, масленице} и т. д.

Для составления списка «популярных» искажений желательно на большом количестве текстов накапливать статистику того, какие слова чаще остаются неопознанными. Это полезно и для пополнения словарей автокорректора новой лексикой.

В этот системный список следовало бы внести и слова с наиболее типичными однобуквенными ошибками: во-первых, чтобы Подсказка в начале перечня предлагаемых исправлений выдавала наиболее вероятный вариант, а во-вторых, поскольку в таких словах могут появиться вдобавок и другие ошибки. Приведем пример. Если в слове компьютер сделать две ошибки – компъютор, то ОРФО 2002 никакого варианта исправления не выдаст. Но если в списке типичных ошибок будет представлено хотя бы одно из двух ошибочных слов компъютер и компьютор, то для слова с двумя ошибками компъютор будет выдано компьютер. Для этого, после того как не будет найдено никаких вариантов исправления, программа должна будет обратиться к списку искаженных слов. Не обнаружив и там слова компъютор, программа опять по очереди будет производить замену букв и продолжать поиск. При этом в какой-то момент получится слово уже не с двумя, а только с одной ошибкой, которое и будет найдено в списке «популярных» искажений вместе с его исправлением.


Узкоспециальные термины вряд ли в большом количестве попадут в перечень «популярных» искажений, так как специалисты знают свою терминологию и допускают скорее опечатки, чем ошибки. Маловероятно также, что они путают термин комплемент с комплиментом, онтологию с антологией, контроллер с контролёром или эксперименты с экскрементами. Однако если термин становится употребительным в более широких кругах, он может «адаптироваться» и искажаться (например, часто пишут и произносят паталогоанатом вместо правильного патологоанатом).
2. «Популярные» орфографические ошибки
Ошибки могут быть намеренными (передача неграмотной речи, дефектов произношения, а также «словесная игра») и непроизвольными. Непроизвольные орфографические ошибки можно разделить на ошибки правописания и опечатки. Нередко тот, кто уличен в недостаточной грамотности, пытается выдать свои ошибки за опечатки. Действительно, четкую границу здесь трудно провести. Характер и частота опечаток в большой степени зависят от устройства клавиатуры и другой компьютерной специфики (от искажений при сканировании, например). Программа-подсказка системы ОРФО 2002 часто предлагает длинный перечень вариантов исправления, особенно для коротких слов, не упорядоченный по их вероятности. Можно было бы в первую очередь выдавать уже проверенные словоформы, имеющиеся в этом тексте, а также использовать предложенный выше список «популярных» искажений, хотя все опечатки в нем вряд ли можно предусмотреть. Более подробно о компьютерной коррекции опечаток – в статьях [7, 8].
Ниже приводятся примеры орфографических ошибок, иногда встречающихся даже у сравнительно грамотных людей. Думается, что множество типичных ошибок (не опечаток) вполне обозримо. Эти примеры могут быть использованы разработчиками новых версий автокорректоров для формирования списков «популярных» искажений, состоящих из пар {искаженное слово, его исправление}.

В школе нас учили правильно писать слова солнце (проверочное слово солнышко), лестница (хотя слово лесенка – без буквы «т») и др.

Довольно часто в речи и на письме возникает лишняя согласная «н», например в словах:

беспрецедентный, идентифицировать, инцидент,

киднеппинг, компрометировать, конкурентоспособный [2 – 4, 10]

(в речи и на письме очень часто встречается конкурентноспособный),



прецедент.

Как разновидность вставки лишней буквы часто встречается ошибочное удвоение согласной в словах:



ветреный (день, человек), гостиная, гостиница,

кофе глясе [1 – 4, 10] (но пишут кофе гляссе или кофе-гляссе),

мороженое (но с двойным «н» следует писать в сочетаниях вроде «мясо, долго мороженное»),

поликлиника, путаница, свежемороженый, свояченица.

В следующих словах в речи и на письме может выпадать гласная, находящаяся в слабой позиции:



заведующий, канцерогенный, папоротник, притолока, проволока,

следующий, судорога, сутолока и др.

Иногда не обходятся без неоднобуквенных искажений достаточно употребительные слова:



абитуриент (не абетурьент), аккомпанемент, аккредитив,

апелляция (не аппеляция), аппендицит, военнообязанный,

дискриминация, диссидент, дифференцировать,

идиосинкразия, иммунодефицит, индифферентный,

кассета, коммуна (не комунна),

мозжечок (не можжечёк),

паранойя (не пароноя), привилегированный,

сгущёнка (не згущонка), терраса (не терасса).
Можно предположить психологические причины возникновения наиболее типичных ошибок (здесь мы не говорим об опечатках). Есть стремление осмыслить и «подправить» не очень привычную морфологию слова, сделать его «более понятным». Например, встречается написание нервопатолог («народная этимология» – не от neuron, а от нерв, латинское nervus – жила). Если в таком слове будет допущена еще одна ошибка, то ОРФО 2002 уже ничего предложить не сможет. Однако если пары {нервопатолог, невропатолог}, {нервопатолога, невропатолога} и т. д. в новых версиях автокорректора занести в список «популярных» искажений, то при появлении в тексте словоформы с ошибками сразу в двух местах, например нервопотологом, после очередной замены второй буквы «о» буквой «а» полученное слово будет найдено в этом списке, а программа-подсказка сможет выдать искомую правильную словоформу невропатологом. При этом, однако, заметим, между прочим, что существует не только слово невроз (болезнь), но и нервоз (‘нервозное состояние’) [10].

В искажении некоторых слов из нижеследующего перечня повинна так называемая «народная этимология»; другие слова искажаются по другим психологическим причинам (по аналогии и т. п.).



Примеры слов из «Русского орфографического словаря» [10] с их «популярными» искажениями:

агентство, презумпция, сумасшедший (агенство, презумция, сумашедший: так отражаются труднопроизносимые скопления согласных),

ажитация (франц. agitation; но иногда происходит контаминация со словом ажиотаж, и получается несуществующее слово ажиотация),

апартаменты, атрибут (несмотря на франц. appartement, лат. attributum, англ. attribute; знание языков иногда даже «мешает»),

апробировать (‘проверив, одобрить’; неправильное опробировать – как опробовать),

архетип (пишут архитип, предполагая здесь префикс «архи-»),

бессребреник (встречается написание с ошибками сразу в двух местах, но «более понятное» бессеребренник; хотя в «Толковом словаре» Д. Н. Ушакова (1935 г.) третий вариант бессребренник – единственный),

будущий (по аналогии со словом следующий получается будующий),

великомученик, мученик, труженик (ошибочное написание с удвоенной «н» – по аналогии, например, со словом трезвенник?),

военачальник, солдафон (пишут и говорят военоначальник или военноначальник, солдатофон: так «понятнее»!),

времечко, темечко, семечко, стремечко (иногда пишут через «я», так как образовано от слов с окончанием «-я»; с другой стороны, времепровождение и времепрепровождение вместо правильных времяпровождение и времяпрепровождение тоже можно встретить),

грамотный (граммотный – под влиянием слова грамматика),

грейпфрут (грейпфрукт или даже грейфрукт: «Это же фрукт!»),

групорг (неправильное группорг), партгрупорг, профгрупорг – в нормативном написании сокращается вторая буква «п» перед «орг» (сокращенное организатор),

двуглавый, двугорбый (иногда пишут и произносят с «х», так как чаще подобные слова начинаются с «двух-»: например, двухпроцентный),

дерматин, желатин (произносят и пишут дермантин, желантин по аналогии со словами карантин, серпантин?),

джентльмен, мужеложство, пригоршня, учреждение (говорят и пишут джентельмен, мужеложество, пригорошня, учереждение: некоторые сочетания согласных легче произносить с лишней гласной),

дивиденды («лат. dividendus подлежащий разделу» [1]; однако отсутствующий в [10] вариант дивиденты встречается едва ли не чаще – звучит привычнее, так как слов на «-ент» намного больше, чем на «-енд»),

дикобраз (дикообраз – «дикий образ»?),

дилер (диллер – как киллер, но dealer в англ. языке – с одной «l»),

директриса (пишут директрисса – как поэтесса или стюардесса),

довлеть (‘преобладать, господствовать, тяготеть’, но пишут давлеть под влиянием давить и употребляют приблизительно в том же значении),

импресарио (от итал. impresario; неправильное написание импрессарио – по аналогии со словом импрессионизм?),

инжиниринг (англ. engineering; но «старое» заимствование инженер от фр. ingenieur через «е», поэтому встречается написание инжениринг),

интеллигент (интеллегент – под влиянием слова интеллект?),

интроверт (лат. intro – внутрь, vertere – обращать [1], но вспоминают слово экстраверт, вместо «экс-» подставляют «ин-», и получается неправильное интраверт; однако, с другой стороны, имеются слова интрамолекулярный, интразональный: они происходят от латинского intra – внутри [1]),

комиссариат (коммисариат или коммиссариат с удвоенной «м» по аналогии со словом коммунизм?),

кондоминиум (от лат. con ‘с, вместе’ и dominium ‘владение’ [1]; искаженное кондоминимум – «кондовый минимум»?),

констатировать (от «лат. constat известно» [1]), но иногда пишут и произносят константировать (производят от слова константа?),

конъюнктура (произносят и пишут без «н»: конъюктура, может быть, по аналогии со словом конъектура),

коридор (пишут с двумя «р» по аналогии со словом коррида?),

корригировать (лат. corrigere, но иногда пишут коррегировать под влиянием слова коррекция),

кристальный (нормативно с одной «л», хотя в слове кристалл удвоенная «л»; правда, в «Толковом словаре» Д. Н. Ушакова (1935 г.) два варианта: кристалл и кристал),

меблировка (мебелировка – образуют непосредственно от мебель),

междоусобица (пишут неправильное междуусобица, так понятнее!),

млекопитающее (‘питающее молоком’, но иногда добавляют «-ся»: говорят и пишут млекопитающееся – по аналогии с пресмыкающееся),

нянчиться (няньчиться – из-за написания с «ь» слова нянька?),

оперетка, антенка (ошибочное образование уменьшительной формы с сохранением удвоенной согласной: опереттка, антеннка; обратный случай – пишут програмка вместо программка),

перистальтика, перспектива, пертурбации (перестальтика, переспектива, перетурбации – предполагается приставка «пере-»?),

перфекционизм (перфектционизм – вставляют лишнее «т», образуя это слово от перфект; в словарях ОРФО 2002 оно вообще отсутствует),

печёнка (от печень, но собачонка пишется через букву «о»; написание таких слов может влиять друг на друга),

пирожное (пироженое по аналогии со словом мороженое; может встретиться написание с двойной ошибкой пироженное),

подшофе (пишут раздельно под шофе или даже под шафе по аналогии со словосочетанием под мухой?),

поскользнуться (произносят и пишут подскользнуться, приставка «под-» кажется здесь более «подходящей»),

предполагать (предпологать по аналогии с предположить),

пресмыкающееся (пресмыкающее по аналогии с млекопитающее),

пфенниг (пфеннинг или пфенинг: слов на «-ниг» в словаре Зализняка [4] с обратным алфавитным порядком – последнее слово несовершеннолетняя – больше нет, а на «-нинг» достаточно много),

радионуклиды (часто говорят и пишут радионуклеиды, но в словарях [1, 2, 10] (радио)нуклиды, несмотря на происхождение от «лат. nucleus ядро» [1]),

расчётливый, расчёт (пишут рассчет – под влиянием написания глагола рассчитать),

ровесник (пишут ровестник – по аналогии со словом вестник?),

светопреставление (светопредставление, преставление – не очень употребительное слово),

сгущённый (часто ошибочно пишут «сгущёное молоко» – как «тушёное мясо»),

серебряный (серебреный или серебренный: иногда на письме происходит смешивание с прилагательным серебрёный или с причастием серебрённый – от глагола серебрить),

сногсшибательный (говорят и пишут сногосшибательный – кажется, что в сложных словах обязательно должна быть соединительная гласная, да и сочетание согласных «гсш» труднопроизносимо),

спецкор (от корреспондент; иногда пишут отсутствующее в словарях [2, 10] спецкорр),

стела (стелла – под влиянием слова стеллаж или имени Стелла?),

трансцендентный (произносят и пишут без «н» трансцедентный: наверное, по аналогии со словами инцидент и прецедент),

тушёнка (от «тушёное мясо», но с удвоенной «н» «тушённое с овощами мясо»; часто пишут тушонка – по аналогии с душонка?),

участвовать (учавствовать – под влиянием глагола чувствовать?),

фальстарт (англ. false start; неправильное фальшстарт, конечно, понятнее!),

чрезвычайный (пишут и произносят черезвычайный, так как полногласная приставка «через-» звучит более привычно),

электрификация, газификация (хочется иметь соединительную гласную «о»: электрофикация, газофикация),

эликсир (пишут ошибочное элексир под влиянием более привычных слов элемент, электричество и т. п.),

эскалатор (говорят и пишут экскалатор: предполагая в этом слове префикс «экс-»?),

эстрогены (экстрагены – неоднобуквенное искажение в результате «народной этимологии»),

юность, юный (произносят и пишут юнный под влиянием сокращения юннат, т. е. «юный натуралист»),

юрисконсульт (происходит от «лат. juris consultus правовед» [1]; но встречается неправильное юристконсульт или даже юрист-консульт),

яства (явства – под влиянием прилагательного явственный?).
Мы видим, что часто ошибки происходят от уподобления слова более понятным или употребительным словам. К примеру, в одной телепередаче пожилая деревенская женщина сказала, что раньше она выписывала газету «Агрументы и факты». Можно предположить, что она привыкла к словам агроном, агротехнический и т. п.
Не всегда с пониманием воспринимается превращение буквы «и» в «ы» (и даже иногда встречает сопротивление) в словах: небезызвестный, подындекс [10], подынтегральный [4, 9, 10], подытожить, предыстория и т. п. Неприятие такой метаморфозы может быть вызвано тем, что «и» остается в нормативном написании слов: межинститутский [2, 4, 9, 10], сверхизысканный [2, 4, 9, 10] (иначе получились бы нежелательные буквосочетания «жы» и «хы»), сельхозинвентарь [2, 10], а также в написании слов с заимствованными префиксами: суперигра [2, 10], дезинформация, гиперинфляция, панисламизм [2, 4, 9, 10], трансиорданский [2, 4] и т. п.
Пишущие сталкиваются с непростой проблемой употребления дефисов. Нередко пишут полоборота, поллиста, пол Москвы при нормативном написании пол-оборота, пол-листа, пол-Москвы через дефис перед гласной, буквой «л» или заглавной буквой (таковы исключения из правила о слитном написании). В текстах встречаются сочетания «ей богу» или «ей-Богу» вместо правильного ей-богу [2, 4, 10], «точь в точь» вместо точь-в-точь и т. п.
Не без труда дается применение правила написания приставок «воз-», «из-», «через-» и т. п. перед глухими согласными. В одной газете встретилось написание бесвкусица (правильно безвкусица). Компьютерщики любят заниматься словообразованием от английских терминов, при этом глагол «расконнектиться» иногда пишут в виде «разконнектиться» – через «з». Приходится каждый раз для слова с приставкой, изначально оканчивающейся на «з» (если оно не зафиксировалось в зрительной памяти), вспоминать, какие согласные считаются глухими.
следующая страница >>



Радио сближает народы, но ссорит соседей. Эмиль Кроткий в версии Весла
ещё >>