Электронное зеркало для нашего языка

Несколько лет назад на всесоюзном совещании лингвисты и специалисты по информатике обсуждали беспрецедентный проект, имеющий общенациональное значение,— создание машинного фонда русского языка, своего рода его «компьютерного образа». За то время, что прошло с момента совещания, кое-что уже и сделано, хотя, честно говоря, дело движется далеко не так быстро, как бы того хотелось. Но что же такое машинный фонд русского языка и почему он так нужен?

Есть в гуманитарных науках любопытный парадокс: факты и связи между ними становятся объектом пристального внимания исследователей, когда эти факты уже покрыты патиной времени. Сегодня мы. например, по крупицам собираем сведения о походах князя Игоря и языке пушкинской эпохи. Но в обоих случаях многим нашим предположениям так, наверное, и суждено навсегда остаться догадками. Века стерли память о многих обстоятельствах этих походов и в первую очередь — о тех, которые были очевидны и тривиальны для их участников и близких их потомков. Но как раз знания этих обстоятельств нам и не хватает, чтобы связать в единое целое то, что сейчас кажется необъяснимым. Что, например, знали русские о половцах? Что половцы знали о русских? На каком языке объяснялся Игорь с половцами, находясь в плену? Точно так же мы можем лишь строить догадки о том, как же говорили московские просвирни, у которых призывал учиться русскому языку Пушкин.

И не так-то просто разрешить отмеченный парадокс: время и впрямь стирает связи между фактами, но лишь одно оно и решает, что есть общественно значимый факт, а что, по выражению одного немецкого философа, «просто разнородное бытие».

Отбор, который производит время, чрезвычайно усложняет работу историка языка. Тексты, относящиеся к особым моментам и сторонам общественной жизни, будь это художественные произведения, исторические хроники, памятники религии или юридические документы, и писались-то особым слогом, более четко кодифицированным, противопоставленным тому, на котором обсуждалось «разнородное бытие». Даже если исключить крайние случаи, когда язык письменности вообще был особым (в большей части Восточной Европы таким языком был церковно-славянский, а в Западной — латынь), то и тогда дошедшие до нас тексты – это островки, поднимающиеся над океаном забвения. Под его поверхностью осталась большая часть того, что отражает движение языка, эксперименты говорящих, постоянное размывание одних норм и создание других. Остается заполнять пространство между этими островками догадками, да тщательно прочесывать дошедшие до нас канонические тексты в поисках того, что, с точки зрения создателей текстов, было чисто случайным: ошибки переписчиков, редкие их приписки, пояснения непонятных им самим слов и т. п.

Лишь в исключительных случаях в наши руки попадают документы, относящиеся к «разнородному бытию». И тогда приходится вносить определенные коррективы в наши представления о прошлом языка. Так было, например, с известными берестяными грамотами — частной перепиской и деловыми документами рядовых жителей средневекового Новгорода, открывшими совершенно неизвестные, даже не предполагаемые языковые пласты древнерусской культуры.

Не нужно, впрочем, думать, что истории для оценки и отбора текстов нужно очень много времени: случается, что корпус классических текстов, представляющих язык, формируется на глазах одного поколения (хотя, как можно убедиться, просматривая современные словари и школьные хрестоматии, иногда чья-то нетерпеливая рука подталкивает историю, зачисляя в образцы словесности то, чему по справедливости нужно было бы оставаться «разнородным бытием» языка).

Одна из задач машинного фонда — сохранить от забвения то, что не претендует на роль памятника культуры, но является свидетельством жизни языка, «мостиком», соединяющим островки культурно значимых текстов,— образцы деловой прозы, записи литературной и диалектной устной речи, фольклор.

В сохранении таких «мостиков», действительно, велика роль компьютера. Ведь факт, на который ссылается исследователь, должен быть общедоступен. Использовать факты, которые составляют лишь часть личного опыта языковеда (или его архива), не вполне этично: нет способа вернуться к этим фактам еще раз и рассмотреть их в более широком контексте или с какой- либо иной точки зрения, чем исследователь, который ввел эти факты в научный обиход. Доступность канонических текстов достигается их тиражируемостью. А как быть с неканоническими? Тиражировать то, что представляет интерес только для узкого клана специалистов? Использование электронной памяти как раз и снимает противоречие между общедоступностью и ценностью текста: используя ЭВМ н каналы связи, специалист может обратиться к любому месту такого текста. Уже не обязательно тиражировать текст, чтобы с ним мог работать каждый. Электронная память, как и море «неканонических» текстов, динамична: то, что из этих текстов утратило интерес, может быть выведено из активной части памяти н «сброшено» в архив. Образ языка в электронном «зеркале» способен быстро перестраиваться.

Проект призван решить и другую извечную проблему лингвистики. Получение новой информации о языке — это результат трудоемкого просмотра огромного числа текстов, состоящих из повторяющихся слов, их сочетаний, синтаксических конструкций. Просеивая этот материал, лингвист изредка находит в нем нечто «подозрительное на новизну» и выписывает соответствующую цитату из текста. Традиционной основой для составления словарей служат даже не сами канонические тексты, а именно эти картотеки выписок.

Но такая картотека не только громоздка и дорога – по оценкам, приведенным на совещании, для описания хотя бы 300— 400 тысяч слов (что также далеко не исчерпывает словарного запаса языка) понадобилась бы картотека из ста миллионов цитат, — она лишь частично отражает материал, содержащийся в текстах, а по отношению к словарю представляет всего лишь полуфабрикат. А превращение этого полуфабриката в словарь — бесконечно медленный процесс. Когда же исходный продукт (текст) и конечный (картотека) находятся в машине, последняя берет на себя массу скучнейших клерковских операций, на долю человека остаются сложные и творческие действия — составление по подготовленным материалам словарных статей. Если же мы состыкуем процесс автоматизированной подготовки и редактирования словаря с автоматизированным полиграфическим процессом, словарное дело в стране выйдет на качественно новый уровень.

Итак, машинный фонд — еще одна вариация на тему «электронный клерк на службе культуре»? Частично так и не совсем так.

«Социальный заказ» на этот фонд впервые сформулировали один из крупнейших наших специалистов в этой области информатики академик А. П. Ершов и лингвист, член-корреспондент АН СССР Ю. Н. Караулов. Нарисовав картину близкой информатизации общества, создания инфосферы — глобальной информационной модели мира, воплощающей полноту и доступность знания, находящегося в постоянном употреблении всего человечества, А. П. Ершов задал вопрос: «Как человек будет общаться с этой инфосферой, как он будет побуждать машины к действию, как он будет черпать из этого грандиозного фонда знаний, как он будет относиться к новому жителю своего дома — компьютеру?»

Если мы хотим, чтобы инфосфера не подавляла человека, а стала естественной частью среды его обитания, то ответ на этот вопрос один: мы должны общаться с компьютером на естественном языке.

Очень скоро сегодняшние наши диалоговые системы покажутся нам довольно примитивными игрушками. Мы теперь ждем от машины не участия в обмене стереотипными вопросами и ответами, а генерации связных текстов – рассчитанных на человеческое восприятие самоотчетов, понятной для нас технической документации, комментариев к экспертным решениям и прогнозам.

Но пока жанр деловой прозы не только не доступен машинам, мы и сами крайне плохо владеем им (если кто-то в этом сомневается, пусть прочтет и постарается понять инструкцию к какому-нибудь самому банальному изделию из разряда бытовой техники!)

Что же нужно сделать в области деловой прозы? Одна задача уже обсуждалась: собрать образцы отнюдь не образцовой словесности. Есть острая необходимость хотя бы в какой-то мере упорядочить колоссальное число терминов, используемых в подобной литературе. Много более сложной, но, как это ни удивительно, более близкой к решению является проблема создания машинных грамматик и ими управляющих программ (лингвистических процессов), задача которых состоит в том, чтобы представить текст в формализованном виде. Тогда открывается возможность автоматизировать сложные операции над таким текстом: перефразировать его, извлекать из него фрагменты, содержание информацию определенного типа, систематизировать и накапливать в памяти машины отраженные в тексте элементы знания и т. п.

Мы вплотную приблизились к ситуации, когда машина сможет учить человека естественному языку. Хуже то, что она уже и сейчас его учит, хотя составители таких «обучающих» программ не ставили перед собой подобных сложных целей. Машина навязывает сидящему за дисплеем совершенно определенные формулировки запросов к ней. И как же они чудовищно косноязычны! А ведь с приходом ЭВМ в школу именно «встроенный» в операционные системы программистский жаргон и станет для наших детей первейшим образцом изящной словесности. Остается процитировать в заключение только полные тревоги слова академика А. П. Ершова: «Очень хотелось бы видеть, что создание машинного фонда русского языка квалифицированными лингвистами опережало бы создание производственных лингвистических систем, потому что это не только бы позволило избежать дублирования больших усилий, но и защитило бы здоровую ткань русского языка от самоуправства и неквалифицированного подхода».