Прикладные сферы языкознания издавна отличались широким разнообразием. Наиболее древние из них — письмо (графика), методика обучения родному и неродному языкам, лексикография. В дальнейшем появились перевод, дешифровка, орфография, транслитерация, разработка терминологии. Одно из традиционных направлений прикладной лингвистики — участие в языковой политике государства. Языковая политика включает в себя:
1) разработку алфавита, принципов орфографии, ликвидацию неграмотности;
2) выбор и установление государственного языка;
3) определение положения других языков по отношению к языку государственному;
4) разработку, унификацию и стандартизацию национальной терминологии;
5) вопросы именования и переименования (городов, улиц, площадей).
Одновременно с развитием и совершенствованием классических прикладных областей языкознания во второй половине XX в. наметился и определился ряд новых направлений прикладной лингвистики. Эти направления представляют собой логическое продолжение исторического развития прикладной лингвистики на новом этапе, обусловленном современной научно-технической революцией, характеризующейся укреплением взаимосвязи общественных, естественных и технических наук.
В целом прикладные аспекты лингвистического обеспечения разнообразных сфер человеческой деятельности сводятся прежде всего к одной общей проблеме — проблеме обработки информации, функционирующей в обществе. Это и текстовая информация в её письменном виде, и устная речь как наиболее привычный способ коммуникации. Особая роль языкознания в решении практических проблем и потребностей общества определяется самой сущностью естественного человеческого языка, являющегося уникальным средством хранения и передачи информации.
Актуальные практические проблемы и потребности общества — это внедрение в производство станков и приборов, управляемых голосом оператора, систем автоматизированного поиска и обработки информации на разных языках, совершенствование организации связи (телефонной, радиосвязи и др.), использование фонетических данных при лечении нарушений речи и слуха.
Названные проблемы включают в себя ряд новых направлений прикладной лингвистики, связанных с автоматической обработкой текста (речи), с широким использованием ЭВМ, таких, как лингвистическое обеспечение информационных систем разных типов; машинный перевод; компьютеризация обучения; разработка систем, понимающих естественный язык (лингвистические задачи в системах искусственного интеллекта); разработка систем использования информации, содержащейся в звуковом речевом сигнале.
В связи с разработкой лингвистического обеспечения информационных систем разных типов в последние годы особую актуальность приобрела проблема унификации и стандартизации терминологии. Это связано с резко возросшим количеством научных и технических терминов, обслуживающих различные сферы знания. Естественно, что при этом не остается в стороне и лексикография, для которой вопросы, связанные со стандартизацией терминологии, являются в высшей степени животрепещущими. Постепенно из традиционной лексикографии все определеннее выделяется специальная сфера лексикографической деятельности, связанная с широким применением ЭВМ, — автоматическая лексикография.
При решении ряда практических задач требуется эффективное взаимодействие человека с ЭВМ в процессе диалога на естественном языке. Таковы задачи разработки вопросно-ответных систем, управления роботом, обеспечения диалога в процессе принятия решений в системе управления. Основная проблема здесь состоит в том, чтобы обеспечить понимание письменного текста или звучащей речи (если используется устный ввод) автоматическими устройствами.
Решение каждой новой прикладной задачи не тривиально и не шаблонно. Число и виды прикладных лингвистических задач непредсказуемы, так как нельзя предвидеть всех коммуникативных ситуаций типа «человек — человек» и «человек — ЭВМ», в разрешении которых может понадобиться участие лингвистов; сами задачи меняются: одни уходят, приходят новые.
Основной корпус фундаментальных исследований, проводимых в недрах прикладной лингвистики, в конечном счете, составляют описание и моделирование фонетической, грамматической, семантической и статистической структуры научных, технических и организационно-распорядительных устно-речевых и письменных документов, создание словарей и семантических представлений.
В частности, построение формальных моделей текстовых данных является, по существу, уже пограничной областью между собственно теоретической лингвистикой и прикладными исследованиями. Сам тип такой модели указывает обычно и пути её алгоритмизации.
Прикладная лингвистика возникла в результате острой потребности знать, что такое язык в действии, в коммуникации, поскольку теоретическая лингвистика изучала преимущественно язык в его состоянии, в системе. При этом она долго чуждалась и сторонилась своего родства с научно-технической и деловой прозой. Не было описаний, моделей, ориентированных на собственно прикладные задачи. Наконец, в 70-х годах XX в. ученые пришли к выводу, что решение многих прикладных проблем не может быть чисто лингвистическим, а лежит на совсем иных путях, на путях моделирования поведения и мышления человека, семантики, синтеза формальных и семантических средств языка. Так появилась одна из важнейших межотраслевых фундаментальных проблем прикладной направленности- проблема моделирования знаний.
Моделирование знаний в последнее время оказалось сферой приложений самых разных наук: логики, лингвистики, математики, психологии, кибернетики. Причина такого всеобщего интереса к этой проблеме одна — создание автоматических систем искусственного интеллекта. В то же время знания нам даны в языке и через язык. Знания существуют как в текстах спонтанной речи (монолог, диалог, реплики в разных ситуациях), так и в письменных текстах (памятники древней письменности, художественная литература, научная и техническая литература). Через язык мы передаем свои знания от поколения к поколению. Язык, таким образом, выступает и. как форма хранения знаний, и как средство и способ их передачи. В науке и технике, по-видимому, вообще нет знаний вне текстов, а моделирование семантики научно-технических текстов — это моделирование системы знаний этой отрасли. Так постепенно проблема моделирования знаний сомкнулась с проблемой моделирования смысла текста. И здесь центральным является вопрос о создании семантических представлений текста.
В то же время вопрос о том, как решать ту или иную конкретную прикладную задачу в сфере технической и деловой коммуникации, определяется именно тем, насколько детально описаны тексты этих документов, их структура, грамматика, лексика, семантика, есть ли терминологический словарь, выявлена ли статистическая структура текста, построены ли семантические представления для текстов этого типа.
В свою очередь, усиление темпов эволюции прикладного языкознания уже не раз порождало ускоренное развитие и самой лингвистической теории. Так, в 20-30-х годах XX в. практические потребности унификации и стандартизации научно-технической терминологии привели к появлению новой лингвистической дисциплины — терминоведения. Грандиозная по своим масштабам практическая работа по созданию алфавитов и письменности для языков народов СССР стимулировала в 30-40-х годах совершенствование методов синхронического» описания языков.
Все новые аспекты прикладного языкознания, появившиеся за последние 20–30 лет, связаны с одной общей проблемой — автоматической обработкой языка в его письменной и устной формах. Возникновение этой проблемы привело к появлению новых методов анализа языка, новых приемов его описания, способствовало развитию новых взглядов на природу языка и на структуру языкознания в целом.
Решение сложной проблемы автоматической переработки языкового материала в 50-70-х годах XX в. во многом продвинуло и дальнейшее развитие лингвистической теории.
Новые аспекты прикладного языкознания ускорили начавшееся проникновение в теоретическое языкознание методов математики, в особенности методов теоретико-множественных, формально-логических, статистико-вероятностных.
На пересечении методов классического языкознания, классической логики, психологии, семиотики и математики выросла современная структурная лингвистика как целостная наука о методах моделирования в языкознании. В лингвистике появился и оформился новый самостоятельный теоретический раздел — теория моделей языка.
На границе между лингвистикой и математикой выросла новая дисциплина — математическая лингвистика. Возникновение и оформление её в 50-60-х годах XX в. было уже давно подготовлено всем внутренним развитием языкознания. Внимание к структуре языка, подход к языку как к системе, осознание языковой системы как сложной структуры, состоящей из микросистем, выявление разных типов отношений между лингвистическими объектами и их атрибутами — все это объективно создало те условия, в которых математическая лингвистика не могла не возникнуть.
Именно эти две дисциплины — структурная лингвистика и математическая лингвистика — оказали наибольшее влияние на развитие современного теоретического языкознания. Сильнее всего это влияние сказалось на синтаксисе и семантике.
В структурном синтаксисе были разработаны две формальные синтаксические модели — модель непосредственно составляющих и модель зависимостей. Обе модели широко применяются при автоматическом синтаксическом анализе, в машинном переводе и в других задачах автоматической обработки текста; используются также «гибридные» синтаксические представления, учитывающие достоинства той или иной модели.
Семантика пронизывает все уровни языка и тем самым не представляет собой отдельного уровня. В семантике постоянно сказывается влияние, с одной стороны, методов собственно лингвистических, а с другой — методов логической семантики, теории классификаций.
При моделировании лексической семантики в структурной лингвистике возникли теории семантического поля, компонентного анализа, тезаурусного описания лексики. В синтаксической семантике было разработано большое число концепций семантической структуры предложения.
Что касается дальнейшего развития от языков родовых к языкам племенным, от языков племенных к языкам народностей и от языков народностей к языкам национальным, то везде на всех этапах развития язык как средство общения людей в обществе был общим и единым для общества, равно обслуживающим членов общества независимо от социального положения.
Многие теоретические понятия и методы исследования и анализа, появившиеся среди гуманитарных наук впервые в структурной, математической и прикладной лингвистике, сегодня все более активно проникают в литературоведение, библиотековедение, историю, этнографию, психологию, документоведение. В различных гуманитарных науках много общего и в направленности автоматизации исследований.
Автоматизация научных исследований в гуманитарных науках должна идти прежде всего по линии создания больших банков хранения документальных и фактографических данных. Такой тип автоматизации продиктован прежде всего характером основных информационных потребностей специалистов по гуманитарным наукам.
Какого рода справки чаще всего нужны научному работнику-гуманитарию? Во-первых, это запросы библиотечно-библиографического типа: найти и выдать всю отечественную и зарубежную литературу (книги, статьи, тезисы конференций, хроникальные заметки) по отдельному вопросу. Например, археологу нужна литература о височных украшениях определенного вида, этнографу — о типах хозяйственных построек в Северной Европе, лингвисту — о сочетаемости морфем.
Во-вторых, в археологии, истории, этнографии антропологии, источниковедении, языкознании в ходе исследования чаще всего бывает нужно произвести подбор как опубликованных, так и неопубликованных источников, содержащих материалы того или иного типа. Работа эта, как правило, крайне трудоемка. Археологу нужно, например, собрать все конкретные описания предметов текстильной керамики, этнографу — отыскать все источники, содержащие описание орудий рыболовства в Восточной Европе, филологу — все жития из разных описаний рукописей и все книги, содержащие публикацию таких памятников; все текстовые источники, отражающие, например, конфессионально-повествовательный тип украинских текстов XVI в, историку — все работы о торговле русских монастырей в XVI–XVII вв. Подбор источников в фундаментальных гуманитарных исследованиях не знает ни хронологических, ни географических, ни языковых границ. Более того, нередко крайне ценная, собственно фактографическая информация содержится именно в старых источниках. Ср, например, путешествия русских академиков XVIII в. Гмелина, Палласа, Озерецковского, Георги, Лепехина, бесценные статистические отчеты по губерниям России, издававшиеся в XIX-начале XX в, или писцовые, приходо-расходные, таможенные книги XVI–XVII вв., списки населенных мест Российской империи.
В-третьих, перед исследователем-гуманитарием стоит задача отбора из источников «своих» фактов из моря другого материала. Так, например, археологу из огромного количества изделий из керамики, собранных в XIX–XX вв., нужно отобрать только объекты «своего» рассмотрения, например, керамику именно с отпечатками ткани, этнографу — сведения о деревянной посуде, филологу-слова с суффиксом -ость или глаголы прошедшего времени. В археологии, этнографии, антропологии, частично в лингвистике множество данных, конкретных фактов, полученных в поле, в экспедициях, хранится обычно в не-опубликованном виде — в архивах, фондах музеев, институтов, вузов, в ручных описаниях и картотеках. Неопубликованные материалы такого рода, разбросанные к тому же по разным краям и городам, — бесценный источник любого научного исследования в области историко-филологических наук в целом. Определить тип, характер и генезис того или иного явления в гуманитарных науках можно только на широком сравнительно-историческом и типологическом фоне.
Особое значение приобретают очерченные выше проблемы в междисциплинарных, комплексных исследованиях. Так, например, современная историческая география оперирует одновременно фактами из физической и экономической географии, археологии, истории, этнографии, демографии. Специалисту по теории этногенеза и этнической истории нужны сведения из археологии, антропологии, языкознания, источниковедения, палеозоологии, палеоботаники, музыковедения, фольклористики. Решение вопросов этнической истории и исторической географии Восточной Европы требует обращения не только к фактам археологии, к ареалу и генезису отдельных культур, но и к сочинениям Иордана, Геродота, Прокопия Кесарийского, Тацита, к сопоставлению древних текстов, анализу старых карт, к данным языкознания (топонимики). А как известно, именно на стыке разных наук и появляются наиболее интересные решения и гипотезы.
Наконец, перед исследователем в области гуманитарных наук стоит задача систематизации собранного материала. При этом для большинства гуманитарных исследований, как правило, бывает нужна классификация данных по разным параметрам. Например, в археологии: типы погребений могут быть охарактеризованы по их структуре, по хронологии, по ареалу; аналогично в этнографии: виды построек — по материалу, планировке, назначению, по ареалу; в языкознании: словоформы — по внутренней структуре, по их отношению к системе языка, по их реализации в речи, в текстах разных жанров, по носителям языка, по хронологии, по ареалу, по школам письменности. Все это предполагает неоднократную переклассификацию одного и того же материала по разным параметрам.
Все сказанное предопределяет и специфические первичные формы представления фактов в гуманитарных науках. В любой из них большое значение имеет создание капитальных сводов, картотек, каталогов, реестров и индексов фактов, словарей, содержащих описание данных и их детальную характеристику. Создание таких сводов во многом представляет собой самостоятельную подлинно исследовательскую задачу. Таковы описания и каталоги архивных музейных собраний, картотеки словоформ в лингвистике, описания рукописей библиотек, перечни названий племен и народов, фамилий, географических названий, прикнижные словари и предметные указатели (см, например, индексы в многотомном издании «Русская историческая библиотека» и др.).
Создание таких сводов, картотек, словарей отнюдь не механическое дело, как это иногда представляется со стороны, ибо каждый объект снабжается описанием всех его содержательных параметров, релевантных для специалистов. При этом сами описания строятся на разных принципах — по алфавиту, тематически, хронологически, по ареалу. Проблема типов вторичных описаний — особая область исследований. Для всех гуманитарных наук, в отличие от отраслей научно-технических, характерно нестарение самих фактов, данных. Вещи, найденные в раскопках XIX в, описания быта русских крестьян конца XVIII в, записи речи, сделанные в середине XIX в, имеют такую же, а порой и большую, ценность, как и материалы, обнаруженные, полученные в наши дни. Более того, для истории, этнографии, языкознания трудно переоценить, например, значение материалов XV–XVII вв., так как в этих данных зафиксировано состояние, которое сегодня уже исчезло.
Разработка многих гуманитарных проблем, в особенности языкознания, этнографии, антропологии, истории, связана с привлечением карт как источников. Вот почему проблема ввода в ЭВМ и вывода данных карт представляется чрезвычайно актуальной не только для географии, геологии или биологии, но и для гуманитарных исследований. Более того, именно обработка картографических данных и построение новых карт представляет собой один из наиболее трудоемких этапов такой работы.
Наконец, этап собственно исследовательского анализа материала в гуманитарных науках также, как правило, невозможен без постоянного обращения к литературе прошлого, к мнениям отечественных и зарубежных ученых, по крайней мере с середины XVIII в.
Автоматизация научно-исследовательских работ в гуманитарных науках должна оптимизировать:
а) поиск литературы предмета на разных языках;
б) подбор источников, фондов материалов;
в) оперирование данными источников;
г) многоаспектную, глубоко эшелонированную классификацию материала;
д) создание сводных описаний, реестров, каталогов по заранее заданным параметрам;
е) применение методов статистики, картографии, теория классификации и системного анализа;
ж) графическое представление данных в виде схем, рисунков, карт.
Таким образом, в процессе автоматизации научных работ система должна выдавать специалисту максимально полные на данном историческом уровне энциклопедические знания и библиографические сведения об объекте.
Ядром современного прикладного языкознания является структурная и математическая лингвистика во всем многообразии их методов и достижений.
Основной предмет структурной и математической лингвистики — разработка и совершенствование структурных и формальных методов анализа и описания языка. В наши дни многие, хотя и не все, приемы и достижения структурной лингвистики стали уже достоянием общего языкознания.
В целом, во всей своей совокупности целей, направлений, методов и подходов, прикладная лингвистика — это прежде всего комплексная дисциплина, постоянно соприкасающаяся с философией, психологией, физиологией, математикой, логикой, социологией, информатикой.
Прилагаемый ниже список основных терминов (понятий) математической и прикладной лингвистики дает определенное представление о предмете, направлениях, методах этой наук» сегодня.
Алгоритм — последовательность действий, выполнение которых необходимо для достижения конкретной цели.
База данных — совокупность данных, представленных в формализованном виде, удобном для автоматической передачи, интерпретации или обработки.
База знаний — база данных, элементами которых являются формализованные представления знаний об элементах внеязыковой действительности.
Байт — в вычислительной технике- обрабатываемый как единое целое элемент данных, представляющий собой последовательность двоичных разрядов (обычно-8). Используется и как единица измерения памяти. 1 килобайт= 1024 байта. 1 мегабайт=1024 килобайта. При обработке и хранении текстов обычно одному байту соответствует один символ текста.
Грамматика зависимостей — формальное представление строя предложения в виде иерархии компонентов, между которыми установлено отношение зависимости.
Грамматика непосредственно составляющих — формальное представление строя предложения в виде иерархии вложенных друг в друга линейно непересекающихся элементов, максимально независимых друг от друга.
Грамматика представлений — система правил, основанная на учете возможных окружений каждого слова.
Граф — математический объект, состоящий из множества вершин (точек) и множества ребер (связей), соединяющих пары вершин.
Дерево предложения, дерево зависимостей — представление структуры предложения в виде ориентированного графа, узлы которого соответствуют компонентам структуры зависимостей.
Интерфейс — средства и способы обмена информации. Обычно имеют в виду человеко-машинный интерфейс, т. е. средства и способы организации диалога человека и ЭВМ, хотя можно говорить и об интерфейсе между отдельными блоками вычислительной машины, программами, частями программ и т.д. Одной из лингвистических задач искусственного интеллекта является создание естественно-языкового интерфейса, т. е. организация диалога человека с ЭВМ на естественном языке.
Квазиреферат — реферат, составленный компьютером.
Конфигурационный анализ — анализ входного текста путем сравнения с набором предварительно выделенных синтаксических конструкций (конфигураций, формул) переводимого языка. При совпадении установленной конфигурации входного текста с одной из конфигураций набора текстовая конфигурация считается распознанной, «свертывается» и в дальнейшем анализе фигурирует в свернутом виде. При синтезе полученная из анализа конфигурация сравнивается с соответствующей ей конфигурацией переводящего языка. Соответствие конфигураций устанавливается предварительно.
Лингвистический процессор — набор процедур для обработки текстов на естественном языке, которые являются входной информацией автоматизированных систем.
Накопитель — устройство в ЭВМ, предназначенное для считывания и записи информации на внешних носителях. Например, накопитель на магнитных дисках (дисковод), накопитель на магнитных лентах (лентопротяжное устройство) и т.п.
Оконный интерфейс — один из современных способов организации интерфейса (см.). При этом способе на экране дисплея выделяется прямоугольная область (окно), в которую человек вводит и/или ЭВМ выводит информацию. При необходимости организации диалога на различные темы может быть организовано несколько окон (многооконный интерфейс).
Предсказуемостный анализ — процедура, основанная на просмотре текста слева направо, при этом для каждого очередного слова проверяется, является ли оно по тем или иным параметрам предсказанным предыдущими.
Псевдограф — ориентированный граф, имеющий и петли, и дуги.
Семантическое представление данных — формальная запись смысловой интерпретации информации, которая использует какую-либо модель семантического описания.
Словарь-конкорданс — специальный словарь текстовых словоформ с указанием всех контекстов для каждой словоформы.
Тезаурус — идеографический словарь, в котором показаны семантические отношения между его единицами. Структурной основой тезауруса является иерархическая система понятий конкретной предметной области.
Файл — совокупность связанных записей в памяти ЭВМ, рассматриваемая как единое целое.
Фрейм — способ описания структуры текста или ситуации, состоящий в перечислении возможных компонентов и типов связей между ними.
Язык представления данных — формальный способ структурирования записи информации, в основе которого лежит какая-либо формализованная (математическая) модель описания.
Литература: