История и опыт использования машинного перевода. Основные этапы развития машинного перевода



Материал подготовил А. А. Тараскин


Осуществление перевода компьютером – сложная, но интересная научная задача. Основная ее сложность состоит в том, что естественные языки плохо поддаются формализации. Отсюда и невысокое качество получаемого с помощью систем МП текста, содержание и форма которого служит неизменным объектом шуток. Однако идея машинного перевода уходит корнями далеко в прошлое. Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж, разработавший в 1836-1848 гг. проект цифровой аналитической машины. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить.

А через 100 лет, в 1947 году, У. Уивер (директор отделения естественных наук Рокфеллеровского фонда) написал письмо Норберту Винеру. В этом письме он предлагал использовать технику дешифрования для перевода текстов. Этот год считается годом рождения машинного перевода. В этом же году был разработан алгоритм осуществления пословного перевода, а в 1948 году Р. Риченс предложил правило разбиения слова на основу и окончание. В последующие два десятилетия системы машинного перевода бурно развивались. В январе 1954 года на машине IBM – 701 была продемонстрирована первая система машинного перевода IBM Mark II. Но в 1967 году специально созданная Комиссия Национальной Академии Наук США признала машинный перевод нерентабельным, что существенно затормозило исследования в этой области. Новый подъем машинный перевод переживает в 70-е годы, а в 80-е становится экономически выгодным за счет сравнительной дешевизны машинного времени.

Однако в СССР исследования в области машинного перевода продолжались. После демонстрации системы IBM Mark II группа ученых ВИНИТИ начала разработку системы машинного перевода для машины БЭСМ. Первый образец перевода с английского на русский язык был получен к концу 1955 года.

Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела". Благодаря работе над созданием систем МП оформилось такое направление, как прикладная лингвистика.

В 70-е годы над созданием систем МП трудилась группа разработчиков ВИНИТИ РАН под руководством проф. Г.Г. Белоногова. Первая их система МП была разработана в 1993 году, а в 1996 году после ряда доработок была зарегистрирована в РОСАПО под названием Retrans. Эта система использовалась министерствами обороны, путей сообщения, науки и технологии.

Параллельные исследования велись в лаборатории Инженерной Лингвистики ЛГПИ им. А. И. Герцена (ныне Педагогический Университет). Именно они и легли в основу наиболее популярной сейчас системы МП “PROMT”. Последние версии этого программного продукта используют наукоемкие технологии и построены на основе технологии расширенных сетей переходов и формализма нейронных сетей.

Классификация систем машинного перевода по Лари Чайлду

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод

Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека.

Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера

При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM). Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Системы машинного перевода (МП)

В соответствии с указанной выше классификацией, целью данной работы является исследование и анализ систем МП второй группы, поскольку систем МП первой группы еще не существует в природе, а системы третьей группы в сущности не являются системами МП, а более напоминают электронные словари.

Системы МП осуществляют автоматизированный перевод текста. Единицами перевода при этом служат слова или словосочетания, причем последние разработки позволяют учитывать морфологию переводимого слова. Развитые системы МП осуществляют перевод по заданным разработчиком и/или корректируемым пользователем алгоритмам перевода.

Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

В настоящее время существует две концепции развития систем МП:

1. Модель «большого словаря со сложной структурой», которая заложена в большинство современных программ-переводчиков;

2. Модель «смысл-текст», впервые сформулированная А.А. Ляпуновым, но пока что не реализована ни в одном коммерческом продукте.

На сегодняшний день наиболее известны такие системы машинного перевода, как

PROMT 2000/XT компании PROMT;

Retrans Vista компаний Vista и Advantis;

Сократ – набор программ компании Арсеналъ.

В настоящее время качество машинного перевода оставляет желать много лучшего, и само наличие таких систем пока правильнее воспринимать как предмет научных исследований. В большинстве случаев при работе над проектом применение систем МП не оправдано, поскольку:

Системы МП не дают приемлемого качества выходного текста. Более высокого качества можно добиться с помощью предварительной настройки системы (продукты серии PROMT XT предоставляют пользователю множество возможностей для этого), что совершенно неприемлемо при небольших объемах переводимого текста, и/или путем последующего редактирования, а это только замедляет работу, если переводчик использует слепой метод печати.

Системы МП не гарантируют соблюдения единства терминологии, особенно при работе коллектива переводчиков над большим проектом. Вернее, могут гарантировать при условии очень внимательного обращения с пользовательскими словарями, а на это не всегда стоит рассчитывать.

Однако в некоторых случаях использование систем МП все же помогает сократить временные затраты. Это происходит, если текст достаточно объемный и содержит однообразную терминологию, что позволяет сравнительно быстро настроить под него систему МП. Тогда редактирование текста не займет слишком много времени. Однако в этом случае следует особенно внимательно отнестись к стилю текста перевода. Машинный перевод формален, поэтому высока вероятность калькирования синтаксических структур языка оригинала, которое характерно для перевода вообще, а потому вполне может быть пропущено при редактировании.

Вообще говоря, системы МП вполне могут применяться там, где используется максимально стандартизованный язык с простой грамматикой и сравнительно небольшим запасом слов. Довольно успешным проектом системы МП считается немецкая программа Meteo, выполняющая перевод метеопрогнозов с французского языка на английский и обратно. Для облегчения работы переводчиков и технических писателей компанией Boeing в свое время был разработан стандарт языка для написания технической документации, который известен как Boeing English.

Система МП Retrans Vista

Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит, прежде всего, от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. К сожалению, эти законы пока еще недостаточно изучены. Решая проблему машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. А этот опыт свидетельствует о том, что в процессе перевода в качестве основных единиц смысла рассматриваются, прежде всего, фразеологические словосочетания, выражающие целостные понятия, а не отдельные слова. Именно понятия являются теми элементарными мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.

Условимся называть системы машинного перевода, в которых в качестве основных минимальных единиц смысла рассматриваются не отдельные слова, а фразеологические словосочетания, системами фразеологического машинного перевода. В этих системах отдельные слова также могут использоваться, но они рассматриваются как вспомогательные единицы смысла, к которым приходится прибегать за неимением лучших.

Система фразеологического машинного перевода должна включать в свой состав базу знаний, содержащую переводные эквиваленты для наиболее часто встречающихся фраз, фразеологических сочетаний и отдельных слов, и программные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком. В процессе перевода текстов система использует хранящиеся в ее базе знаний переводные эквиваленты в следующем порядке: сначала делается попытка перевести всю фразу как целостную единицу; далее, в случае неудачи, входящие в ее состав словосочетания; и, наконец, осуществляется пословный перевод тех фрагментов текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полученные всеми тремя способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).

Принципы построения систем фразеологического машинного перевода текстов были впервые сформулированы в 1975 году в предисловии к книге Д. Жукова "Мы переводчики". В более полном виде они были изложены в 1983 году в книге Г. Г. Белоногова и Б. А. Кузнецова "Языковые средства автоматизированных информационных систем". Наконец, в 1993 году были опубликованы две статьи, в которых были описаны система машинного перевода, построенная на этих принципах, и методы автоматизированного составления двуязычных словарей по параллельным (русских и английским) текстам. Важнейшими среди этих принципов являются следующие:

1. Основными единицами языка и речи, которые, прежде всего, следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы.

2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода следует использовать и так называемые "речевые модели" - фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи.

3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей - тем более. Он должен создаваться, прежде всего, на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.

4. Наряду с основным политематическим словарем большого объема, в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей).

На основе описанных принципов в ВИНИТИ РАН (см. выше) были построены две системы фразеологического машинного перевода:

1) система русско-английского перевода (RETRANS)

2) система англо-русского перевода (ERTRANS).

Обе системы имеют одинаковую структуру и примерно одинаковые объемы машинных словарей. Поэтому мы рассмотрим только первую систему.

Система RETRANS имеет следующие характеристики:

1. Область применения, назначение, функциональные возможности. Система предназначена для автоматизированного перевода научно-технических текстов с русского языка на английский. Русско-английский политематический машинный словарь системы содержит терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. В частности, он содержит термины и фразеологические единицы по следующим тематическим областям: Машиностроение, Электротехника, Энергетика, Транспорт, Аэронавтика. Космонавтика, Робототехника, Автоматика и Радиоэлектроника, Вычислительная Техника, Связь, Математика, Физика, Химия, Биология, Медицина, Экология, Сельское Хозяйство, Строительство и Архитектура, Астрономия, География, Геология, Геофизика, Горное Дело, Металлургия и др.

Перевод текстов может осуществляться в автоматическом и в диалоговом режимах.

2. Объем политематического машинного словаря: более 1.300.000 словарных статей; 77 процентов из них составляют словосочетания длиной от двух до семнадцати слов. Объем дополнительных машинных словарей (для настройки системы на различные тематические области) - более 200.000 словарных статей.

Система МП PROMT XT

В основу программных продуктов компании PROMT поставлено решение следующих фундаментальных проблем:

Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания больших словарей для систем.

Во-вторых, ясно, что система должна переводить такие предложения: ПРИВЕТ, КАК ДЕЛА? Значит, еще одна проблема - научить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно являются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову "программа"? И, вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста? Очевидно, более верно второе. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

Практически во всех системах, которые претендуют на то, чтобы считаться системами перевода, проблема представления морфологических моделей так или иначе решается. Но одни системы могут распознать миллион словоформ при объеме словаря в пятьдесят тысяч словарных статей, а другие при объеме словаря в сто тысяч словарных статей могут распознать именно эти сто тысяч.

В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для всех языков, с которыми системы умеют обращаться. Оно содержит 800 типов словоизменений для русского языка, более 300 типов, как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя - создателя словаря. Эта система фактически автоматизирует процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей.

Такой возможности нет ни в одной из существующих систем машинного перевода, даже в таких распространенных системах как Power Translator (Globalink, США), Language Assistant (MicroTac, США), TRANSEND (Intergaph,США), где пользователям приходится вручную спрягать и склонять слова для задания морфологической модели.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, как это требуется в спеллерах или электронных словарях, она необходима для выполнения программой собственно процедур перевода. Какая же нужна информация в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?

Во многих системах МП в прошлом (как, впрочем, и сейчас) словарное описание и описание алгоритмов рассматривались как стороны одной проблемы, но решение, как правило, искалось в ограничении рассматриваемого мира, либо грамматического, либо семантического. Например, на основе признака "принадлежность к части речи" описывалась грамматика такого типа:

именная группа - это существительное

именная группа - это прилагательное + именная группа

глагольная группа - это глагол + именная группа

предложение - это именная группа + глагольная группа

Понятно, что некоторая часть предложений естественного языка описывается такой грамматикой, но эта часть очень незначительна, и на ее основе нельзя правильно анализировать и переводить хоть сколько-нибудь реальный текст. Но зато можно использовать эффективные методы построения преобразователя по заданной грамматике или, на худой конец, написать программу, которая путем перебора построит древа зависимостей для ограниченного множества предложений. Такие системы точно так же получали определения "экспериментальные".

Так или иначе, но именно из таких проектов появились системы перевода, которые сейчас предлагаются конечному пользователю. Это и Power Translator (компания Globalink) и Language Assistant (компания MicroTac) и TRANSEND (компания Intergraph).

Системы семейств STYLUS и PROMT - не исключение, поскольку многие специалисты компании PROMT имели опыт работы в такого типа проектах. Однако при разработке систем PROMT впервые был применен фактически революционный подход, который и позволил получить впечатляющие результаты. Системы перевода семейства PROMT - это системы, спроектированные на основе не лингвистических, а кибернетических методов.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получение результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамматики, с которой работает система.

Вместо принятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с "объектно-ориентированной" организацией, основанной на иерархии обрабатываемых компонентов предложения. Это позволило сделать системы PROMT устойчивыми и открытыми.

Кроме того, такой подход дал возможность применения различных формализмов для описания перевода разных уровней. В системах работают и сетевые грамматики, близкие по типу к расширенным сетям переходов, и процедурные алгоритмы заполнения и трансформаций фреймовых структур для анализа сложных предикатов.

Описание лексической единицы в словарной статье, которое фактически не ограничено по размерам и может содержать множество различных признаков, тесно взаимосвязано со структурой алгоритмов системы и структурировано не на основе извечной антитезы синтаксис - семантика, а на основе уровней компонентов текста.

При этом системы могут работать и с не полностью описанными словарными статьями, что является важным моментом при открытии словарей для пользователя, от которого нельзя требовать тонкого обращения с лингвистическим материалом.

Первая система машинного перевода, выпущенная компанией PROMT в 1991 году, переводила с английского языка на русский специализированные тексты по программному обеспечению. Она использовала небольшой словарь - около 17 тыс. слов и выражений, работала в среде ДОС и не имела средств настройки для пользователя. Но уже эта первая система была правильно устроена, и нынешняя технология разработки алгоритмов машинного перевода, применяемая в компании PROMT, не претерпела значительных изменений. Напротив, найденный тогда подход оказался очень плодотворным для самых разных языков.

Сначала поясним некоторые определения: вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем, и стало принято делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае - разработать сам метаязык и описать естественный язык в соответствующих терминах.

Несмотря на то, что эта классификация существует, и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится система PROMT, не было разработано еще не одной реальной системы, основанной на принципе INTERLINGUA.

Система PROMT не является исключением, и на этот вопрос мы отвечаем: наша система выполняет перевод типа TRANSFER. Но это очень простой ответ, он практически не отражает особенностей архитектуры системы PROMT. А особенности состоят в том, что этот метод (TRANSFER) применен в системе не в соответствии с лингвистическим стандартным подходом.

Дело в том, что система перевода, как правило, работает в условиях не полностью описанных данных, ведь в язык - это живая система, которая развивается очень быстро: постоянно появляются новые слова, новые функции старых слов, и, вместе с новыми сущностями, новые значения. В этих условиях определяющим структурным свойством алгоритмов перевода становится их устойчивость к произвольным входным данным, и в основу алгоритмов, выполняющих перевод в системе PROMT, вместо последовательного TRANSFER"а был заложен иерархический подход, разделяющий процесс перевода на взаимосвязанные TRANSFER"ы для разных единиц анализа.

В системе выделяется уровень лексических единиц, уровень групп, уровень простых предложений и уровень сложных предложений. Все эти процессы связаны и взаимодействуют иерархически в соответствии с иерархией текстовых единиц, обмениваясь синтезируемыми и наследуемыми признаками. Такое устройство алгоритмов позволяет использовать разные формальные методы для описания алгоритмов разных уровней.

Рассмотрим уровень лексических единиц: лексическая единица - это слово или словосочетание, которое является единицей самого низкого уровня. И в случае входного, и в случае выходного языка слово описывается как совокупность основы и окончания. Это обеспечивает возможность, с одной стороны, распознавания входных слов и анализа входной морфологии и, с другой стороны, удобного синтеза выходных слов по их морфологической информации (основа, тип словоизменения и адрес окончания в массиве окончаний этого типа). Таким образом, если ввести правила преобразования входной морфологической информации в выходную морфологическую информацию, осуществляется TRANSFER на морфологическом уровне.

Уровень групп рассматривает структуры более сложные: группы существительных, прилагательных, наречий и сложные глагольные формы. Этот уровень при анализе, основываясь на формальных сетевых грамматиках, умеет соединять группы в синтаксические единицы, каждая из которых характеризуется синтезированной структурной информацией и главным элементом группы. По входной структуре, полученной в терминах непосредственных составляющих, вместе с синтезированными признаками формируется выходная группа как набор лексических единиц со значениями морфологических признаков, которые могут наследоваться исходя из результатов анализа группы. Таким образом, реализуется TRANSFER на уровне групп.

Анализ простых предложений как структур, состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов. Таким образом, осуществляется TRANSFER на уровне предложений. Анализ сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.

Докладчики: Ирина Рыбникова и Анастасия Пономарёва.

Мы расскажем про историю машинного перевода и про то, как мы используем его в Яндексе.

Еще в XVII веке ученые размышляли о существовании какого-то языка, который связывает между собой другие языки, и наверное, это слишком давно. Давайте поближе вернемся. Все мы хотим понимать людей вокруг - неважно, куда мы приехали, - мы хотим видеть, что написано на вывесках, мы хотим читать объявления, информацию о концертах. Идея вавилонской рыбки бороздит умы ученых, встречается в литературе, кинематографе - везде. Мы хотим сократить то время, за которое мы получаем доступ к информации. Мы хотим читать статьи о китайских технологиях, понимать любые сайты, которые мы видим, и хотим это получать здесь и сейчас.

В разрезе этого невозможно не говорить про машинный перевод. Это то, что помогает решать указанную задачу.

Отправной точкой считается 1954 год, когда в США на машине IBM 701 было переведено 60 предложений по общей тематике органической химии с русского на английский, и в основе всего этого лежало 250 терминов глоссария и шесть грамматических правил. Это называлось Джорджтаунским экспериментом, и это настолько потрясло реальность, что газеты пестрили заголовками, что еще три-пять лет, и проблема будет полностью решена, все будут счастливы. Но как вы знаете, все пошло немного по-другому.

В 70-е годы появился машинный перевод на основе правил. В его основе тоже лежали двуязычные словари, но и те самые наборы правил, которые помогали описывать любой язык. Любой, но с ограничениями.

Требовались серьезные эксперты-лингвисты, которые прописывали правила. Это достаточно сложная работа, она все равно не могла учесть контекст, полностью покрыть какой бы то ни было язык, но они были экспертам, и высокие вычислительные мощности тогда не требовались.

Если говорить про качество, классический пример - цитата из Библии, которая переводилась тогда так. Пока недостаточно. Поэтому люди продолжали дальше работать над качеством. В 90-е годы возникла статистическая модель перевода, SMT, которая говорила о вероятностном распределении слов, предложений, и эта система принципиально отличалась тем, что она вообще ничего не знала про правила и про лингвистику. Она получала на вход огромное количество идентичных текстов, парных на одном языке и другом, и дальше сама принимала решения. Это было легко поддерживать, не нужны были кучи экспертов, не требовалось ждать. Можно было загружать и получать результат.

Требования к входящим данным были достаточно средние, от 1 до 10 млн сегментов. Сегменты - предложения, небольшие фразы. Но оставались свои трудности и не учитывался контекст, все было не очень легко. И в России, например, появились такие случаи.

Мне еще нравится пример переводов игр GTA, великолепный был результат. Все не стояло на месте. Достаточно важным майлстоуном был 2016 год, когда запустился нейронный машинный перевод. Это было достаточно эпохальное событие, которое сильно перевернуло жизнь. Моя коллега, посмотрев переводы и то, как мы их используем, сказала: «Круто, он говорит моими словами». И это было реально здорово.

Какие особенности? Высокие требования на входе, обучающий материал. Внутри компании это сложно поддерживать, но существенный рост качества - это то, ради чего это затевалось. Только качественный перевод позволит решить поставленные задачи и облегчит жизнь всем участникам процесса, тем же переводчикам, которые не хотят исправлять плохой перевод, они хотят делать новые творческие задачи, а рутинные шаблонные фразы давать машине.

В рамках машинного перевода есть два подхода. Экспертная оценка / лингвистический анализ текстов, то есть проверка реальными лингвистами, экспертами на соответствие смыслу, грамотности языка. В некоторых случаях еще сажали экспертов, давали вычитать переведенный текст и оценивали, насколько это эффективно с этой точки зрения.

Какие особенности этого метода? Не требуется образец перевода, мы смотрим на готовый переведенный текст сейчас и оцениваем объективно по любому разрезу. Но это дорого и долго.

Есть второй подход - автоматические референсные метрики. Их много, у каждой есть плюсы и минусы. Не буду углубляться, про эти ключевые слова потом можно почитать детальнее.

Какая особенность? По факту это сравнение переведенных машинных текстов с каким-то образцовым переводом. Это количественные метрики, которые показывают расхождение между образцовым переводом и тем, что получилось. Это быстро, дешево и можно сделать достаточно удобно. Но есть особенности.

По факту чаще всего сейчас используют гибридные методы. Это когда изначально оценивается что-то автоматически, потом анализируется матрица ошибок, потом на более мелком корпусе текстов проводится экспертный лингвистический анализ.

Последнее время еще распространена практика, когда мы туда не лингвистов зовем, а просто пользователей. Делается интерфейс - покажите, какой вам перевод больше нравится. Или когда вы ходите в онлайн-переводчики, вы вводите текст, и можете часто проголосовать, что вам больше нравится, подходит этот подход или нет. По сути, все мы сейчас обучаем эти движки, и все, что мы им даем на перевод, они используют для обучения и работают над своим качеством.

Хотелось бы рассказать, как мы в работе используем машинный перевод. Передаю слово Анастасии.

Мы в Яндексе в отделе локализации поняли достаточно быстро, что возможности у технологии машинного перевода большие, и решили попробовать использовать его в наших ежедневных задачах. С чего мы начали? Мы решили провести небольшой эксперимент. Мы решили перевести одни и те же тексты через обычный нейросетевой переводчик, а также собрать обученный машинный переводчик. Для этого мы подготовили корпуса текстов в паре русский-английский за те годы, что мы в Яндексе занимались локализацией текстов на эти языки. Далее мы пришли с этим корпусом текстов к нашим коллегам из Яндекс.Переводчика и попросили обучить движок.

Когда движок был обучен, мы перевели очередную порцию текстов, и как сказала Ирина, с помощью экспертов оценили полученные результаты. Переводчиков мы просили посмотреть на грамотность, стиль, правописание, передачу смысла. Но самый поворотный момент был, когда один из переводчиков сказал, что «я узнаю свой стиль, узнаю свои переводы».

Чтобы подкрепить эти ощущения, мы решили посчитать уже статистические показатели. Сначала мы посчитали коэффициент BLEU для переводов, сделанных через обычный нейросетевой движок, и получили такую цифру (0,34). Казалось бы, ее надо с чем-то сравнить. Мы снова пошли к коллегам из Яндекс.Переводчика и попросили объяснить, какой коэффициент BLEU считается пороговым для переводов, сделанных реальным человеком. Это от 0,6.

Потом мы решили проверить, какие результаты на обученных переводах. Получили 0,5. Результаты действительно обнадеживающие.

Привожу пример. Это реальная русская фраза из документации Директа. Потом она была переведена через обычный нейросетевой движок, а потом через обученный нейросетевой движок на наших текстах. Уже в первой же строчке мы замечаем, что традиционный для Директа, вид рекламы, не распознан. А уже в обученном нейросетевом движке появляется наш перевод, и даже аббревиатура практически верная.

Мы были очень воодушевлены полученными результатами, и решили, что наверное, стоит использовать машинный движок в других парах, на других текстах, не только на том базовом наборе технической документации. Дальше проводили несколько месяцев ряд экспериментов. Столкнулись с большим количеством особенностей и проблем, это самые частые проблемы, что нам приходилось решать.

Про каждую расскажу подробнее.

Если вы так же, как и мы, соберетесь сделать кастомизированный движок, вам понадобится достаточно большое количество качественных параллельных данных. Большой движок можно обучить на количестве от 10 тыс. предложений, в нашем случае мы подготовили 135 тыс. параллельных предложений.

Не на всех типах текста ваш движок покажет одинаково хорошие результаты. В технической документации, где есть длинные предложения, структура, пользовательская документация и даже в интерфейсе, где есть короткие, но однозначные кнопки, скорее всего, у вас все будет хорошо. Но возможно, как и у нас, вы столкнетесь с проблемами в маркетинге.

Мы проводили эксперимент, переводя плейлисты музыки, и получили такой пример.

Вот что думает машинный переводчик про звездных фабриканток. Что это ударники труда.

При переводе через машинный движок контекст не учитывается. Тут уже не такой смешной пример, а вполне реальный, из технической документации Директа. Казалось бы, тех - понятно, когда ты читаешь техническую документацию, тех - это техническое. Но нет, машинный движок не попал.

Еще придется учитывать, что качество и смысл перевода будет сильно зависеть от языка-оригинала. Переводим фразу на французский с русского, получаем один результат. Получаем похожую фразу с таким же смыслом, но с английского, и получаем другой результат.

Если у вас, как и в нашем тексте, большое количество тегов, разметки, каких-то технических особенностей, скорее всего вам придется их отслеживать, править и писать какие-то скрипты.

Вот примеры реальной фразы из браузера. В круглых скобках техническая информация, которая не должна переводиться, в частности множественные формы. В английском они на английском, и в немецком тоже должны остаться на английском, но они переведены. Вам придется отслеживать эти моменты.

Машинный движок ничего не знает про ваши особенности именования. Например, у нас есть договоренность, что Яндекс.Диск мы везде называем на латинице во всех языках. Но на французском он превращается в диск на французском.

Аббревиатуры иногда распознаются корректно, иногда нет. В данном примере BY, обозначая принадлежность к белорусским техническим требованиям по размещению рекламы, превращается в предлог в английском.

Один из моих любимых примеров - новые и заимствованные слова. Тут классный пример, слово дисклеймер, «исконно русский». Терминологию придется выверять для каждой части текста.

И еще одна, уже не такая значительная проблема - устаревшее написание.

Раньше интернет был новинкой, во всех текстах писался с большой буквы, и когда мы обучали наш движок, везде интернет был с большой буквы. Сейчас новая эра, интернет уже пишем с маленькой буквы. Если вы хотите, чтобы ваш движок продолжал писать интернет с маленькой буквы, вам придется его переобучать.

Мы не отчаивались, решали эти проблемы. Во-первых, меняли корпусы текстов, пробовали на других тематиках переводить. Мы передавали наши замечания коллегам из Яндекс.Переводчика, повторно обучали нейросеть и смотрели на результаты, оценивали, и просили доработать. Например, распознавание тегов, обработку HTML разметки.

Я покажу реальные варианты использования. У нас хорошо идет машинный перевод для технической документации. Это реальный кейс.

Вот фраза на английском и на русском. Переводчик, который занимался этой документацией, был очень воодушевлен адекватным выбором терминологии. Еще пример.

Переводчик оценил выбор is вместо тире, что тут поменялась структура фразы на английскую, адекватный выбор термина, которая является верным, и слово you, которого нет в оригинале, но он делает этот перевод именно английским, естественным.

Еще один кейс - переводы интерфейсов на лету. Один из сервисов решил не заморачиваться с локализацией и переводить тексты прямо во время загрузки. Но после изменения движка примерно раз в месяц слово «доставка» менялось по кругу. Мы предложили команде подключить не обычный нейросетевой движок, а наш, обученный на технической документации, чтобы использовался всегда один и тот же термин, согласованный с командой, который уже есть в документации.

Как это все действует на денежный момент? Исконно так сложилось, что в паре русский-украинский требуется минимальная редактура украинского перевода. Поэтому мы пару месяцев назад решили перейти на систему постэдитинга. Вот как растет наша экономия. Сентябрь еще не закончился, но мы прикинули, что мы сократили наши затраты на постэдитинг приблизительно на треть на украинском, и дальше собираемся редактировать практически все, кроме маркетинговых текстов. Слово Ирине для подведения итогов.

Ирина:
- Для всех становится очевидным, что пользоваться этим надо, это уже является нашей реальностью, и исключать это из своих процессов и интересов нельзя. Но нужно подумать о нескольких вещах.

Определитесь с тем типов документов, контекста, с которым вы работаете. Подходит ли эта технология конкретно для вас?

Второй момент. Мы разговаривали про Яндекс.Переводчик, потому что мы в хороших отношениях, у нас прямой доступ к разработчикам и так далее, но по факту вам нужно определиться - какой из движков будет наиболее оптимальным для вас конкретно, для вашего языка, вашей тематики. Этой теме будет посвящен следующий доклад . Будьте готовы, что пока еще есть трудности, разработчики движков все вместе работают над решением трудностей, но пока они еще встречаются.

Хотелось бы понять, что нас ждет в дальнейшем. Но по факту, это уже не дальнейшее, а наше нынешнее время, то, что происходит здесь и сейчас. Нам всем скорее нужна кастомизация под нашу терминологию, под наши тексты, и это то, что сейчас становится публичным. Теперь все работают над тем, чтобы вы не ходили внутрь компании, не договаривались с разработчиками конкретного движка, как бы это оптимизировать под вас. Вы сможете это получать в публичных открытых движках по API.

Кастомизация идет не только по текстам, но и по терминологии, по настройке терминологии под ваши собственные нужны. Это достаточно важный момент. Вторая тема - интерактивный перевод. Когда переводчик переводит текст, технология позволяет ему предсказывать следующие слова с учетом исходного языка, исходного текста. Это оже существенно может облегчать работу.

О том, что сейчас действительно дорого. Все думают, как меньшими объемами текста обучить какие-то движки гораздо более эффективно. Это то, что происходит везде и запускается повсеместно. Думаю, тема очень интересная, а дальше будет еще интереснее.

За последние десятилетия компьютер, подключённый к интернету, стал самым главным инструментом переводчика. Ведь благодаря ему обеспечивается доступ к огромным объёмам информации, а также к электронным словарям и переводчикам. Машинный перевод сегодня стал повседневностью.

Термином «машинный перевод» (МП, он же Machine Translation или MT) называют действие, когда один естественный язык переводится на другой с использованием для этого специального программного обеспечения. Программа при этом может быть установлена непосредственно на компьютере (или ) или быть доступной только при подключении к интернету.

Немного истории

Идея задействовать для перевода вычислительное устройство появилась ещё в 1947 году. Но реализация подобного в те годы была просто невозможна, поскольку вычислительная техника находилась в зачаточном состоянии. Однако уже в 1954 году была предпринята первая попытка машинного перевода. Самый первый словарь включал в себя только 250 слов, а грамматика исчерпывалась 6-ю правилами. Тем не менее, этого оказалось достаточно, чтобы убедиться в большом будущем машинного перевода. Работы в данном направлении начались во многих странах, стали появляться первые системы машинного перевода (СМП), создаваться специальные теории.

В начале развитию машинного перевода мешал низкий уровень вычислительной техники, её очень высокая стоимость. Однако постепенное проникновение в нашу жизнь сначала персональных компьютеров, а затем и интернета, привело к стремительному развитию этой отрасли. Сегодня машинный перевод активно используется в самых разных сферах человеческой деятельности.

Кому это нужно

Развитию машинного перевода способствовало расширение международных отношений. Люди стали чаще ездить в другие страны, выход бизнеса за рубеж перестал быть чем-то исключительным, даже по меркам небольших компаний. А раз так, то всё чаще возникают трудности в общении. Как следствие, машинный перевод сегодня всё чаще используется в бизнесе. Пусть даже результат переводов, предоставляемых компьютером, далёк от идеального, это всё же лучше, чем вообще ничего.

При помощи СМП появляется возможность очень быстро понять содержимое больших объёмов текстов, что просто невозможно при традиционном подходе. Это может быть очень полезно, например, при необходимости классификации большого количества информации на иностранном языке. Или для проведения лингвистического анализа.

Также МП стал обычным явлением при общении в интернете, когда очень важна высокая скорость перевода, понимания того, что сказал вам собеседник. Впрочем, о передаче литературных образов в таком случае можно смело забыть, если вы хотите, чтобы вас правильно понимали. Только «сухие» фразы, без каких-либо двусмысленностей.

Участие человека

Несмотря на создание различных подходов и решение вопросов с вычислительными мощностями, качество машинного перевода всё ещё далеко от идеального. Пусть даже успехи в этом деле и можно назвать впечатляющими, но только по сравнению с самыми первыми системами.

Современные СМП уже научились более-менее достойно переводить технические тексты, которые, как известно, не содержат в себе тех литературных вольностей, так часто встречающихся в текстах художественных. На качество перевода сильное влияние оказывает родственность языков. Например, при переводе с на результат будет куда более достойным, чем с на . Во втором случае полученный текст может оказаться просто нечитабельной бессмыслицей.

По этой причине машинный перевод пока не может обходиться без участия человека. Который либо изначально адаптирует текст, устраняя все возможные двусмысленности (предредактирование), либо редактирует уже готовый перевод, убирая из него почти неизбежные ошибки (постредактирование). Существует также и понятие интерредактирования, когда человек непосредственно вмешивается в работу системы, исправляя возникающие неточности «на лету».

Какие бывают СМП

На сегодняшний день работы в сфере МП разделились на два основных направления:

  • Статистический машинный перевод (Statistical Machine Translation, SMT) ;
  • Машинный перевод, основанный на правилах (Rule-based Machine Translation, RBMT) .

В первом случае перед нами самообучающиеся системы. Перевод становится возможным в результате постоянного анализа огромного количества текстов одинакового содержания, но на разных языках. Система находит и использует всегда существующие закономерности. Качество перевода в случае использования SMT считается достаточно высоким. Но только в том случае, если система уже успела проанализировать огромное количество информации. А для этого необходимо обладать не только самими тестами, но и внушительными вычислительными мощностями. Это означает, что работать в данном направлении могут только крупные компании. Примеры таких систем: Google Translator , Яндекс.Переводчик , а также Bing Translator от Microsoft.

В случае с RBMT-системами все правила создаются людьми, которые затем занимаются их непрестанным «обкатыванием». Соответственно качество результата зависит от того, насколько полно лингвисты сумеют описать естественный язык, с которым они работают. Именно необходимость постоянной поддержки созданной лингвистической базы данных в актуальном состоянии и является главным недостатком RBMT-систем. Зато для создания переводчика, способного обеспечить удовлетворительный результат, не требуются внушительные вычислительные мощности, что позволяет работать в данном направлении небольшим компаниям. В качестве примеров можно привести такие системы, как Multillect , Linguatec и PROMT .

Можно также выделить ещё и третий вариант: гибридный машинный перевод (Hybrid Machine Translation, HMT) . Этот метод объединяет в себе оба подхода, SMT и RBMT. В теории такой подход позволяет получить преимущества обеих технологий. Именно его использует компания Systran , основанная в 1968 году и считающаяся старейшим коммерческим предприятием, работающим в сфере МП.

В настоящее время различают три вида систем машинного перевода:

Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

Статистические системы (Statistical Machine Translation, SMT);

Гибридные системы;

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем - связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы - системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой - при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

1.3 Классификация систем машинного перевода

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод. Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека. Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM).Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM,основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

  • Новожилова Анна Алексеевна

Ключевые слова

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / ЭЛЕКТРОННЫЕ СЛОВАРИ / АВТОМАТИЗАЦИЯ ПЕРЕВОДА / МАШИННЫЙ ПЕРЕВОД / КАЧЕСТВО ПЕРЕВОДА

Аннотация научной статьи по языкознанию, автор научной работы - Новожилова Анна Алексеевна

В статье подробно рассматриваются две системы машинного перевода «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе , и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов , выполненных с помощью компьютерных программ, является их постредактирование.

Похожие темы научных работ по языкознанию, автор научной работы - Новожилова Анна Алексеевна,

  • Постредактирование машинного перевода как актуальное направление подготовки переводчиков в вузах

    2018 / Нечаева Наталья Викторовна, Светова Светлана Юрьевна
  • Языковая личность переводчика и машинный перевод

    2011 / Бабина Ольга Ивановна
  • 2009 / Коротких Г. И., Коротких Гал И.
  • Google-переводчик: практика и перспективы применения в юридическом вузе

    2018 / Мартыненко Ирина Анатольевна
  • Формирование основ переводческой компетенции при взаимодействии студентов в компьютерной обучающей среде

    2016 / Абдуллахитов Рустам Шахраниевич, Дашкина Александра Игоревна

The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Текст научной работы на тему «Машинные системы перевода: качество и возможности использования»

DOI: http://dx.doi.org/10.15688/jvolsu2.2014.3.8

УДК 81"322.4 ББК 81.184

МАШИННЫЕ СИСТЕМЫ ПЕРЕВОДА: КАЧЕСТВО И ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ

Новожилова Анна Алексеевна

Кандидат филологических наук, доцент кафедры теории и практики перевода Волгоградского государственного университета [email protected], [email protected]

просп. Университетский, 100, 400062 г Волгоград, Российская Федерация

Аннотация. В статье подробно рассматриваются две системы машинного перевода - «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе, и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов, выполненных с помощью компьютерных программ, является их постредактирование.

Ключевые слова: информационные технологии, электронные словари, автоматизация перевода, машинный перевод, качество перевода.

^ Научно-технический прогресс влечет за собой возрастание потоков информации, кото-« рой обмениваются носители разных языков, что

1 способствует расширению межъязыковых гра-о ниц и увеличению объема текстов, требующих щ перевода. «В настоящее время перевод выпол-© няет главную функцию в процессе межкультур-

ной коммуникации, позволяя человечеству преодолевать трудности в аккумулировании полезной и необходимой информации» . Современные переводчики уже не могут использовать в своей работе лишь словари. В пере-водоведении все больше внимания уделяется анализу электронных средств, позволяющих

ускорить и оптимизировать процесс перевода. Отечественные и зарубежные ученые-лингвисты, практики и теоретики-переводоведы, в особенности специалисты в области переводческого терминоведения и машинного перевода, отмечая возрастающую значимость информационных технологий в лингвистике в целом и в переводе в частности, разрабатывают различные стратегии и методы их наиболее эффективного применения в профессиональной деятельности .

Процессы глобализации и общедоступность интернета обусловили интенсивное развитие и совершенствование систем информационного обеспечения коммуникативной деятельности . По мнению В.Н. Шевчука, начало нового тысячелетия совпало с наступлением эры информационной революции и в практической деятельности профессиональных переводчиков и филологов за последние 20 лет произошли гигантские изменения . Многие ученые считают, что появление компьютеров и интернета стало серьезным шагом вперед в области практического перево-доведения, позволило значительно повысить качество перевода, особенно при переводе текстов с родного языка на иностранный, а переводчикам работать стало проще и быстрее . А.Н. Усачева утверждает, что благодаря интернету «переводчик приобрел уникальную возможность выхода в мировую информационную сеть, ему стали доступны данные отовсюду. Изменения, которые это внесло в профессию переводчика, настолько колоссальны, что все последствия этого сейчас вряд ли возможно оценить» .

Сегодня в распоряжении переводчика находятся разнообразные электронные инструменты, ускоряющие и облегчающие переводческий процесс. Наиболее известными из них являются электронные переводные словари («Lingvo», «Мультитран», «Мультилекс», «Babylon», «Polyglossum» и др.), системы класса Translation Memory («TRADOS», «Déjà vu», «Wordfast» и др.), программы автоматического редактирования текстов, программы распознавания устной речи, электронные библиотеки, терминологические базы данных, а также сама глобальная сеть Интернет как хранилище информационных ресурсов. Все эти инструменты являются лишь вспомогательными в

деятельности профессионального переводчика, хотя ученые еще с середины прошлого столетия работают над созданием систем, которые автоматически выполняли бы безупречные переводы с одного языка на другой. Первая система машинного перевода - IBM Mark II, разработанная компанией IBM совместно с Джорджтаунским университетом, была представлена в 1954 г. в Нью-Йорке. С тех пор исследования и разработки в сфере машинного перевода не прекращаются, а специалисты в области перевода на протяжении многих лет ведут споры о целесообразности применения программ автоматического перевода. В среде профессиональных переводчиков высказывается много аргументов за их использование и против него, но как противники, так и сторонники машинного перевода остаются единодушны в том, что у этих программ есть одно неоспоримое преимущество - значительная экономия времени, затрачиваемого на перевод больших объемов текста. На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов. Это входит в задачи лингвистов-переводоведов, а разработчики автоматизированных программ перевода стараются исправлять ошибки в системе, развивать и совершенствовать свои продукты, опираясь на получаемые результаты и теоретические обоснования специалистов в области переводоведения.

К основным факторам, затрудняющим машинный перевод, исследователи относят:

Языковую неоднозначность, которая может быть как лексического, так и грамматического характера;

Наличие сложных синтаксических структур, которые могут значительно различаться в языке оригинала и в языке перевода;

Различия в порядке слов в предложении (прямой / обратный, строгий / свободный);

Наличие анафорических связей в тексте;

Наличие идиом, смысл которых невозможно передавать посредством пословного перевода;

Наличие неологизмов;

Существование культурных различий у языковых сообществ и т. д. .

Среди наиболее известных автоматических переводчиков можно выделить системы машинного перевода «ПРОМТ» и «Google Translate». Автоматический переводчик «ПРОМТ» работает по принципу «перевода по правилам». Технология этого перевода состоит в применении алгоритмов, в соответствии с которыми программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода. Считается, что работа такого машинного переводчика похожа на процесс мышления человека . Работа системы машинного перевода «Google Translate» осуществляется по принципиально иной технологии, основанной на статистическом вычислении вероятности совпадений. Этой системой используется множество баз параллельных текстов, в которых попарно хранятся словосочетания и их переводы. В процессе перевода осуществляется статистический анализ: система подбирает эквивалент для перевода, основываясь на частоте употреблений, и в итоге подставляет вариант, имеющий наиболее высокий процент совпадений. Следует отметить, что «Google Translate» изначально разрабатывался для перевода с английского языка и на него, и до сих пор английский является языком-посредником при работе с другими парами языков. Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом - на необходимый язык перевода, что во многом влияет на качество перевода.

Сопоставим примеры переводов, выполненные системами «ПРОМТ» и «Google Translate» с английского языка на русский. При переводе фрагмента текста технического характера - инструкции по эксплуатации электронного устройства (игровой приставки) - были получены следующие результаты:

Оригинал:

Keep food and beverages away from product. Do not spill liquid of any kind on this product as it may render it inoperative. Clean with a slightly damp cloth (cold water). Do not use soap, detergent or other chemicals. Never submerge the unit in water.

«ПРОМТ» (режим - общая тематика, без подключения специализированных словарей):

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может отдать его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте единицу в воду.

«Google Translate» (основной предлагаемый вариант):

Держите еду и напитки от продукта. Не допускайте попадания какой-либо жидкости об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Следует отметить, что обе системы правильно распознали формы повелительного наклонения, используемые в тексте оригинала. Переводчик «Google Translate» верно определил частеречную принадлежность всех языковых единиц. Это составляет его преимущество по сравнению с «ПРОМТ», который выбрал для перевода лексемы clean прилагательное чистый, а не глагол очистить. Эта проблема связана с широко распространенным в английском языке явлением грамматической омонимии. «ПРОМТ», выполняя перевод по грамматическим правилам, неверно дешифровал исходную синтаксическую конструкцию и допустил ошибку, поскольку в программе не был учтен тот факт, что английский язык относится к аналитическому типу языков с достаточно строгим порядком слов и обязательным наличием сказуемого в предложении: именно оно при переводе не было распознано. «Google Translate» определил наличие глагола в этом предложении и его грамматическую форму (императив), но не распознал его видового значения, поскольку категория вида в английском языке не является облигаторной для каждой формы глагола. В данном предложении профессиональный переводчик обязательно использовал бы глагол несовершенного вида, чтобы подчеркнуть неоднократность предписываемого действия.

Приведенные переводы показывают, что обе системы не всегда хорошо справляются с выбором управления глаголов и часто работа-

ют на уровне словосочетаний, стоящих в непосредственной близости друг от друга (попадания какой-либо жидкости об этом продукте; не проливайте жидкость никакого вида на этом продукте и др.). При этом осуществлен и корректный выбор управления, например: Никогда не погружайте единицу в воду / Никогда не погружайте прибор в воду; Не используйте мыло, моющее средство или другие химикаты / Не используйте мыло, моющие средства или другие химические вещества.

Различия обнаруживаются и при переводе наречий. Так, «ПРОМТ» перевел наречие away с помощью наречия отдельно, а «Google Translate» опустил это наречие, ограничившись переводом предлога from. Однако применение функции просмотра и выбора доступных вариантов перевода позволяет увидеть, что в «Google Translate» единицы away и from рассматриваются как связанная пара и предлагаются более точные варианты перевода -вдали от, далеко от.

В системе «ПРОМТ» есть функция выбора специальной терминологической области. При переводе данного отрывка с подключением тематической области «техника: гад-жеты» был получен следующий текст:

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может представить его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте модуль в воду.

Подключение специализированной тематической области обусловило замену лексемы единица лексемой модуль, что в данном контексте можно рассматривать как более удачный вариант. При переводе английского глагола render был использован глагол представить, а не глагол отдать. Однако оба варианта нельзя считать корректными, поскольку в данном случае глагол render следовало бы перевести посредством словосочетания приводить в состояние (это может привести его в неисправное состояние).

Если воспользоваться в системе «Google Translate» предлагаемыми для отдельных словосочетаний вариантами перевода, то можно «собрать» следующий текст:

Храните еду и напитки вдали от продукта. Избегайте попадания каких-либо жидкостей об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Приведенный перевод свидетельствует о том, что пользователю чаще всего предлагаются варианты, которые практически не различаются ни лексически, ни грамматически. Однако если сравнить оригинал и перевод второго предложения, то видно, что система произвела грамматическую и лексическую трансформации, заменив императив глагола spill в отрицательной конструкции (Do not spill liquid of any kind- дословно: не проливайте жидкостей какого-либо рода) на конструкцию «глагол + существительное» (не допускайте / избегайте попадания), но правильного управления для существительного (попадание куда-л.) распознать не смогла. При переводе второй части этого предложения не было дано корректного варианта и для многозначного союза as («так как, поскольку»), использующегося для выражения причинно-следственных отношений.

Результаты анализа представлены в приведенной ниже таблице.

Сравнение машинных переводчиков «ПРОМТ» и «Google Translate»

Языковой параметр сопоставления Система машинного перевода

«ПРОМТ» «Google Translate»

Наклонение + +

Часть речи + +/-

Управление +/- +/-

Лексика +/- +/-

Из таблицы видно, что обе системы хорошо распознают наклонение; «ПРОМТ» допускает меньше ошибок с определением ча-стеречной принадлежности лексических единиц; обе системы не всегда справляются с выбором верного управления, подбором правильного лексического эквивалента и нормами употребления глагольного вида в русском языке. Однако, несмотря на наличие ошибок и неточностей, допущенных программами, можно сделать вывод о том, что общий смысл переведенного фрагмента понятен, и после

внесения корректуры в переводы, выполненные каждой из систем, можно получить текст, который будет вполне соответствовать нормам русского языка.

Приведем в качестве еще одного примера переводы текста другого жанра - энциклопедической статьи.

Оригинал (фрагмент):

Article 5 of the North Atlantic treaty, requiring member states to come to the aid of any member state subject to an armed attack, was invoked for the first and only time after the 11 September 2001 attacks, after which troops were deployed to Afghanistan under the NATO-led ISAF. The organization has operated a range of additional roles since then, including sending trainers to Iraq, assisting in counter-piracy operations and in 2011 enforcing a no-fly zone over Libya in accordance with U.N. Security Council Resolution 1973.

Статья 5 Североатлантического соглашения, требуя, чтобы государства-члены пришли на помощь любому государству-члену, подвергающемуся вооруженному нападению, была призвана в течение первого и единственного времени, после 11 сентября 2001 нападает, после которого войска были развернуты в Афганистан под ВЕДОМЫМ НАТО ISAF. Организация управляла диапазоном дополнительных ролей с тех пор, включая отправку тренеров в Ирак, помощь в операциях противопиратства и в 2011 проводя в жизнь бесполетную зону по Ливии в соответствии с Резолюцией 1973 Совета безопасности ООН.

«Google Translate»:

Статья 5 Североатлантического договора, требующего государства-члены пришли на помощь любой стране-члене условии вооруженного нападения, был вызван в первый и единственный раз после 11 сентября 2001 года, после чего войска были развернуты в Афганистане под под руководством НАТО ISAF. Организация осуществляет свою деятельность ряд дополнительных ролей с тех пор, включая отправку инструкторов в Ирак, помощь в борьбе с пиратством и в 2011 году приведения бесполетной зоны над Ливией в соответствии с Резолюцией 1973 Совета Безопасности ООН.

Исходный фрагмент текста состоит из двух повествовательных предложений, первое из которых является сложноподчиненным и содержит большое количество конструкций,

построенных на основе подчинительных связей между их компонентами. Второе является простым распространенным предложением с однородными членами, герундием и сложными синтаксическими конструкциями. Переводы позволяют увидеть, что обе системы не распознают сложных синтаксических связей, неверно определяют сказуемое, объектные, атрибутивные и другие отношения в предложении. Выполненные переводы представляют собой, скорее, произвольный набор слов и словосочетаний, не объединенных смысловыми связями. Их, в отличие от предыдущего примера, невозможно отредактировать, не обращаясь к оригиналу.

Представленный анализ позволяет сделать вывод о том, что машинные переводчики «Google Translate» и «ПРОМТ» непригодны для переводов текстов, изобилующих сложносочиненными и сложноподчиненными предложениями, распространенными определениями, метафорическими сравнениями, сложными синтаксическими конструкциями и т. п. Перевод таких текстов может выполнить лишь человек, поскольку только он способен к осуществлению глубинных когнитивных речемыслитель-ных процессов. Однако машинные системы можно использовать для перевода с английского на русский язык текстов, которые достаточно формализованы в речевом плане (техническая документация, потребительские инструкции, контракты и т. п.). Однако и в этом случае выполненные машиной переводы требуют обязательного редактирования и доработки «вручную». Профессиональные переводчики, от которых социум, как правило, ожидает переводы высокого качества, могут прибегать к помощи «ПРОМТ» и «Google Translate» при переводе текстов, ограниченных в сфере функционирования, поскольку названные компьютерные системы часто предлагают вполне адекватные, не требующие редактирования, варианты переводов для отдельных предложений или небольших фрагментов текста либо варианты, требующие минимальной корректуры, которая занимает у опытного переводчика незначительное время. Таким образом, системы «ПРОМТ» и «Google Translate» при правильном использовании способствуют ускорению процесса перевода и оптимизации труда практикующих переводчиков.

СПИСОК ЛИТЕРА ТУРЫ

1. Андреев, А. Машинный перевод: правила против статистики / А. Андреев. - Электрон. текстовые дан. - Режим доступа: http://www.computerra.ru/ cio/old/offline/2007/63/329838/. - Загл. с экрана.

2. Зубов, А. В. Информационные технологии в лингвистике / А. В. Зубов, И. И. Зубова. - М. : Академия, 2004. - 208 с.

3. Королев, Э. И. Промышленные системы машинного перевода / Э. И. Королев. - М. : Всесо-юз. центр переводов, 1991. - 104 с.

4. Марчук, Ю. Н. Компьютерная лингвистика / Ю. Н. Марчук. - М. : АСТ: Восток-Запад, 2007. -320 с.

5. Новожилова, А. А. Обучение студентов-переводчиков работе с электронными ресурсами как основа их будущей конкурентоспособности и успешности / А. А. Новожилова, Е. А. Шовгенина // Вестник Волгоградского государственного университета. Серия 6, Университетское образование. -2013. - №> 14. - С. 70-76.

6. Соловьева, А. В. Профессиональный перевод с помощью компьютера / А. В. Соловьева. -СПб. : Питер, 2008. - 160 с.

7. Тиссен, Ю. В. Интернет в работе переводчика / Ю. В. Тиссен // Мир перевода. - 2000. - .№ 2. -С. 45-62.

8. Усачева, А. Н. Инновационные технологии в профессиональном переводе / А. Н. Усачева // Коммуникативные аспекты современной лингвистики и лингводидактики: материалы Междунар. науч. конф., г. Волгоград, 29 янв. 2008 г. - Волгоград: Волгогр. науч. изд-во, 2008. -С. 81-87.

9. Усачева, А. Н. Перевод: от лингвистической теории к когнитивной модели / А. Н. Усачева // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2011. - J№ 1 (13). -С. 131-137.

10. Шевчук, В. Н. Информационные технологии в переводе. Электронные ресурсы переводчика - 2 / В. Н. Шевчук. - М. : Зебра Е, 2013. -384 с.

11. Шевчук, В. Н. Электронные ресурсы переводчика / В. Н. Шевчук. - М. : Либрайт, 2010. -136 с.

12. Austermühl, F. Electronic Tools for Translators / F. Austermühl. - Manchester: St. Jerome, 2001. - 192 p.

13. Bowker, L. Computer-Aided Translation Technology: A Practical Introduction / L. Bowker. -Ottawa: Univ. of Ottawa Press, 2002. - 185 p.

14. Computers and Translation: A Translator"s Guide / H. Somers (ed.). - Amsterdam ; Philadephia: John Benjamins Publ. Company, 2003. - 349 p.

1. Andreev A. Mashinnyy perevod: pravila protiv statistiki . Available at: http://www.computerra.ru/cio/ old/offline/2007/63/329838/.

2. Zubov A.V., Zubova I.I. Informatsionnye tekhnologii v lingvistike . Moscow, Akademiya Publ., 2004. 208 p.

3. Korolev E.I. Promyshlennye sistemy mashinnogo perevoda . Moscow, Vsesoyuznyy tsentr perevodov Publ., 1991. 104 p.

4. Marchuk Yu.N. Kompyuternaya lingvistika . Moscow, AST, Vostok-Zapad Publ., 2007. 320 p.

5. Novozhilova A.A., Shovgenina E.A. Obuchenie studentov-perevodchikov rabote s elektronnymi resursami kak osnova ikh budushchey konkurentosposobnosti i uspeshnosti . Vestnik Volgogradskogo gosudarst-vennogo universiteta. Seriya 6, Universitetskoe obrazovanie , 2013, no. 14, pp. 70-76.

6. Solovyeva A.V. Professionalnyy perevod s pomoshchyu kompyutera . Saint Petersburg, Piter Publ., 2008. 160 p.

7. Tissen Yu.V. Internet v rabote perevodchika . Mir perevoda, 2000, no. 2, pp. 45-62.

8. Usacheva A.N. Innovatsionnye tekhnologii v professionalnom perevode . Kommunikativnye aspekty sovremennoy lingvistiki i lingvodidaktiki. Materialy Mezhdunarodnoy nauchnoy konferentsii. Volgograd, 29 yanvarya 2008 . Volgograd, Volgogradskoe nauchnoe izd-vo, 2008, pp. 81-87.

9. Usacheva A.N. Perevod: ot lingvisticheskoy teorii k kognitivnoy modeli .

Vestnik Volgogradskogo gosudarstvennogo universiteta. Seriya 2, Yazykoznanie , 2011, no. 1 (13), pp. 131-137.

10. Shevchuk V.N. Informatsionnye tekhnologii v perevode. Elektronnye resursy perevodchika - 2 . Moscow, Zebra E Publ., 2013. 384 p.

11. Shevchuk V.N. Elektronnye resursy perevodchika . Moscow, Librayt Publ., 2010. 136 p.

12. Austermühl F. Electronic Tools for Translators. Manchester, St. Jerome, 2001. 192 p.

13. Bowker L. Computer-Aided Translation Technology: A Practical Introduction. Ottawa, University of Ottawa Press, 2002. 185 p.

14. Somers H., ed. Computers and Translation: A Translator"s Guide. Amsterdam, Philadephia, John Benjamins Publishing Company, 2003. 349 p.

MACHINE TRANSLATION SYSTEMS: QUALITY AND POSSIBLE WAYS OF USE

Novozhilova Anna Alekseevna

Candidate of Philological Sciences,

Associate Professor, Department of Translation Theory and Practice, Volgograd State University [email protected], [email protected]

Prosp. Universitetsky, 100, 400062 Volgograd, Russian Federation

Abstract. The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Key words: information technologies, electronic dictionaries, computerized translation, machine translation, quality of translation.



Последние материалы раздела:

Теплый салат со свининой по-корейски
Теплый салат со свининой по-корейски

Салат из свинины способен заменить полноценный прием пищи, ведь в нем собраны все продукты, необходимые для нормального питания – нежная мясная...

Салат с морковкой по корейски и свининой
Салат с морковкой по корейски и свининой

Морковь, благодаря присущей сладости и сочности – один из наилучших компонентов для мясных салатов. Где морковь – там и лук, это практически...

На рождество ходят крестным ходом вокруг церкви
На рождество ходят крестным ходом вокруг церкви

Крестный ход — это давно зародившаяся традиция верующих православных людей, заключающийся в торжественном шествии во главе со священнослужителями,...