История и опыт использования машинного перевода. Возможности использования машинного перевода в работе переводчика в профессиональной сфере

Докладчики: Ирина Рыбникова и Анастасия Пономарёва.

Мы расскажем про историю машинного перевода и про то, как мы используем его в Яндексе.

Еще в XVII веке ученые размышляли о существовании какого-то языка, который связывает между собой другие языки, и наверное, это слишком давно. Давайте поближе вернемся. Все мы хотим понимать людей вокруг - неважно, куда мы приехали, - мы хотим видеть, что написано на вывесках, мы хотим читать объявления, информацию о концертах. Идея вавилонской рыбки бороздит умы ученых, встречается в литературе, кинематографе - везде. Мы хотим сократить то время, за которое мы получаем доступ к информации. Мы хотим читать статьи о китайских технологиях, понимать любые сайты, которые мы видим, и хотим это получать здесь и сейчас.

В разрезе этого невозможно не говорить про машинный перевод. Это то, что помогает решать указанную задачу.

Отправной точкой считается 1954 год, когда в США на машине IBM 701 было переведено 60 предложений по общей тематике органической химии с русского на английский, и в основе всего этого лежало 250 терминов глоссария и шесть грамматических правил. Это называлось Джорджтаунским экспериментом, и это настолько потрясло реальность, что газеты пестрили заголовками, что еще три-пять лет, и проблема будет полностью решена, все будут счастливы. Но как вы знаете, все пошло немного по-другому.

В 70-е годы появился машинный перевод на основе правил. В его основе тоже лежали двуязычные словари, но и те самые наборы правил, которые помогали описывать любой язык. Любой, но с ограничениями.

Требовались серьезные эксперты-лингвисты, которые прописывали правила. Это достаточно сложная работа, она все равно не могла учесть контекст, полностью покрыть какой бы то ни было язык, но они были экспертам, и высокие вычислительные мощности тогда не требовались.

Если говорить про качество, классический пример - цитата из Библии, которая переводилась тогда так. Пока недостаточно. Поэтому люди продолжали дальше работать над качеством. В 90-е годы возникла статистическая модель перевода, SMT, которая говорила о вероятностном распределении слов, предложений, и эта система принципиально отличалась тем, что она вообще ничего не знала про правила и про лингвистику. Она получала на вход огромное количество идентичных текстов, парных на одном языке и другом, и дальше сама принимала решения. Это было легко поддерживать, не нужны были кучи экспертов, не требовалось ждать. Можно было загружать и получать результат.

Требования к входящим данным были достаточно средние, от 1 до 10 млн сегментов. Сегменты - предложения, небольшие фразы. Но оставались свои трудности и не учитывался контекст, все было не очень легко. И в России, например, появились такие случаи.

Мне еще нравится пример переводов игр GTA, великолепный был результат. Все не стояло на месте. Достаточно важным майлстоуном был 2016 год, когда запустился нейронный машинный перевод. Это было достаточно эпохальное событие, которое сильно перевернуло жизнь. Моя коллега, посмотрев переводы и то, как мы их используем, сказала: «Круто, он говорит моими словами». И это было реально здорово.

Какие особенности? Высокие требования на входе, обучающий материал. Внутри компании это сложно поддерживать, но существенный рост качества - это то, ради чего это затевалось. Только качественный перевод позволит решить поставленные задачи и облегчит жизнь всем участникам процесса, тем же переводчикам, которые не хотят исправлять плохой перевод, они хотят делать новые творческие задачи, а рутинные шаблонные фразы давать машине.

В рамках машинного перевода есть два подхода. Экспертная оценка / лингвистический анализ текстов, то есть проверка реальными лингвистами, экспертами на соответствие смыслу, грамотности языка. В некоторых случаях еще сажали экспертов, давали вычитать переведенный текст и оценивали, насколько это эффективно с этой точки зрения.

Какие особенности этого метода? Не требуется образец перевода, мы смотрим на готовый переведенный текст сейчас и оцениваем объективно по любому разрезу. Но это дорого и долго.

Есть второй подход - автоматические референсные метрики. Их много, у каждой есть плюсы и минусы. Не буду углубляться, про эти ключевые слова потом можно почитать детальнее.

Какая особенность? По факту это сравнение переведенных машинных текстов с каким-то образцовым переводом. Это количественные метрики, которые показывают расхождение между образцовым переводом и тем, что получилось. Это быстро, дешево и можно сделать достаточно удобно. Но есть особенности.

По факту чаще всего сейчас используют гибридные методы. Это когда изначально оценивается что-то автоматически, потом анализируется матрица ошибок, потом на более мелком корпусе текстов проводится экспертный лингвистический анализ.

Последнее время еще распространена практика, когда мы туда не лингвистов зовем, а просто пользователей. Делается интерфейс - покажите, какой вам перевод больше нравится. Или когда вы ходите в онлайн-переводчики, вы вводите текст, и можете часто проголосовать, что вам больше нравится, подходит этот подход или нет. По сути, все мы сейчас обучаем эти движки, и все, что мы им даем на перевод, они используют для обучения и работают над своим качеством.

Хотелось бы рассказать, как мы в работе используем машинный перевод. Передаю слово Анастасии.

Мы в Яндексе в отделе локализации поняли достаточно быстро, что возможности у технологии машинного перевода большие, и решили попробовать использовать его в наших ежедневных задачах. С чего мы начали? Мы решили провести небольшой эксперимент. Мы решили перевести одни и те же тексты через обычный нейросетевой переводчик, а также собрать обученный машинный переводчик. Для этого мы подготовили корпуса текстов в паре русский-английский за те годы, что мы в Яндексе занимались локализацией текстов на эти языки. Далее мы пришли с этим корпусом текстов к нашим коллегам из Яндекс.Переводчика и попросили обучить движок.

Когда движок был обучен, мы перевели очередную порцию текстов, и как сказала Ирина, с помощью экспертов оценили полученные результаты. Переводчиков мы просили посмотреть на грамотность, стиль, правописание, передачу смысла. Но самый поворотный момент был, когда один из переводчиков сказал, что «я узнаю свой стиль, узнаю свои переводы».

Чтобы подкрепить эти ощущения, мы решили посчитать уже статистические показатели. Сначала мы посчитали коэффициент BLEU для переводов, сделанных через обычный нейросетевой движок, и получили такую цифру (0,34). Казалось бы, ее надо с чем-то сравнить. Мы снова пошли к коллегам из Яндекс.Переводчика и попросили объяснить, какой коэффициент BLEU считается пороговым для переводов, сделанных реальным человеком. Это от 0,6.

Потом мы решили проверить, какие результаты на обученных переводах. Получили 0,5. Результаты действительно обнадеживающие.

Привожу пример. Это реальная русская фраза из документации Директа. Потом она была переведена через обычный нейросетевой движок, а потом через обученный нейросетевой движок на наших текстах. Уже в первой же строчке мы замечаем, что традиционный для Директа, вид рекламы, не распознан. А уже в обученном нейросетевом движке появляется наш перевод, и даже аббревиатура практически верная.

Мы были очень воодушевлены полученными результатами, и решили, что наверное, стоит использовать машинный движок в других парах, на других текстах, не только на том базовом наборе технической документации. Дальше проводили несколько месяцев ряд экспериментов. Столкнулись с большим количеством особенностей и проблем, это самые частые проблемы, что нам приходилось решать.

Про каждую расскажу подробнее.

Если вы так же, как и мы, соберетесь сделать кастомизированный движок, вам понадобится достаточно большое количество качественных параллельных данных. Большой движок можно обучить на количестве от 10 тыс. предложений, в нашем случае мы подготовили 135 тыс. параллельных предложений.

Не на всех типах текста ваш движок покажет одинаково хорошие результаты. В технической документации, где есть длинные предложения, структура, пользовательская документация и даже в интерфейсе, где есть короткие, но однозначные кнопки, скорее всего, у вас все будет хорошо. Но возможно, как и у нас, вы столкнетесь с проблемами в маркетинге.

Мы проводили эксперимент, переводя плейлисты музыки, и получили такой пример.

Вот что думает машинный переводчик про звездных фабриканток. Что это ударники труда.

При переводе через машинный движок контекст не учитывается. Тут уже не такой смешной пример, а вполне реальный, из технической документации Директа. Казалось бы, тех - понятно, когда ты читаешь техническую документацию, тех - это техническое. Но нет, машинный движок не попал.

Еще придется учитывать, что качество и смысл перевода будет сильно зависеть от языка-оригинала. Переводим фразу на французский с русского, получаем один результат. Получаем похожую фразу с таким же смыслом, но с английского, и получаем другой результат.

Если у вас, как и в нашем тексте, большое количество тегов, разметки, каких-то технических особенностей, скорее всего вам придется их отслеживать, править и писать какие-то скрипты.

Вот примеры реальной фразы из браузера. В круглых скобках техническая информация, которая не должна переводиться, в частности множественные формы. В английском они на английском, и в немецком тоже должны остаться на английском, но они переведены. Вам придется отслеживать эти моменты.

Машинный движок ничего не знает про ваши особенности именования. Например, у нас есть договоренность, что Яндекс.Диск мы везде называем на латинице во всех языках. Но на французском он превращается в диск на французском.

Аббревиатуры иногда распознаются корректно, иногда нет. В данном примере BY, обозначая принадлежность к белорусским техническим требованиям по размещению рекламы, превращается в предлог в английском.

Один из моих любимых примеров - новые и заимствованные слова. Тут классный пример, слово дисклеймер, «исконно русский». Терминологию придется выверять для каждой части текста.

И еще одна, уже не такая значительная проблема - устаревшее написание.

Раньше интернет был новинкой, во всех текстах писался с большой буквы, и когда мы обучали наш движок, везде интернет был с большой буквы. Сейчас новая эра, интернет уже пишем с маленькой буквы. Если вы хотите, чтобы ваш движок продолжал писать интернет с маленькой буквы, вам придется его переобучать.

Мы не отчаивались, решали эти проблемы. Во-первых, меняли корпусы текстов, пробовали на других тематиках переводить. Мы передавали наши замечания коллегам из Яндекс.Переводчика, повторно обучали нейросеть и смотрели на результаты, оценивали, и просили доработать. Например, распознавание тегов, обработку HTML разметки.

Я покажу реальные варианты использования. У нас хорошо идет машинный перевод для технической документации. Это реальный кейс.

Вот фраза на английском и на русском. Переводчик, который занимался этой документацией, был очень воодушевлен адекватным выбором терминологии. Еще пример.

Переводчик оценил выбор is вместо тире, что тут поменялась структура фразы на английскую, адекватный выбор термина, которая является верным, и слово you, которого нет в оригинале, но он делает этот перевод именно английским, естественным.

Еще один кейс - переводы интерфейсов на лету. Один из сервисов решил не заморачиваться с локализацией и переводить тексты прямо во время загрузки. Но после изменения движка примерно раз в месяц слово «доставка» менялось по кругу. Мы предложили команде подключить не обычный нейросетевой движок, а наш, обученный на технической документации, чтобы использовался всегда один и тот же термин, согласованный с командой, который уже есть в документации.

Как это все действует на денежный момент? Исконно так сложилось, что в паре русский-украинский требуется минимальная редактура украинского перевода. Поэтому мы пару месяцев назад решили перейти на систему постэдитинга. Вот как растет наша экономия. Сентябрь еще не закончился, но мы прикинули, что мы сократили наши затраты на постэдитинг приблизительно на треть на украинском, и дальше собираемся редактировать практически все, кроме маркетинговых текстов. Слово Ирине для подведения итогов.

Ирина:
- Для всех становится очевидным, что пользоваться этим надо, это уже является нашей реальностью, и исключать это из своих процессов и интересов нельзя. Но нужно подумать о нескольких вещах.

Определитесь с тем типов документов, контекста, с которым вы работаете. Подходит ли эта технология конкретно для вас?

Второй момент. Мы разговаривали про Яндекс.Переводчик, потому что мы в хороших отношениях, у нас прямой доступ к разработчикам и так далее, но по факту вам нужно определиться - какой из движков будет наиболее оптимальным для вас конкретно, для вашего языка, вашей тематики. Этой теме будет посвящен следующий доклад . Будьте готовы, что пока еще есть трудности, разработчики движков все вместе работают над решением трудностей, но пока они еще встречаются.

Хотелось бы понять, что нас ждет в дальнейшем. Но по факту, это уже не дальнейшее, а наше нынешнее время, то, что происходит здесь и сейчас. Нам всем скорее нужна кастомизация под нашу терминологию, под наши тексты, и это то, что сейчас становится публичным. Теперь все работают над тем, чтобы вы не ходили внутрь компании, не договаривались с разработчиками конкретного движка, как бы это оптимизировать под вас. Вы сможете это получать в публичных открытых движках по API.

Кастомизация идет не только по текстам, но и по терминологии, по настройке терминологии под ваши собственные нужны. Это достаточно важный момент. Вторая тема - интерактивный перевод. Когда переводчик переводит текст, технология позволяет ему предсказывать следующие слова с учетом исходного языка, исходного текста. Это оже существенно может облегчать работу.

О том, что сейчас действительно дорого. Все думают, как меньшими объемами текста обучить какие-то движки гораздо более эффективно. Это то, что происходит везде и запускается повсеместно. Думаю, тема очень интересная, а дальше будет еще интереснее.

Московский Авиационный Институт

(государственный технический университет)

«Институт иностранных языков МАИ»

Кафедра И-01

«Теория и практика английского языка»

Реферат

«Машинный перевод»

Москва 2012 г.

Машинный перевод и для чего он необходим……………………………………………………………….………………3 Классификация систем машинного перевода………………………………………………………………………………..4 Как осуществляется машинный перевод………………………………………………………………………………………..7 История развития систем машинного перевода……………………………………………………………………………11 Современное состояние машинного перевода на основе «Яндекс.Перевод»……………………….…..18 Вывод………………………………………………………………………………………………………………….……………………………20

Список использованной литературы…………………………………..…………………………………………………….…..21

Машинный перевод и для чего он необходим

В последнее время знание иностранных языков может понадобиться не только в путешествии или на приеме гостей из-за рубежа, но и в собственном доме, например, при просмотре популярных голливудских кинолент, при чтении инструкции по использованию заморских товаров или Web-страниц. Таким образом, оказывается, даже не покидая родных стен, мы нуждаемся в услугах переводчика. Однако необходимую помощь нам вполне может оказать домашний компьютер. Системы машинного перевода (МП) давно перестали быть диковинкой. Они постепенно выходят из младенческого возраста и вместо бессвязного детского лепета начинают изъясняться на вполне понятном, "человеческом" языке. До последнего времени такие программы были не только очень дороги, уступая в цене разве что мощным графическим и издательским системам, но и весьма сложны и капризны в работе. И вот появились первые переводчики, пригодные для использования на домашнем ПК. Давайте познакомимся с ними поближе и узнаем, на что они способны.

Классификация систем машинного перевода

Полностью автоматизированный машинный перевод.

Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова – "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека.

Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека – вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов – процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера.

При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод – точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM). Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Как осуществляется машинный перевод

В ее основе лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода.

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штетко будланула бокра и кудрячит бокрёнка. Бессмысленная фраза? Как будто да: в русском языке нет слов, из которых она состоит (кроме союза и). И все же в какой-то степени мы ее понимаем: «куздра» – это существительное (мы даже можем предположить, что оно обозначает какое-то животное), «глокая» – определение к нему, «будланула» – глагол-сказуемое (похожий на толканула, боднула), «штетко» – скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» – это прямое дополнение («будланула» кого? – «бокра») и т. д.

То есть машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. Так, при переводе русской фразы «У меня была интересная книга» на английский язык глагол «быть» надо перевести глаголом to have – «иметь», сочетание «у меня» преобразовать в подлежащее I («я»), а слово «книга», которое в русском языке – подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»). В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в большинстве случаев реализуются в своем наборе контекстов. То есть у каждого из «конкурирующих» (при интерпретации) значений – свой набор контекстов. И именно вот эта зависимость значения от окружения позволяет слушающему понять высказывание правильно. Для правильного понимания высказывания необходимо в полной мере учитывать также правила обусловленности выбранного значения лексическим окружением (действующие при «фразеологической» интерпретации слова), правила обусловленности выбранного значения семантическим контекстом (так называемые законы семантического согласования) и правила обусловленности выбранного значения грамматическим (морфолого-синтаксическим) контекстом. То есть для решения проблемы «моносемизации» слов при автоматическом переводе основой служит изучение и тщательное описание закономерностей лексической, семантической и грамматической сочетаемости. При этом правила такой сочетаемости достаточно подробно описываются в словарях – а именно, (а) с мощным охватом лексики, но весьма бегло и нетщательно, а также весьма имплицитно это делается в традиционной лексикографии; и, с другой стороны, (б) в выборочном порядке (со слабым охватом лексики), но зато весьма аккуратно и тщательно, и довольно-таки эксплицитно это делается в работах по «толково-комбинаторной» лексикографии (последних сорока лет).

Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования.

История развития систем машинного перевода

40-е: первые шаги

История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П. П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 г. меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. У. Уивер писал: «I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text» («У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, - это взломать код, чтобы извлечь информацию, заключенную в тексте»). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva: стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания). Вскоре началось финансирование исследований. На ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 г. английским математиком А. Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками с одной стороны и лингвистами – с другой установилось продуктивное сотрудничество.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г. в Нью-Йорке была представлена первая система МП - IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. В том же 1954-м первый эксперимент по машинному переводу был осуществлен в СССР И. К. Бельской (лингвистическая часть) и Д. Ю. Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю. А. Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив). Pen в данном случае должно переводиться не как «ручка» (инструмент для письма), а как «детский манеж» (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода «человеко-машинный симбиоз»).

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживает работа в этой области отечественных лингвистов, таких, как И. А. Мельчук и Ю. Д. Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956 г.), получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

При этом несколько сместились акценты: исследователи теперь ставили целью развитие «реалистических» систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из «врага» и «конкурента» профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

За период 1978-93 гг. в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Вместе с тем разработки в области МП стимулировали развитие не только лингвистики. Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Одной из новых разработок этого периода стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге «не нужно дважды переводить одно и то же предложение!». В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

В СССР с середины 70-х годов были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю. А. Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ; была также разработана система МП с русского языка на английский АСПЕРА. На этих разработках основываются такие системы машинного перевода, как Stylus, Socrat и другие.

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов». Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст», и они реализуют краткую схему перевода. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система Systran, разработанная и поддерживаемая компанией Systran Software Inc, используемая службой машинного перевода при комиссии Европейского союза.

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: www.alphaworks.ibm.com/ aw.nsf/html/mt; www.freetranslation.com; www.transtlate.ru; www.logomedia.net/text.asp; www.foreignword.com/Tools/transnow.htm; babelfish.altavista.com/translate.dyn; infinit.reverso.net/traduire.asp; www.t-mail.com .

С начала 1990-х годов на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer’s Machine Translation). В 1991 г. было создано ЗАО «ПРОект МТ», и уже в 1992 г. компания «ПРОМТ» выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

Несмотря на такую долгую историю, фактически всеми системами осуществляется перевод только на уровне поверхностного синтаксиса, поскольку еще не разработаны (по всей видимости) эффективные модели формального представления смысла, носителем которого должен выступать язык-посредник – интерлингва, хотя для отдельных узких отраслей такие модели строятся (например, METEO и LingoWare). Специалисты связывают построение адекватных систем МП с развитием искусственного интеллекта: машина сможет переводить с одного языка на другой, когда научится думать, как человек.

Другой путь совершенствования МП, более доступный на современном этапе, – составить корпус соответствий на двух языках. Можно предположить, что такие работы ведутся, и многими разными командами, но их действия не скоординированы, и потому результат слишком мал.

Критики современных систем МП полагают, что установка на жанровую ограниченность (научить машину сначала понимать совсем простые, специально отобранные тексты) на практике привела к тому, что задача моделирования естественного языка фактически уступила место задаче моделирования ограниченных (и крайне примитивных) подъязыков отдельных отраслей знания. При этом наилучшего результата на этом пути, как известно, достигла канадская система TAUM-METEO, отлично выполняющая задачу англо-французского перевода сводок погоды. Простейшим видом систем такого рода являются автоматические разговорники для туристов, предлагающие пользователю более или менее разнообразные «меню» стандартных вопросов и ответов на двух или нескольких языках.

Существующий в настоящее время «словоцентрический» подход (когда машина выбирает и переводит главным образом отдельные слова) объясняется тем, что выделяется то, что легко выделить (слова разделены пробелами), и, соответственно, это переводится. Однако человек (в том числе тот, который занимается переводом) имеет дело с текстом, когда отдельное предложение приобретает смысл как часть более широкого контекста: соседние предложения определяют и объясняют многие невыраженные или неоднозначные элементы каждого отдельного высказывания. На настоящем же этапе часто самыми удобными для понимания оказываются такие системы МП, которые выполняют перевод пословно: фраза корявая, но видно, как она получилась, и, если есть поддержка в виде знания исходного языка, легко догадаться, что же было в оригинале, и увидеть, какие слова переведены неверно. Те системы, которые переводят текст пословно, зачастую оказываются удобнее: видно, откуда фраза взялась. Если хотя бы поверхностно знать язык оригинала, можно понять, что же было в первоначальном варианте, и какие слова переведены неверно. Системы МП, которые обрабатывают фразу синтаксически, избегая «корявости», часто выдают гладкие, но совершенно невразумительные переводы.

Современное состояние машинного перевода на основе “Яндекс.Перевод”

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.

Решением проблемы обучения универсальной модели перевода стало использование параллельных документов, извлечённых из индексов поисковых машин. И это не только мультиязычные сайты, которые изначально были созданы на нескольких языках. К примеру, в интернете появился документ с текстом о каком-то событии. Для него создаётся своеобразный «паспорт» с характерными (контрастными) словами, который потом сравнивается с паспортами других документов, и при их совпадении делается вывод, что это текст об одном и том же, но на разных языках. Этот процесс требует значительных вычислительных ресурсов, потому что приходится обрабатывать миллиарды веб-документов.

Естественно, не все предложения в таких текстах будут последовательными переводами друг друга. Чтобы составить таблицы соответствия слов и фраз со всеми возможными переводами, нужно сделать специальное выравнивание и выкинуть те, которые случайно туда попали. В итоге получается, что, например, каждому русскому слову соответствует 20–30 английских.

Практически весь вышеописанный процесс основывается на статистических методах и теории вероятностей. Автоматический переводчик знает величину вероятности каждого перевода и на её основе быстро делает свой выбор по языковой модели из десятков вариантов, а иногда и сотен.

Кажется, что для точности перевода и учёта стилистики текста, нужно всего лишь показывать варианты переводов человеку и он подберёт наиболее подходящее по контексту и стилю слово. Но это статистические фрагменты текста, которые сами по себе могут не нести для простого пользователя никакого смысла. Как минимум, потому что он может увидеть тысячи вариантов для одного слова, что ему никак не поможет. Особенно, если человек не очень хорошо знает язык, на который переводит.

Автословарь решает проблему выбора, выбирая только самые подходящие переводы и показывая их в читабельной для простого пользователя форме. Для этого наша команда специалистов провела сложную и ресурсоёмкую работу. Во-первых, мы сделали так, что автословарь показывает словарную форму слова. Во-вторых, научили выявлять из всего набора фраз действительно устойчивые словосочетания, которые человек может потом сформулировать.

В составлении автоматического словаря есть и другие трудности. Например, когда пользователь запрашивает перевод слова без контекста, то для группировки вариантов на другом языке приходится выводить все его значения. И зачастую на языке, который ему незнаком. Чтобы помочь человеку сориентироваться среди вариантов переводов, нужно не просто показать все главные значения слова, но и сделать группировку по их смысловым значениям.

Для этого используется словарь синонимов, который тоже строится на основе статистических данных, накопленных нами в процессе построения модели перевода. Благодаря тому, что в Яндекс.Переводе есть оба направления перевода, мы знаем, что разные слова одного языка часто переводят в одно и то же слово другого языка. Это позволяет предположить, что они являются синонимами. Таким образом, мы автоматически формируем группы переводов, каждая из которых имеет свое смысловое значение.

В результате пользователю Яндекс.Перевода не нужно дополнительно смотреть статьи из обычных словарей, чтобы подобрать более точный перевод. Автословарь покажет ему автоматически сформированную статью, в которой даже будут примеры употребления слова. К тому же, основанный на статистике словоупотребления в интернете, автоматический словарь быстрее обновляется. Благодаря всему этому, переводы, выполненные с помощью машинного переводчика Яндекса, будут гораздо качественнее.

Машинный перевод, как живой организм, с каждым годом развивается. Разработчики находят различные алгоритмы и решения, которые позволяют максимально приблизить машинный перевод к переводу человека. И если посмотреть глубоко в историю, то можно легко заметить как МП развивался и эволюционировал.

Но даже в наши дни нельзя сказать, что машинный перевод может полностью заменить человека, но он может существенно облегчить ему процесс перевода. И грамотное использование различных программных средств снижает временные затраты и экономит умственные силы.

Сейчас человек может выбирать переводчики для своих нужд из многочисленного числа программных средств и сопоставить их. Это позволяет делать перевод более точным и целым.

August 21st, 2016

В 1954 году занимающему несколько комнат компьютеру IBM 701 хватило словарного запаса в 250 слов и нескольких простых правил, чтобы точно перевести 60 фраз с русского на английский. Это достижение (знаменитый Джорджтаунский эксперимент) широко освещалось в СМИ, и власти США поверили в светлое будущее - машинный перевод текстов врага на английский уже через десять лет.

Однако этого не случилось. И вот почему...

Обратимся сначала к истории.

История машинного перевода берет начало в XVII веке, когда такими философами, как Лейбниц и Декарт было выдвинуто предположение о существовании некоего кода, соединяющего между собой слова разных языков. Все предположения носили гипотетический характер, и никому не удавалось в действительности создать машину для перевода.


Первые заявления на получение патента на «переводческую машину» были поданы в середине 30-х годов ХХ века. Одно заявление было подано французским изобретателем Ж. Арцруни, просто создавшим автоматический двуязычный словарь на перфоленте. Другое было сделано советским ученым Петром Троянским, чье изобретение было более детальным. Оно включало в себя, как двуязычный словарь, так и способы работы с грамматическими ролями между двумя языками на основе Эсперанто. Данная система представляла собой три этапа: первый заключался в следующем – редактор, носитель языка, должен был связать слова исходного языка (ИЯ) в логические формы в соответствии с синтаксическими функциями; на втором этапе машина должна была «перевести» все эти формы на язык перевода (ПЯ); а на третьем этапе носитель языка перевода занимался редактированием полученного результата. Его схема оставалась неизвестной до конца 50-х годов, когда появились ЭВМ.

Первый план по созданию машин для перевода на базе компьютеров был предложен Уорреном Уивером, исследователем Фонда Рокфеллера, в его меморандуме от июля 1949 года. Данные предложения базировались на теории информации, получившей успех во время Второй Мировой войны в связи с криптографией и распространения идеи об универсальных принципах естественных языков.

Несколько лет спустя, во всех университетах США началась исследовательская деятельность, связанная с машинным переводом. 7 января 1954 года фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первую демонстрацию новой системы машинного перевода, которая проходила в Нью-Йорке в головном офисе IBM. Результаты демонстрации были освещены в печати и привлекли большой общественный интерес. Система сама по себе была не более чем, по сегодняшним меркам, игрушечной, поскольку она использовала словарь из 250 слов и осуществила перевод с русского на английский 49 заранее отобранных предложений, имеющих химическую тематику. Однако демонстрация стимулировала распространение идеи о неотвратимости появления машинного перевода, а в частности привлечение финансирования в исследовательские институты не только на территории США, но и по всему миру.

Ранние системы использовали большие двуязычные словари и запрограммированные вручную правила, по выстраиванию на выходе слов в правильном порядке. В конечном итоге, такой способ был признан ограниченным, и развитие лингвистических наук, например, генеративной лингвистики или трансформационной грамматики, было нацелено на улучшение качества перевода.

В это время устанавливались операционные системы. Военно-воздушные силы США пользовались программой, разработанной компанией IBM и Вашингтонским университетом, в то время как комиссия по атомной энергии США и Евроатом в Италии пользовались системой, разработанной Джорджтаунским университетом. И хотя качество выхода было низким, система пользовалась популярностью среди потребителей, в связи с увеличением скорости перевода.

Вернемся к Джорджтаунскому эксперименту. Разумеется, у шоу-эксперимента, помимо научной, была и политическая сторона. Испытание советской атомной бомбы в 1949-м и запуск спутника в 1957-м показали США, что СССР не намерен уступать в научной гонке. Кроме того, чтобы понять, что вообще происходит за железным занавесом, не помешал бы быстрый перевод множества открытых и секретных документов на английский. Проект машинного перевода возник на пересечении интересов американских ученых, гражданских и военных, которые хотели читать советские научные публикации, и сотрудников разведки. Авторы проекта надеялись, что «научный русский», с его простыми фразами и ясной лексикой, позволит вычислительным машинам освоить и столь сложный, вариативный обычный русский язык.

Русские пишут!

К 1948 году на русском языке издавалось 33 процента научной литературы. На немецкий язык в золотые годы «тевтонской» науки приходилось 40 процентов. В частности, если в 1913 году русские тексты составляли 2,5 процента учитываемых Химической реферативной службой (Chemical Abstracts Service) публикаций, то в 1958-м - 17 процентов, заметно обойдя немецко- (10 процентов) и франкоязычные (5 процентов). Уже в 1944 году редактор издания предупреждал читателей о необходимости учить русский.

В конце XIX века американские ученые и инженеры научились читать по-немецки. Но кто же мог подумать, что за каких-то пять лет войны немецкий уйдет на периферию и придется осваивать таинственные кириллические символы! В 1953 году из 400 тысяч опрошенных ученых и инженеров свободно читали по-русски всего 400 человек.


Одна из перфокарт с фразой на русском

Ситуация осложнилась еще из-за политики Сталина. Борясь с «низкопоклонством перед Западом» и утечкой информации, в 1947 году в СССР закрыли все научные журналы на иностранных языках (Comptes rendus АН СССР, Acta Physicochimica и Journal of Physics of the USSR). Более того, перестали публиковать содержание журнала и резюме статей на иностранных языках - и теперь не знающие русского западные ученые даже не могли понять, чему вообще посвящены новые публикации.

С конца 1940-х и особенно после запуска советского спутника Конгресс США выделял десятки миллионов долларов на обучение русскому языку. Чтобы упростить задачу, сами исследователи выдвинули концепцию «научного» или «технического» русского, далекого от непостижимого языка Пушкина и Достоевского. Международная лексика, изобилие формул, простая грамматика должны были максимально облегчить обучение. Но особого прогресса в освоении русского не наблюдалось. Вот тут американцы и обратили свои взоры на новейшие технологии - вычислительные машины.


Машины, на помощь!

Пионером машинного перевода парадоксальным образом стал человек, далекий как от структурной лингвистики, так и от вычислительной техники - личный переводчик генерала Эйзенхауэра Леон Достер (Leon Dostert). Он родился в 1904 году во Франции. В Первую мировую, в годы германской оккупации Леон быстро выучил немецкий и был привлечен к работе в качестве переводчика. То же самое произошло, когда его родной город Лонгви заняли американцы: оценив таланты юного переводчика, офицеры оплатили его обучение в США. В 1939 году он уже был профессором французского в Джорджтаунском университете. После поражения Франции в 1940-м Достер принял американское гражданство и прошел войну в штабе Эйзенхауэра, дослужившись до полковника.

В 1945-м Достер на Международном военном трибунале в Нюрнберге фактически изобрел синхронный перевод - поскольку последовательный недопустимо удлинил бы и без того растянутый процесс. Ему принадлежит идея закрыть переводчиков в «аквариуме» и вести трансляцию речей к каждому из участников процесса индивидуально, через наушники. Все оборудование бесплатно представил приятель Достера Томас Уотсон, будущий президент IBM. Организовав аналогичную систему в ООН, Достер вернулся в университет на должность президента нового Института языков и лингвистики.

Неудивительно, что этот полиглот, судьбу которого радикально изменили две мировые войны, хотел предотвратить третью. Выступая в 1951 году на страницах ARMOR, журнала бронетанковых войск США, Достер скептически отозвался о боеспособности блока НАТО - именно из-за неспособности разноязычных солдат стран-участниц понимать друг друга.

Леон Достер

Спасение пришло с неожиданной стороны. Еще в годы войны перфокартные счетные машины IBM применялись не только для расчета траекторий снарядов и решения логистических задач, но и в криптографии. Это и навело Уоррена Уивера, сотрудника Фонда Рокфеллера, на идею машинного перевода. В 1947 году он написал письмо отцу кибернетики Норберту Винеру: «Проблему перевода можно решить как проблему криптографии. Когда я вижу статью на русском, я говорю себе: "На самом деле она написана на английском, но зашифрована странными символами, которые я декодирую"». Винер, владеющий несколькими языками, разгромил проект, указав на до сих пор не решенную проблему - у слов естественных языков, в отличие от цифр, слишком много смутных и неоднозначных значений, чтобы переводить механическим образом.

Но Уивер получал от Фонда достаточно средств, чтобы и дальше продвигать свои идеи. В 1952 году он спонсировал первую конференцию по машинному переводу, где были озвучены главные технические и философские проблемы этого проекта. Участвовал в симпозиуме и Достер - и быстро смекнул, что для успеха машинного перевода надо не спорить о фундаментальных проблемах, а сконструировать аппарат, который докажет всем осуществимость этой затеи.

Машина Достера опиралась на шесть базовых операций («правил») и, следовательно, могла переводить только предложения, где те применялись. Каждое из 250 слов лексикона кодировалось двумя числами, которые определяли бинарное дерево принятия решений. Компьютер выбирал между прямым и непрямым порядком слов, а также одним из двух словарных значений. При всей ограниченности средств результаты впечатляли: русские фразы латиницей забивались в машину (на перфокартах), и примерно через десять минут выдавался результат:

KRAXMAL VIRABATIVAYETSYA MYEKHANYICHYESKYIM PUTYEM YIZ KARTOFYELYA
Starch is produced by mechanical methods from potatoes

VYELYICHYINA UGLYA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU
Magnitude of angle is determined by the relation of length of arc to radius

MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI
We transmit thoughts by means of speech

Чем опасны деньги от ЦРУ

Сенсационный успех демонстрации 1954 года привлек к проектам Достера внимание ВМФ, ЦРУ и других подобных ведомств. Но силовики не спешили раскошеливаться. Тут неожиданную помощь оказал СССР. На статью о Джорджтаунском эксперименте обратил внимание отец советской кибернетики Алексей Ляпунов и вскоре создал в Математическом институте исследовательскую группу. За ним последовал Дмитрий Панов из Института точной математики и вычислительной техники, а к 1958 году машинным переводом занимались уже 79 различных учреждений.

Достер и его коллеги, указав на необходимость «догонять СССР», наконец получили щедрое финансирование - сто тысяч долларов в год. Делу помогло еще и то, что старый фронтовой приятель Достера Аллен Даллес в 1956 году возглавил ЦРУ. Для обработки информации об СССР управлению не хватало русскоязычных аналитиков, и Достер уверил Даллеса, что его машины скоро придут на помощь. За 1956-1958 годы джорджтаунская группа получила от ЦРУ около миллиона трехсот тысяч долларов (10 миллионов по курсу 2016 года). Ни один научный коллектив того времени, кроме физиков-ядерщиков, и мечтать не мог о таких суммах. В коды на перфокартах перевели почти восемь тысяч терминов органической химии. Достер также подписал контракт на перевод советских документов по атомной энергетике.

Достер и Уотсон (справа) во время Джорджтаунского эксперимента

Однако к середине 1960-х над проектом сгустились тучи. Философ Иегошуа Бар-Хиллел, первый в стране специалист по машинному переводу, пришел к выводу о его невозможности даже в будущем. Компьютер, согласно известному примеру Бар-Хиллела, не понимает различия между фразами The box in the pen (коробка в манеже) и The pen is in the box (ручка в коробке) - только человек интуитивно понимает, когда pen значит «манеж», а когда - «ручка».

В 1963 году Достеру удалось отбиться от нападок конгрессменов, которые провели специальные слушания по вопросу автоматического перевода. Но в 1964-м Комитет по прикладной лингвистике Национальной академии наук США констатировал «отсутствие прогресса» - никакого машинного перевода реальных, не адаптированных статей с русского на английский не было и в помине. ЦРУ также прекратило финансирование (без объяснения причин).

Машины - в отставку

Фактически именно сногсшибательный успех Джорджтаунского эксперимента вырыл проекту могилу. Первые фразы были слишком хороши, а переводы более сложных текстов оказались неточными, корявыми или вообще непонятными без дополнительного редактирования.

По словам Гордина, фатальной ошибкой Достера было невнимание к потребителям машинных переводов. Он ориентировался исключительно на госструктуры, которые в любой момент могли прекратить финансирование (что они и сделали).

Впрочем, проблему «тайн советской науки» в США все-таки решили, причем достаточно экономичным способом. Частные издатели создали серию журналов (например, Journal of general chemistry of the USSR), где статьи из советских журналов переводились сплошняком. Сначала эти издания нашли благодарную аудиторию среди американцев, не желающих учить русский, но уже через пару лет львиная доля тиража уходила иностранным специалистам. Ученые из Франции, Японии, Индии или Бразилии, желающие знать, что исследуется и изобретается в СССР, не учили русский, а покупали американские реферативные журналы. Так революционный прогресс советской науки и техники помог утверждению английского как монопольного международного языка ученых.

Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались. В США главными исключениями стали основатели компаний Systran (Питер Тома)

Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.

80-е начало 90-х годов

К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.

В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.

В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.

Первые коммерческие продукты машинного перевода, нашедшие практическое использование в России, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.

Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

- "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;
- ПРОМТ, образованная в 1991 г.;
- "Медиа Лингва".

Например в словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.

В конце 80-х годов произошел рост числа методов, используемых при машинном переводе. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.

В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.

В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Одна из компаний, которая стояла во главе рынка ПК на тот момент были Systran.

Недавние исследования

За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.

источники

1947 - дата рождения машинного перевода (МП) как научно­го направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Вине­ру, в котором рассматривал задачу перевода текстов с одних язы­ков на другие как еще одну область применения техники дешиф­рования. За этим письмом последовало множество дискуссий.

1947 - А. Бут и Д. Бриттен разработали подробный «код»
для пословного машинного перевода.

1948 - Р. Риченс предложил правила разбиения словоформ
на основу и окончание.

1952 - первая конференция по МП в Массачусетском тех­нологическом институте.

1954 - представлена первая система МП - IBM Mark II - русско-английская, которая имела словарь в 250 единиц и 6


грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.

1967 - специально созданная в США Комиссия Националь­ной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу о том, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.

70-е годы - возрождение интереса к работам в области МП. С развитием вычислительной техники появились новые воз­можности машинной реализации лингвистических алгоритмов.

80-е годы - время работы персональных компьютеров зна­чительно подешевело, машинный перевод наконец-то стал эко­номически выгодным.

90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/ Intranet. Преимущества использования машинного перевода осо­бенно очевидны при получении онлайнового перевода.

В 1990 г. Ларри Чаилдс, специалист по машинному перево­ду, предложил следующую классификацию систем машинного перевода:

FAMT (Fully-automated machine translation) - полностью ав­
томатизированный машинный перевод;

НАМТ (Human-assisted machine translation) - машинный
перевод при участии человека;

МАНТ (Machine-assisted human translation) - перевод, осу­
ществляемый человеком с использованием компьютера.

Как переводит компьютер

Машинный перевод - это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом.

Во-первых, очевидно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания боль­ших словарей для систем.


Во-вторых, ясно, что система должна переводить предложе­ния типа «Привет, как дела?». Значит, еще одна проблема - на­учить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам пере­водится, а значит, есть еще одна проблема: записать все эти пра­вила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно явля­ются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Словарь

Методы организации больших баз данных достаточно хоро­шо разработаны, но для перевода не менее, а может быть, и бо­лее важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соот­ветствовать обыкновенному русскому слову «программа»? И вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет рас­познать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, т.е. для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как прави­ло, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, со­держащие слова «программу», «программе», «программы» и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова «программа» с соответству­ющей словоформой из текста. Поэтому для описания и входно­го, и выходного языка в системе должен существовать некото­рый формальный метод описания морфологии, на котором ос­новывается выбор единицы словаря.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной ста­тьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, она не­обходима для выполнения программой собственно процедур перевода. Какая же информация нужна в словарной статье и как должны быть описаны правила перевода для того, чтобы про­грамма переводила?

Грамматика

Тут необходимо сделать небольшое историческое отступле­ние, поскольку машинный перевод как область прикладной лингвистики имеет драматическую историю. В 1950-х годах прак­тически с появлением первых вычислительных машин возник­ла идея машинного перевода, кстати, сам термин «машинный перевод» существует именно с тех времен. Кажущаяся простота задачи породила некоторую лингвистическую эйфорию, и было начато несколько глобальных проектов по созданию систем пе­ревода для разных языков. Ни один из них не привел к созда­нию работающих систем, и в 1967 г. специальная комиссия На­циональной Академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования. Толь­ко в начале 80-х годов лингвисты более или менее оправились от столь сурового вердикта и возобновили исследования в обла­сти МП. Конечно, во многом это оживление было связано с развитием вычислительной техники вообще и с интересом к проблемам искусственного интеллекта как области применения компьютеров в частности.

Глобальные проекты по-прежнему были ориентированы на решение задачи перевода в целом. В них рассматривались раз­работка описания лексических единиц в словаре и разработка алгоритмов перевода как разные задачи. Появилось множество лингвистических работ, предлагающих структуру описания свойств живого слова в словарной статье машинного словаря. Не появ-


лялось только реальных коммерческих систем, в которых эти исследования хоть как-то соединялись бы. Все системы, кото­рые так или иначе существовали, имели скромное дополнение «экспериментальная» или «прототип». Но реально ни одна из таких систем никогда не была доработана до системы массового использования. Это происходило потому, что применяемые ме­тоды описания перевода при переносе их в естественную среду (т.е. при применении к произвольным текстам) приходили в противоречие с методами, предлагаемыми для формирования словарных статей.

В то же время локальные проекты были ориентированы на решение только узких задач. Установкой разработчиков было получение хоть каких-то практических результатов.

Хотя оба эти подхода не дали коммерческих систем, работы, которые проводились в этом направлении, позволили осознать сложность задачи и, по крайней мере, установить узкие места в подобных разработках. Так или иначе, но именно из локальных проектов появились системы перевода, которые сейчас предла­гаются конечному пользователю.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получе­ние результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамма­тики, с которой работает система.

Вместо принятого лингвистического подхода, предполагаю­щего выделение последовательных процессов анализа и синте­за предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с объектно-ори­ентированной организацией, основанной на иерархии обрабатыва­емых компонентов предложения.

Сначала поясним некоторые определения. Вместе с разви­тием машинного перевода как области прикладной лингвисти­ки появились и классификации систем. Стало принято делить системы перевода на системы типа TRANSFER и системы типа

INTERLINGUA. Это разделение основано на особенностях ар­хитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структу­ры в аналогичную структуру выходного языка (TRANSFER) и за­тем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори нали­чие некоторого метаязыка структур (INTERLINGUA), на кото­ром можно описать все структуры как входного, так и выходно­го языков в общем случае. Поэтому алгоритм перевода в систе­ме типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения вы­ходного языка. «Единственная» сложность в этом случае - раз­работать сам метаязык и описать естественный язык в соответ­ствующих терминах.

Несмотря на то что эта классификация существует и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится ваша система, не было раз­работано еще ни одной реальной системы, основанной на принципе INTERLINGUA.

Хотелось бы надеяться, что эти сведения позволят потенци­альным пользователям систем перевода понять, что создание системы машинного перевода - задача не такая уж простая и, что называется, наукоемкая. Следовательно, количество дей­ствительно пригодных к использованию систем перевода, кото­рое может появляться в единицу времени, принципиально ог­раничено.

2.2.3. Классификация систем

1. Системы машинного перевода (МП)

Системы машинного перевода - программы, осуществ­ляющие полностью автоматизированный перевод. Главным


критерием программы является качество перевода. Кроме этого, для пользователя важным является удобство интер­фейса, легкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита, пополне­ния словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты web-интерфейсы, обеспечив при этом их интеграцию с остальным программ­ным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода web-страниц, элек­тронных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM)

Системы с функцией Translation Memory (TM) предостав­ляют средства для так называемого Machine-assisted human translation (МАНТ) - перевода, выполняемого человеком с помощью машины.

Они основаны на технологии Translation Memory (TM) в противоположность МП, машинному переводу. Идея зак­лючается в хранении базы данных переводов, сделанных профессиональным переводчиком, для того чтобы в процес­се перевода предлагать человеку уже готовый перевод фразы или куска текста, если он уже был однажды переведен. При­чем совпадение фразы не обязательно должно быть букваль­ным, а может определяться критериями «похожести», зало­женными в программу, с возможностью их настройки пользо­вателем. ТМ-программы очень полезны в ситуациях, в кото­рых необходимо сделать перевод обновленной версии доку­мента, переведенного ранее. Такая необходимость возника­ет при поддержке мультиязычных сайтов. Программа быст­ро обнаружит в документе места, подвергшиеся изменениям со времени предыдущей версии документа, и человеку оста­нется перевести только эти изменившиеся части. ТМ-про­граммы значительно повышают эффективность работы пе­реводчика, избавляя его от рутинной, повторяющейся рабо­ты. Во многих фирмах, занимающихся переводом, владение одной из таких программ является существенным критери­ем при приеме на работу.


3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован пе­реход от свободного входного языка к контролируемому входно­му языку. Контроль входного языка предусматривает определен­ные ограничения лексики, грамматики, семантики. Контроли­руемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

■-

4. On-line переводчики

Службы онлайнового перевода выполняют перевод прямо в окне броузера, не требуя установки программы на компью­тер пользователя. Достаточно большое количество ссылок на бесплатные сервисы машинного перевода с указаниями на­правлений переводов приведено по адресу http://rivendel. com/~ric/resources/free. html.

Как правило, существует ограничение на объем вводимо­го текста.

Бесплатный онлайновый перевод можно сделать также по адресам:

Http://www.t-mail.com/;

Http://www.freetranslation.com/.

5. Словари on-line

Наиболее полный список словарей представлен по адре­су http://members.aol.com/Mgierhake/trans.html. В словарях on-line существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка. Среди слова­рей данного вида известны LOGOS ONLINE DICTIONARY (английский, французский, немецкий, испанский, итальян­ский, чешский), TRADOS MultiTerm, Langenscheidt"s New College Dictionary on-line и т.д.

6. Услуги по переводу в Интернете

Практически каждая компания - производитель систем МП предлагает услуги по переводу. Например, на странице

Languge Partners International (http://www.languagepartners. com/reg-forms/inq-trans.html) организована служба перево­дов, которая обрабатывает любой электронный документ с помощью систем МП и отправляет обратно без редактиро­вания. Пользователь может предоставить термины для по­полнения словаря по своей тематике (за дополнительную плату) или сам его создать. Скорость перевода - 1 рабочий день. Стоимость - 0,04 доллара за слово (приблизительно 8 долларов за страницу). За дополнительную плату предос­тавляются услуги по сканированию. Направления перевода: английский-французский-английский, английский-не­мецкий-английский, английский-итальянский-английс­кий, английский-испанский-английский, английский- португальский -английский, английский-японский-анг­лийский, английский-русский-английский. Однако чаще всего пользователю предоставляется возможность выбора: получить только машинный перевод, либо машинный пере­вод с последующим редактированием профессиональным переводчиком, либо перевод, выполненный профессио­нальным переводчиком. Такого рода сервис можно встре­тить по адресу http://www.plustranslation.com/ (сервис ком­пании Transparent Language). Цена варьируется от 0,01 дол­лара за слово при машинном переводе до 0,38 при переводе с участием переводчика. Подобные услуги есть у SYSTRAN, L&H, Langscheidt, Language Engineering Corporation.

2.2.4. Инновационные технологии компании ПРОМТ

Ведущие сотрудники компании ПРОМТ начали заниматься исследованиями в области прикладной лингвистики и изучать модели построения систем машинного перевода более 20 лет на­зад, в конце 1970-х годов. Исследования велись в лаборатории ин­женерной лингвистики ЛГПИ им. А.И. Герцена (ныне педагоги­ческий университет). Накопленный теоретический багаж лег в основу технологий МП, разрабатываемых в компании ПРОМТ.


За 10 лет с момента основания компании ПРОМТ удалось создать передовые технологии МП, в основе которых заложены современные лингвистические алгоритмы, разработки в облас­ти математического моделирования и нейронных сетей. На базе этих технологий были разработаны системы машинного пере­вода, которые по качеству на 30% превосходят ведущие миро­вые аналоги.

В 2000 г. компания ПРОМТ выпустила семейство систем МП на основе нового ядра перевода. В новом ядре реализованы тех­нологии расширенных сетей переходов и формализма нейрон­ных сетей, что вывело машинный перевод на качественно но­вый уровень, а также последние разработки в области алгорит­мов семантического анализа и синтаксического разбора.

Новым шагом в развитии МП компании ПРОМТ стало ис­пользование технологии F2F, обеспечивающей сохранение всей форматной информации в процессе перевода, что позволило осуществлять перевод сложноформатированных документов без потери форматных признаков.

Помимо развития собственно технологии машинного пере­вода, были приложены специальные усилия к тому, чтобы реа­лизовать в новых системах возможность лингвистической на­стройки, которая обеспечивает значительное улучшение каче­ства перевода для специализированных текстов.

В частности, появление поддержки тематик в новом ядре позволило кардинально изменить подход к переводу специали­зированных текстов. Использование тематик решило проблему лингвистической настройки системы на специализированные тексты и обеспечило эффективность их сохранения.

Легкость и удобство лингвистического администрирования систем МП было реализовано на базе следующих технологий:

AutoDetect для реализации автоматического определения
темы документа;

SmartFolders для предварительного задания тематики пере­
вода всем документам, находящимся в определенной папке;

KeyWords - выбор тематики на основе предварительного за­
данного списка ключевых слов;

SmartURL - возможность предварительного задания тема­тики перевода для конкретного URL.

Компания ПРОМТ предлагает онлайновые сервисы перево­да текста, web-страниц и электронных писем для английского, немецкого, французского, испанского, итальянского и русско­го языков. Для перевода специализированных текстов можно подключать тематические словари.

Перевод текста. Позволяет переводить любые тексты, на­бранные в окне перевода или скопированные из буфера обмена (Clipboard).

Перевод web-страниц. Позволяет полностью переводить web-страницы, включая гиперссылки, с сохранением исходного форматирования.

Перевод электронной почты. Позволяет переводить и от­правлять электронные письма непосредственно в онлайне.

WAP-переводчик. Новый сервис перевода для пользователей мобильных телефонов.

  • I. Религия имеет несколько исторических форм и прошла длительный путь развития
  • I. Характеристика состояния сферы создания и использования информационных и телекоммуникационных технологий в Российской Федерации, прогноз ее развития и основные проблемы
  • I.) История возникновения и развития компьютерных вирусов
  • II Основные этапы и главные сражения Великой Отечественной войны (2 часа)

  • Содержание:
    Введение ……………………………………………………….………………. 3
    1.1 Что такое машинный перевод?...................... .............................. ................ 5
    1.2 Начало машинного перевода ……..………….……...….………………… 8
    1.3 Этапы развития машинного перевода …………………….………….…. 12
    1.4 Современный машинный перевод ……………..……………………….. 15
    1.5 Машинный перевод в Интернете …….………………… ……………….. 18
    Заключение ……………………………………………………………………. 21
    Литература …….……………………...………………………………………. . 22

    Введение.
    Механизация перевода – это старейшая мечта человечества. Но в XX веке такая мечта стала реальностью. Во многом это связано с постоянным стремлением общества к глобализации и даже с этническими конфликтами и политическими катаклизмами, с упрочнением социально-экономических связей между государствами, интеграции многих ранее «закрытых» стран в мировое сообщество. Знание иностранных языков - это не только полезный навык в повседневной жизни, но также одно из основных требований при приеме на работу. В настоящее время необходимость в знании одного или даже нескольких иностранных языков приобретает всё более явную актуальность. Знание языка (английского или немецкого) необходимо не только в поездке в отпуск за границу, но также и на приеме деловых партнёров из-за рубежа, в обыденной жизни при чтении новостей или просмотре фильмов. Поэтому, большое количество рутинных обыденных и повседневных операций, которые не требовали ранее знания иностранного языка, сегодня, ввиду развития процессов международной интеграции и повсеместному стремлению бизнеса к глобализации, становятся всё более затруднительными, если опираться только на один язык. В связи с этим, на сегодняшний день, всё более востребованными становятся услуги переводчиков, выполняющих на профессиональном уровне переводы на английский, немецкий и другие языки и языковые пары. Однако сегодня одного только знания иностранных языков бывает недостаточно, поскольку объём информации, которую необходимо ежедневно переводить, существенно возрос. Вместе с тем, эта задача успешно решается, и ни для кого не составляет труда всего за несколько секунд перевести контракт или контент иностранного сайта. А всё потому, что переводом в этом случае занимается программа-переводчик: человек не успевает и глазом моргнуть, а перевод уже готов.
    Но и сегодня, как и прежде, реальность не совершенна. Нет ни одной системы машинного перевода, которая при нажатии всего нескольких кнопок могла бы сделать безупречный перевод любого текста на любом языке без вмешательства или хотя бы редакции человека. Пока это только планы на далекое будущее, если подобного идеала вообще можно достичь, так как многие подвергают данное предположение сомнению.

    1.1 Что такое машинный перевод?

    Машинный перевод - это процесс перевода, выполняемый специальной компьютерной программой, который позволяет преобразовать текст на одном естественном языке в эквивалентный по содержанию текст на другом языке. Так же называется направление научных исследований, связанных с построением подобных систем.
    Современный машинный, или автоматический перевод можно рассмотреть во взаимодействии компьютерной программы с человеком:

        С постредактированием, когда исходный текст перерабатывается машиной, а человек-редактор исправляет результат.
        С предредактированием, когда человек приспосабливает текст к обработке машиной, например, устраняет возможные неоднозначные прочтения, упрощает и размечает текст, после чего начинается программная обработка.
        С интерредактированием, при котором человек вмешивается в работу системы перевода, разрешая трудные случаи.
        Смешанные системы, включающие, например, одновременно пред- и постредактирование.
    Основной целью машинного перевода, как науки является разработка алгоритма, который полностью автоматизирует процесс перевода.
    Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L 1 – L 2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.
    Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:
    1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.
    2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области. Включает определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста, производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие или отсутствие контекстных определителей значения.
    3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани , ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).
    4. Синтез выходных словоформ и предложения в целом на выходном языке.
    В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.
    Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором), в содержание термина «машинный перевод» входит представление о том, что главную, бoльшую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок. В то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в словарях такого рода в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

    1.2 Начало машинного перевода.

    Технология машинного перевода, как научное направление, имеет уже почти вековую историю, а первые идеи автоматизации переводческого процесса появились еще в XVII столетии.
    Как принято считать, причинами возникновения машинного перевода явился бурно растущий со 2-ой половины XX века поток информации на разных языках различных стран и континентов, необходимость ее усвоения для научно-технического прогресса, недостаточность квалифицированных (особенно в отдельных областях) переводчиков, а также высокая стоимость их подготовки.
    О разработке новых способов перевода впервые задумался английский изобретатель Чарльз Бэббидж, предложивший в конце 1830-х гг. проект первого в истории компьютера. Суть работы прибора состояла в использовании потенциала машинной памяти для хранения словарей. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Однако воплотить в жизнь свою идею Бэббиджу так и не удалось.
    Теоретической основой начального периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами машинного перевода были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947 года. Именно тогда, директор отделения естественных наук Рокфеллеровского фонда Уоррен Уивер разработал меморандум, в котором определил задачу текстового перевода с одних языков на другие как еще одну область применения техники дешифрования. В своем письме Норберту Винеру Уоррен Уивер впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.
    Вслед за этим последовало бурное обсуждение идеи автоматизированного перевода и теоретическая разработка первых технологий. Высказывались предположения о полной замене человека-переводчика электронными системами, многие профессиональные переводчики опасались в ближайшем будущем остаться без работы. Идеи Уивера легли в основу подхода к машинному переводу, основанного на концепции interlingva: стадия передачи информации разделена на два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.
    Тот же Уоррен Уивер после ряда дискуссий составил в 1949 меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. Системы машинного перевода в те годы довольно сильно отличались от современных систем. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка машинного перевода активно поддерживалась военными; при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.
    Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.
    Вскоре, началось финансирование исследований, и в 1952 году состоялась первая конференция в Массачусетском технологическом институте по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом.
    В 1954 общественности были предъявлены первые результаты: фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент. Он вошёл в историю как так называемый Джорджтаунский эксперимент, на котором была представлена первая версия электронного переводчика. В ходе эксперимента был продемонстрирован полностью автоматический перевод более 60 предложений с русского языка на английский . Презентация положительно повлияла на развитие машинного перевода в последующие 12 лет.
    Эксперимент был задуман и подготовлен с целью привлечения общественн ого и правительственного внимания. Парадоксально, но в его основе лежала довольно простая система : она была основана всего на 6 грамматических правилах , а словарь включал 250 записей. Система была специализированной: в качестве предметной области для перевода была выбрана органическая химия . Программа выполнялась на мэйнфрейме IBM 701 .
    В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе НИИ математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.
    Демонстрация Джорджтаунского эксперимента была широко освещена в СМИ и воспринята как успех. Она повлияла на решение правительств некоторых государств , в первую очередь США , направить инвестиции в область вычислительной лингвистики . Организаторы эксперимента уверяли, что в течение трёх-пяти лет проблема машинного перевода будет решена. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Так, в СССР такие отделения были созданы в Москве (МГУ им. М.В.Ломоносова, МГПИИЯ им. М.Тореза – ныне МГЛУ), в Минском МГПИИЯ, в Ереване, Махачкале, Ленинградском университете, в университетах Киева, Харькова, Новосибирска, ряда других городов. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков. В настоящее время исследования ведутся и в таких странах, как Малайзия, Саудовская Аравия, Иран и др.

    1.3 Этапы развития машинного перевода.

    В результате такого успешного старта развития машинного перевода, казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет. При этом акцент делался на развитие полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс. Профессиональные переводчики всерьез опасались в скором времени остаться без работы...
    Однако исследования по машинному переводу за свою историю переживали как подъемы, так и спады. В 1950-х годах в исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества машинного перевода в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем. В результате этого первые системы машинного перевода сводились к пословному (слово за словом) переводу текстов без какой-либо синтаксической, а тем более смысловой целостности.
    В 1959 году философ Й. Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический перевод не может быть достигнут в принципе. Он исходил из того, что выбор того или иного перевода обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею машинного перевода, как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз"). Но это выступление самым неблагоприятным образом отразилось на развитии машинного перевода в США. В начале 1960-х годов завершился первоначальный эйфорический этап в развитии МП. Этому в сильнейшей степени способствовала публикация так называемой «Черной книги машинного перевода» – доклада Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, в котором была констатирована невозможность создания в обозримом будущем универсальных систем высококачественного машинного перевода. Комиссия пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. Следствием этой публикации было сокращение финансирования и общее снижение интереса к проблематике машинного перевода, однако полного сворачивания исследований, в особенности теоретических, не произошло. И первые системы перевода продолжали пользоваться популярностью в военных и научных учреждениях СССР и США.
    Новый этап развития технологий машинного перевода начался в 1970-х годах. Этот подъём был связан с появлением вычислительной техники - появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти. Программисты отказались от идеи создания “идеальной” машины-переводчика: новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека на различных стадиях процесса перевода для достижения наилучшего качества работы.
    О возрождении машинного перевода в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и NASA); кроме того, CEC заказывает разработку французско-английской и итальянско-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем машинного перевода в Японии; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испанско-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг., впоследствии развились в полноценные коммерческие системы. В нашей стране разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
    Очередной этап исследований в области машинного перевода – это 90-е года прошлого века. Связано это, конечно же, с колоссальным прогрессом современных персональных компьютеров, появлением качественных и доступных массовому пользователю сканеров и эффективных программ оптического распознавания текста и, конечно же, с появлением глобальной компьютерной сети Интернет. Всё это придало новый стимул работам по машинному переводу, привлекло в данную область новые значительные инвестиции и увенчалось серьезными практическими результатами. А именно, появились достаточно эффективные системы машинного перевода и компьютерные словари для работы на персональном компьютере; произошло объединение систем машинного перевода с системами оптического распознавания текста и проверки орфографии. Были созданы специальные средства машинного перевода для работы в Интернет, обеспечивающие либо перевод текстов на серверах соответствующих компаний, либо онлайновый перевод Web-страниц, позволяющий преодолевать языковой барьер и осуществлять навигацию по иностранным сайтам.

    1.4 Современный машинный перевод.

    Сегодняшние программы-переводчики имеют гораздо более широкий «кругозор» и действуют на основе более совершенных переводческих технологий. Системы перевода активно используются во всем мире в случаях, когда требуется быстро понять смысл текста или часто переводить большие объемы информации. Некоторым разработчикам на сегодняшний день удалось достичь весьма приемлемого качества перевода по отдельным языковым направлениям.
    Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя. Человеку предоставляется лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий.
    В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик, если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.
    В рамках технологии машинного перевода существует два подхода: традиционный (основанный на правилах) и статистический (основанный на статистической обработке словарных баз). Традиционный метод МП используется большинством разработчиков систем перевода. Работа такой программы включает в себя несколько этапов и, по сути, заключается в использовании лингвистических правил (алгоритмов). Соответственно, создание такого электронного переводчика включает в себя разработку правил и пополнение словарных баз системы. От разработки необходимых алгоритмов зависит качество перевода на выходе. Богатый словарь системы также позволяет справиться с переводом самых разнообразных по тематике текстов. Статистический метод действует совсем по иному принципу. В его основе лежат математические методы для получения перевода. Точнее, весь принцип работы подобной системы основан на статистическом вычислении вероятности совпадений фраз из исходного текста с фразами, которые хранятся в базе системы перевода.
    В России с помощью традиционного способа машинного перевода разрабатываются программные продукты компании ПРОМТ - единственного в нашей стране производителя программ-переводчиков. В настоящее время компания ПРОМТ – ведущий разработчик систем автоматизированного перевода и обладает колоссальным технологическим багажом, что позволяет разрабатывать системы перевода с различными функциональными возможностями. Уникальные технологии построения систем перевода и оригинальные алгоритмы работы с текстами на естественных языках стали тем базисом, на котором были созданы все программные продукты компании, и который обеспечил возможность разработки широкого спектра решений для автоматизированного перевода с одного языка на другой. Программные продукты компании ПРОМТ одинаково полезны как для решения бизнес-задач, так и для домашнего использования. В последнее время особое внимание компания ПРОМТ уделяет созданию специальных средств и технологий для профессиональных переводчиков. В настоящее время системы ПРОМТ выполняют перевод для 24 языковых направлений . Генеральный словарь для одной языковой пары содержит от 40 до 200 тысяч словарных статей, которые в свою очередь содержат структурированное описание различной лингвистической информации, необходимой системе для работы сложнейших алгоритмов анализа и синтеза текста. Словари по тематикам содержат специфические слова и выражения, характерные для предметной области, их объем может меняться от 5 до 50 тысяч словарных статей. Например, для англо-русской и русско-английской систем разработаны специализированные словари, охватывающие более 50 различных тематик.

    1.5 Машинный перевод в Интернете.

    Онлайновый перевод информации в Интернете становится все более популярным. Интернет стремительно превращается из преимущественно англоязычной в многоязычную среду, что вынуждает владельцев Web-сайтов предоставлять информацию на нескольких языках. Наиболее часто к услугам МП прибегают информационные и поисковые сайты, которые стремятся привлечь на свои страницы разноязычных пользователей. Так, на канадском информационно-поисковом портале InfiniT (http://www.infiniT.com) открылся новый сервис переводов. На сайте теперь доступен онлайновый перевод текста с английского и немецкого языков на французский язык и обратно. Увеличение числа посетителей портала обусловлено возможностью онлайнового перевода Web-страниц. Для этого пользователю достаточно указать только адрес Web-страницы, выбрать направление перевода и нажать кнопку перевода. В результате через несколько секунд пользователь получает полностью переведенную Web-страницу с сохранением форматирования.
    Новый сервис позволяет ликвидировать языковую проблему в канадском Интернете, где в силу исторических особенностей широко используются два языка: английский и французский. Кроме того, онлайновый переводчик открывает доступ к сайтам на немецком языке тем жителям Канады, которые не владеют иностранными языками. Сервис работает на базе серверного Интернет-решения компании ПРОМТ под названием PROMT Internet Translation Server version 2.0. Проект был реализован совместно с компанией Softissimo, которая занимается продвижением продуктов компании ПРОМТ под торговой маркой REVERSO. Интересной особенностью Web-сайтов, знакомящих с программами МП, электронными словарями и другими программами лингвистической поддержки, является то, что с работой многих программных продуктов можно познакомиться в интерактивном режиме, используя версию, установленную на сервере и имеющую шлюз для удаленного общения через Web-интерфейс. На сервере Web-издательства "ИнфоАрт" (http://www.
    infoart.ru/misc/dict) организована интерактивная демонстрация словарей Lingvo и "МультиЛекс". Вы можете ввести слово или словосочетание и мгновенно получить перевод, толкование, примеры употребления и устойчивые словосочетания.
    Наиболее универсальным является PROMT Internet. Купив этот пакет, вы получите сразу несколько программ для перевода Web-страниц, и не только их. Можно с уверенностью сказать, что возможностей данного набора приложений вполне достаточно для полноценной работы с документами на английском, французском и немецком языке. Если вы предполагаете использовать универсальную переводящую программу WebTranSite 98 или броузер WebView больше, чем другие части пакета PROMT Internet, и при этом желаете сэкономить немного денег, то можете приобрести эти продукты по отдельности. В таком случае WebTranSite 98 придется по вкусу тем, кто часто переводит небольшие фрагменты текста не только из Интернет, но и из офисных, почтовых и других программ, а также из системы интерактивной справки.
    WebTranSite 98 подходит не только для перевода Web-страниц. Она достаточно универсальна и позволяет обрабатывать фрагменты
    и т.д.................



    Последние материалы раздела:

    Тело поднимают вверх по наклонной плоскости
    Тело поднимают вверх по наклонной плоскости

    Пусть небольшое тело находится на наклонной плоскости с углом наклона a (рис. 14.3,а ). Выясним: 1) чему равна сила трения, если тело скользит по...

    Теплый салат со свининой по-корейски
    Теплый салат со свининой по-корейски

    Салат из свинины способен заменить полноценный прием пищи, ведь в нем собраны все продукты, необходимые для нормального питания – нежная мясная...

    Салат с морковкой по корейски и свининой
    Салат с морковкой по корейски и свининой

    Морковь, благодаря присущей сладости и сочности – один из наилучших компонентов для мясных салатов. Где морковь – там и лук, это практически...