Евросоюз финансирует проект открытой системы автоматического перевода

25.01.2010 22:13 (MSK)

Учреждения в Европе тратят около одного миллиарда евро в год на перевод документов c 23 официальных языков Евросоюза. Евросоюз выделил грант в 2,3 млн. евро на разработку проекта Molto по развитию систем многоязычного автоматического перевода. При успешности данного проекта Евросоюз ожидает в будущих периодах значительное сокращение затрат на переводы.

В отличие от службы онлайн-перевода Google, проект Molto (Multi-lingual Online Translation) имеет своей целью сделать перевод настолько точным, насколько это возможно. Внимание уделяется точности, а не полноте перевода. Целевыми клиентами являются компании и учреждения, которые рассчитывают на правильно переведенную информацию с веб-сайтов и других документальных источников, а не на информацию, получаемую от конечных пользователей и потребителей. Разработчики используют структуру специализированной грамматики и онтологии, реализованную с использованием открытого грамматического фреймворка (GF).

Целью данного исследовательского проекта является создание систем автоматического перевода для трех специализированных областей человеческой деятельности, как доказательство своей концепции. Опыт, накопленный в процессе разработки должен сделать создания таких систем в дальнейшем проще и быстрее. Бета-версия программного обеспечения должна быть доступна в середине этого года.

Molto будет поддерживать 23 официальных европейских языка и ряд дополнительных, среди которых присутствует и русский язык. Основная команда разработчиков находится в Болгарии, но к проекту уже присоединились разработчики из Испании, Австрии, Швеции и Финляндии. Проект планируется завершить в феврале 2013 года, большая часть разработанного программного обеспечения будет в свободном доступе под лицензией LGPL.

исправить +13 +/–

Главная ссылка к новости (http://www.h-online.com/open/n...)

Автор новости: PGCatabras

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/25144-rus

Ключевые слова: rus, language, translate

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (29)

1.1, ABC (??), 23:44, 25/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Вообще-то, русский не является официальным языком ЕС. Его планируют поддерживать в числе дополнительных.

2.6, pavlinux (ok), 04:20, 26/01/2010 [^] [^^] [^^^] [ответить]	–5 +/–
Если нужен газ, лес и нефть - будут.

3.22, ABC (??), 17:47, 26/01/2010 [^] [^^] [^^^] [ответить]

+5 +/–

>Если нужен газ, лес и нефть - будут.

Дадада, никакой нефти тем, кто не изучит арабский, русский, хауса и йоруба. А чтобы купить Sony Vaio надо обязательно освоить японский!

Вам на техническом форуме действительно необходимо блеснуть глупым шовинизмом?

2.12, Basiley (ok), 12:41, 26/01/2010 [^] [^^] [^^^] [ответить]	–2 +/–
Русский язык принят как стандартный язык межнационального общения. ООН и Юнэско ;) отсюда и катать :) а учитывая кол-во славян в ЕС ...

3.21, ABC (??), 17:38, 26/01/2010 [^] [^^] [^^^] [ответить]

+/–

Р.я., судя потому что я прочитал, включен туда просто благодаря тому, что кто-то еще до начала проекта поработал над соответствующей библиотекой Grammar Framework.

В контексте MOLTO, ООН никого не волнует, финансирование выделяется для снижения расходов на переводы именно в органах ЕС.

И, кстати, в ООН нет "языков межнационального общения". Это называется "официальные языки ООН". И что б уже два раза не вставать: откройте для себя разницу между терминами "славяне" и "русскоязычные".

1.2, Zl0 (?), 23:45, 25/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
А потом все это запихать в микрочип и вшить в мозг)) и нах все эти школы ин.языков))) Побыстрее бы.

2.3, Аноним (-), 00:02, 26/01/2010 [^] [^^] [^^^] [ответить]	+6 +/–
Пока не сдашь экзамен хотя бы по одному языку, чип не вшивать, недалёких и так хватает

2.4, User294 (ok), 00:43, 26/01/2010 [^] [^^] [^^^] [ответить]	+2 +/–
>А потом все это запихать в микрочип и вшить в мозг)) Да чего мелочиться то? А может уж проще сразу "cлава роботам"? :)

3.7, pavlinux (ok), 04:24, 26/01/2010 [^] [^^] [^^^] [ответить]

+1 +/–

>>А потом все это запихать в микрочип и вшить в мозг))
>
>Да чего мелочиться то? А может уж проще сразу "cлава роботам"? :)
>

Ну конечно, как обычно у вас Землян, всё через ж..у.
Не проще ли всем на одном языке говорить?!
Предлагаю Русский язык в наречие посёлка Гуево, Курской области.

1.5, Аноним (-), 01:50, 26/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Увлекательная разработка искусственного интеллекта такая увлекательная!

1.8, Аноним (-), 04:48, 26/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
2,3 млн. евро - смешные копейки.

1.9, pillar (?), 11:05, 26/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Сомневаюсь, что такая система будет создана в ближайшие 50 лет.

1.10, XoRe (ok), 11:44, 26/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Имхо, официальные документы пишутся хорошо структурированным стилем. И сделать систему автоматического точного перевода - цель достижимая. А если пойти через разбор на уровне терминов и понятий, то оно может зайти очень далеко по полезности)

2.11, Аноним (-), 12:38, 26/01/2010 [^] [^^] [^^^] [ответить]	+/–
"тратят около одного миллиарда евро в год на перевод документов c 23 официальных языков Евросоюза" сколько раз им уже предлагали всё писать на одном языке, даже подсказывали, какой лучше всего для этой цели подойдёт (разумеется это не английский), но нет, надо открывать футуристические проекты, которые с малой долей вероятности смогут решить поставленные проблемы, вместо того, чтобы узреть очевидное, эффективное и самое простое их решение... да-да, эсперанто...

3.13, szh (ok), 13:18, 26/01/2010 [^] [^^] [^^^] [ответить]	+/–
чтобы правительство писало официальные документы на языке который не понимают граждане страны? да это просто "открытие" во взгляде как должно работать демократическое правительство.

4.14, Аноним (-), 13:31, 26/01/2010 [^] [^^] [^^^] [ответить]	–1 +/–
>чтобы правительство писало официальные документы на языке который не понимают граждане страны? >да это просто "открытие" во взгляде как должно работать демократическое правительство. > Вопрос стоит более широко, тут нельзя сделать всё сразу, рубанув с плеча: нудно введение в школьную учебную программу годичного курса изучения, практика перевода необходимой тому или иному гос-ву документации на "свой" язык своими силами и раз уж в новости речь о системе автоматического перевода, то осуществление оного с эсперанто на национальный язык гораздо легче и точнее, чем с одного нац-ого на другой. Или вы считаете, что демократическое правительство должно как и сейчас 90% переговоров вести на американском диалекте английского, который так же не понимают большинство граждан ЕС (уровень понимания даже среди студентов ужасен)? Или считаете правильным тратить половину(!) бюджета евросоюза на переводчиков?

5.19, szh (ok), 16:10, 26/01/2010 [^] [^^] [^^^] [ответить]

–1 +/–

> практика перевода необходимой тому или иному гос-ву документации на "свой" язык своими силами
> Или считаете правильным тратить половину(!) бюджета евросоюза на переводчиков?

денег уйдет примерно столько же, вы лишь переписать хотите с какого бюджета оплачивать.

> о системе автоматического перевода, то осуществление оного с эсперанто на национальный язык гораздо легче и точнее, чем с одного нац-ого на другой.

поставить всех чиновников раком ради легче и точнее ? может быть, а может и нет

3.15, suomynona (?), 14:50, 26/01/2010 [^] [^^] [^^^] [ответить]	+/–
> сколько раз им уже предлагали всё писать на одном языке, > даже подсказывали, какой лучше всего для этой цели подойдёт Ага, там идиоты сидят. Считать не умеют.

1.16, const000 (??), 15:19, 26/01/2010 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Идея не совсем к месту, но мож кто из спецов в курсе - если например в предложении сделать разбор имен и аббревиатур (их не так много, список конечен), а за этими пределами создать типа вики - если на складе есть точный перевод фразы, то подставить его, если нет, то сделать стандартный типа prompt и предложить перевести точнее и занести в правильный список. Ну и типа поиграться парами языков - например нужно с английского на немецкий, а есть только с англйского на идиш и с идиша на немецкий. Возможно еще пару простых операций, типа разбора сложноподчиненных предложений на группу простых (хотя это уже сильно к конкретному языку привязано). Такое никто не пытался делать?

2.17, Medved (??), 15:23, 26/01/2010 [^] [^^] [^^^] [ответить]	+1 +/–
Перевод фразы сильно зависит от контекста из которого эта фраза взята. Так что такие таблицы были бы просто бесполезны.

3.18, const000 (??), 15:33, 26/01/2010 [^] [^^] [^^^] [ответить]

+/–

>Перевод фразы сильно зависит от контекста из которого эта фраза взята. Так
>что такие таблицы были бы просто бесполезны.

Да, но анализ контекста требует интеллекта и преложения данных через призму восприятия этого интеллектуального нечто ;) О таком говорить не приходится, во всяком случае пока. А вот автопереводчики на мой взгляд страдают как раз манией разобраться в структуре фразы и потому переводят вообще непойми что, хотя в подавляющем большинстве случаев стандартное предложений подразумевает конечный и очень узкий набор понятий их взаимосвязей однозначно имеющий отражение в любом другом достаточно развитом языке (я не говорю про поэзию и "междустрочные" значения). Так вот таких стандартных предложений и можно накидать в базу. По примерным прикидкам процентов 80 технического текста так переведется.

2.23, HardNik (?), 21:22, 26/01/2010 [^] [^^] [^^^] [ответить]	+/–
Местами, слегка, я являюсь специалистом по компьютерной лингвистике, и последний год занимаюсь именно машинным переводом.Всё очень плохо начиная с морфологии, синтаксис - это в настоящее время куча костылей, с семантикой ..., впрочем, сходите на http://aot.ru - гляньте на исходники (LGPL), вам точно поплохеет. Да, заметили вы верно, все технологии Промта пролетают с тупой числодробилкой кластеров гугла. Только это, лишь подтверждает тезис о том, что теория отстала от техники как вирус от млекопитающегося. Лет 50 - это, конечно, много, но 10 - минимум для какого-либо прорыва. По поводу простых решений - очень вас огорчу. Европейские языки это и венгерский(вспомнит е причины созданияя huspell) и болгарский, который вовсе не славянско-балтийский по синтаксису. Собственно, германские языки - миф, ведь английский типично корневой а немецкий типичный флективный.

3.24, PSV (?), 15:13, 27/01/2010 [^] [^^] [^^^] [ответить]	+/–
Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный подход окажется столь слабым и неэффективным для перевода с языка на язык?

4.25, Аноним (-), 21:16, 27/01/2010 [^] [^^] [^^^] [ответить]	+/–
>Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный >подход окажется столь слабым и неэффективным для перевода с языка на >язык? Ваше заблуждение понятно, но боюсь, это очень разные, не пересекающиеся области.

4.26, HardNik (?), 02:01, 28/01/2010 [^] [^^] [^^^] [ответить]

+/–

>Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный
>подход окажется столь слабым и неэффективным для перевода с языка на
>язык?

К сожалению, перлы на перле - детский лепет, по сравнению с фокусами,результатами контекстной зависимости естественных языков.
В русском яязыке 200 000 базовых словоформ, 3 000 000 производных, и 5 200 000 семантических единиц из этих словоформ. Средняя длина предложения 10 слов, средняя длина слова 5 символов(цифра странная, но если учесть кол-во одно-двух-буквенных предлогов и союзов, объяснимая) . Непроективность русского языка (я памятник себе воздвиг нерукотворный;памятник я себе воздвиг нерукотворный;памятник я воздвиг себе нерукотворный;памятник я воздвиг нерукотворный себе; и тд) позволяет тупо дать оценку для разбора 70% предложений, как число упорядоченных сочетаний по 10 из 5200000 ~= 2E12, только для хранения базы потребуется 2байт* 10слов * 5букв * 2Е12= более 100 000 терабайт. И это для одного языка и попадание только 70%.
Так что на свой вопрос можете ответить сами.

5.27, PSV (?), 10:29, 28/01/2010 [^] [^^] [^^^] [ответить]

+/–

Это напоминает мне вероятностный расчёт невозможности появления жизни на земле. Там просто берется и рассчитывается вероятность повторения среднего фермента "аминокислота к аминокислоте". Естественно это неправильно, поскольку фермент работает (не всегда даже снижая свою эффективность) и при отклонениях в последовательности аминокислот его составляющих, главное что бы активный центр остался с точки зрения участников реакции тем же.

Столько сколько Вы подсчитали по объему, столько просто не существует текстов, и вполне возможно, даже не было произнесено вообще за всю историю конкретного языка.

В Вашем примере достаточно заменить предложение на предложение из предлогов-местоимений-глаголов и подставленных абстрактных "существительных" и "прилагательных". А для Существительных и Глаголов завести таблицу частоты совместной встречи в одном предложении и в соседнем.

Число комбинаций сократится существенно.

А если еще не пытаться генерировать все возможные порядки слов, а посмотреть на базе реально существующих текстов, то и получится тот самый статистический способ перевода :)

5.28, XoRe (ok), 15:37, 28/01/2010 [^] [^^] [^^^] [ответить]

+/–

Интересна ваша точка зрения на такой способ.
Сначала разпарсить фразу, разбить на понятия.
Например:
Поставщик обязуется поставлять в соответствии с условиями настоящего Договора товар, наименование, количество и цена которого указаны в Приложениях к настоящему Договору (далее по тексту – «Товар»), а Покупатель обязуется принимать и оплачивать Товар на условиях, указанных в настоящем Договоре.

Разделить на "Поставщик", "обязуется поставлять", "в соответствии с условиями настоящего Договора", "указаны в Приложениях" и т.д.

Распарсить в некоторую структуру.
А потом из неё создавать текст на нужном языке.
Я говорю только про юридические документы - они вроде как неплохо структуризированы, плюс используется конечное количество понятий.
Правда, я догадываюсь про объем работ)

6.29, PSV (?), 16:04, 28/01/2010 [^] [^^] [^^^] [ответить]	+/–
>Распарсить в некоторую структуру. так это уже другая задача :) имеющая впрочем место :)

6.30, Аноним (-), 18:17, 28/01/2010 [^] [^^] [^^^] [ответить]	+/–
К сожалению, это только кажется, что все просто с юридическими текстами. Даже в них встречаются такие синтаксические конструкции, что понять о чем речь можно только по смыслу слов. А задача понимания смысла упирается в задачу создания ИИ. Со всеми вытекающими...

игнорирование участников | лог модерирования

Добавить комментарий

Текст: