The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги | ]

25.01.2010 22:13  Евросоюз финансирует проект открытой системы автоматического перевода

Учреждения в Европе тратят около одного миллиарда евро в год на перевод документов c 23 официальных языков Евросоюза. Евросоюз выделил грант в 2,3 млн. евро на разработку проекта Molto по развитию систем многоязычного автоматического перевода. При успешности данного проекта Евросоюз ожидает в будущих периодах значительное сокращение затрат на переводы.

В отличие от службы онлайн-перевода Google, проект Molto (Multi-lingual Online Translation) имеет своей целью сделать перевод настолько точным, насколько это возможно. Внимание уделяется точности, а не полноте перевода. Целевыми клиентами являются компании и учреждения, которые рассчитывают на правильно переведенную информацию с веб-сайтов и других документальных источников, а не на информацию, получаемую от конечных пользователей и потребителей. Разработчики используют структуру специализированной грамматики и онтологии, реализованную с использованием открытого грамматического фреймворка (GF).

Целью данного исследовательского проекта является создание систем автоматического перевода для трех специализированных областей человеческой деятельности, как доказательство своей концепции. Опыт, накопленный в процессе разработки должен сделать создания таких систем в дальнейшем проще и быстрее. Бета-версия программного обеспечения должна быть доступна в середине этого года.

Molto будет поддерживать 23 официальных европейских языка и ряд дополнительных, среди которых присутствует и русский язык. Основная команда разработчиков находится в Болгарии, но к проекту уже присоединились разработчики из Испании, Австрии, Швеции и Финляндии. Проект планируется завершить в феврале 2013 года, большая часть разработанного программного обеспечения будет в свободном доступе под лицензией LGPL.

  1. Главная ссылка к новости (http://www.h-online.com/open/n...)
Автор новости: PGCatabras
Тип: К сведению
Ключевые слова: rus, language, translate
При перепечатке указание ссылки на opennet.ru обязательно
Обсуждение Ajax/Линейный | Раскрыть все сообщения | RSS
 
  • 1.1, ABC (??), 23:44, 25/01/2010 [ответить] [показать ветку] [···]    [к модератору]
  • +/
    Вообще-то, русский не является официальным языком ЕС. Его планируют поддерживать в числе дополнительных.
     
     
  • 2.6, pavlinux (ok), 04:20, 26/01/2010 [^] [ответить]    [к модератору]
  • –5 +/
    Если нужен газ, лес и нефть - будут.
     
     
  • 3.22, ABC (??), 17:47, 26/01/2010 [^] [ответить]    [к модератору]
  • +5 +/
    >Если нужен газ, лес и нефть - будут.

    Дадада, никакой нефти тем, кто не изучит арабский, русский, хауса и йоруба. А чтобы купить Sony Vaio надо обязательно освоить японский!

    Вам на техническом форуме действительно необходимо блеснуть глупым шовинизмом?

     
  • 2.12, Basiley (ok), 12:41, 26/01/2010 [^] [ответить]    [к модератору]
  • –2 +/
    Русский язык принят как стандартный язык межнационального общения.
    ООН и Юнэско ;)
    отсюда и катать :)
    а учитывая кол-во славян в ЕС ...
     
     
  • 3.21, ABC (??), 17:38, 26/01/2010 [^] [ответить]    [к модератору]
  • +/
    Р.я., судя потому что я прочитал, включен туда просто благодаря тому, что кто-то еще до начала проекта поработал над соответствующей библиотекой Grammar Framework.

    В контексте MOLTO, ООН никого не волнует, финансирование выделяется для снижения расходов на переводы именно в органах ЕС.

    И, кстати, в ООН нет "языков межнационального общения". Это называется "официальные языки ООН". И что б уже два раза не вставать: откройте для себя разницу между терминами "славяне" и "русскоязычные".

     
  • 1.2, Zl0 (?), 23:45, 25/01/2010 [ответить] [показать ветку] [···]    [к модератору]  
  • –1 +/
    А потом все это запихать в микрочип и вшить в мозг)) и нах все эти школы ин.языков))) Побыстрее бы.
     
     
  • 2.3, Аноним (-), 00:02, 26/01/2010 [^] [ответить]    [к модератору]  
  • +6 +/
    Пока не сдашь экзамен хотя бы по одному языку, чип не вшивать, недалёких и так хватает
     
  • 2.4, User294 (ok), 00:43, 26/01/2010 [^] [ответить]    [к модератору]  
  • +2 +/
    >А потом все это запихать в микрочип и вшить в мозг))

    Да чего мелочиться то? А может уж проще сразу "cлава роботам"? :)

     
     
  • 3.7, pavlinux (ok), 04:24, 26/01/2010 [^] [ответить]    [к модератору]  
  • +1 +/
    >>А потом все это запихать в микрочип и вшить в мозг))
    >
    >Да чего мелочиться то? А может уж проще сразу "cлава роботам"? :)
    >

    Ну конечно, как обычно у вас Землян, всё через ж..у.
    Не проще ли всем на одном языке говорить?!
    Предлагаю Русский язык в наречие посёлка Гуево, Курской области.

     
  • 1.5, Аноним (-), 01:50, 26/01/2010 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    Увлекательная разработка искусственного интеллекта такая увлекательная!
     
  • 1.8, Аноним (-), 04:48, 26/01/2010 [ответить] [показать ветку] [···]    [к модератору]  
  • +1 +/
    2,3 млн. евро - смешные копейки.
     
  • 1.9, pillar (?), 11:05, 26/01/2010 [ответить] [показать ветку] [···]    [к модератору]  
  • +2 +/
    Сомневаюсь, что такая система будет создана в ближайшие 50 лет.
     
  • 1.10, XoRe (ok), 11:44, 26/01/2010 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Имхо, официальные документы пишутся хорошо структурированным стилем.
    И сделать систему автоматического точного перевода - цель достижимая.
    А если пойти через разбор на уровне терминов и понятий, то оно может зайти очень далеко по полезности)
     
     
  • 2.11, Аноним (-), 12:38, 26/01/2010 [^] [ответить]     [к модератору]  
  • +/
    тратят около одного миллиарда евро в год на перевод документов c 23 официальных... весь текст скрыт [показать]
     
     
  • 3.13, szh (ok), 13:18, 26/01/2010 [^] [ответить]    [к модератору]  
  • +/
    чтобы правительство писало официальные документы на языке который не понимают граждане страны? да это просто "открытие" во взгляде как должно работать демократическое правительство.
     
     
  • 4.14, Аноним (-), 13:31, 26/01/2010 [^] [ответить]     [к модератору]  
  • –1 +/
    Вопрос стоит более широко, тут нельзя сделать всё сразу, рубанув с плеча нудно ... весь текст скрыт [показать]
     
     
  • 5.19, szh (ok), 16:10, 26/01/2010 [^] [ответить]    [к модератору]  
  • –1 +/
    > практика перевода необходимой тому или иному гос-ву документации на "свой" язык своими силами
    > Или считаете правильным тратить половину(!) бюджета евросоюза на переводчиков?

    денег уйдет примерно столько же, вы лишь переписать хотите с какого бюджета оплачивать.

    > о системе автоматического перевода, то осуществление оного с эсперанто на национальный язык гораздо легче и точнее, чем с одного нац-ого на другой.

    поставить всех чиновников раком ради легче и точнее ? может быть, а может и нет

     
  • 3.15, suomynona (?), 14:50, 26/01/2010 [^] [ответить]    [к модератору]  
  • +/
    > сколько раз им уже предлагали всё писать на одном языке,
    > даже подсказывали, какой лучше всего для этой цели подойдёт

    Ага, там идиоты сидят. Считать не умеют.

     
  • 1.16, const000 (??), 15:19, 26/01/2010 [ответить] [показать ветку] [···]    [к модератору]  
  • +/
    Идея не совсем к месту, но мож кто из спецов в курсе - если например в предложении сделать разбор имен и аббревиатур (их не так много, список конечен), а за этими пределами создать типа вики - если на складе есть точный перевод фразы, то подставить его, если нет, то сделать стандартный типа prompt и предложить перевести точнее и занести в правильный список. Ну и типа поиграться парами языков - например нужно с английского на немецкий, а есть только с англйского на идиш и с идиша на немецкий. Возможно еще пару простых операций, типа разбора сложноподчиненных предложений на группу простых (хотя это уже сильно к конкретному языку привязано). Такое никто не пытался делать?
     
     
  • 2.17, Medved (??), 15:23, 26/01/2010 [^] [ответить]    [к модератору]  
  • +1 +/
    Перевод фразы сильно зависит от контекста из которого эта фраза взята. Так что такие таблицы были бы просто бесполезны.
     
     
  • 3.18, const000 (??), 15:33, 26/01/2010 [^] [ответить]    [к модератору]  
  • +/
    >Перевод фразы сильно зависит от контекста из которого эта фраза взята. Так
    >что такие таблицы были бы просто бесполезны.

    Да, но анализ контекста требует интеллекта и преложения данных через призму восприятия этого интеллектуального нечто ;) О таком говорить не приходится, во всяком случае пока. А вот автопереводчики на мой взгляд страдают как раз манией разобраться в структуре фразы и потому переводят вообще непойми что, хотя в подавляющем большинстве случаев стандартное предложений подразумевает конечный и очень узкий набор понятий их взаимосвязей однозначно имеющий отражение в любом другом достаточно развитом языке (я не говорю про поэзию и "междустрочные" значения). Так вот таких стандартных предложений и можно накидать в базу. По примерным прикидкам процентов 80 технического текста так переведется.

     
  • 2.23, HardNik (?), 21:22, 26/01/2010 [^] [ответить]    [к модератору]  
  • +/
    Местами, слегка, я являюсь специалистом по компьютерной лингвистике, и последний год занимаюсь именно машинным переводом.Всё очень плохо начиная с морфологии, синтаксис - это в настоящее время куча костылей, с семантикой ..., впрочем, сходите на http://aot.ru - гляньте на исходники (LGPL), вам точно поплохеет.    Да, заметили вы верно, все технологии Промта пролетают с тупой числодробилкой кластеров гугла. Только это, лишь подтверждает тезис о том, что теория отстала от техники как вирус от млекопитающегося. Лет 50 - это, конечно, много, но 10 - минимум для какого-либо прорыва.
      По поводу простых решений - очень вас огорчу. Европейские языки это и венгерский(вспомнит е причины созданияя huspell) и болгарский, который вовсе не славянско-балтийский по синтаксису. Собственно, германские языки - миф, ведь английский типично корневой а немецкий типичный флективный.


     
     
  • 3.24, PSV (?), 15:13, 27/01/2010 [^] [ответить]    [к модератору]  
  • +/
    Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный подход окажется столь слабым и неэффективным для перевода с языка на язык?
     
     
  • 4.25, Аноним (-), 21:16, 27/01/2010 [^] [ответить]     [к модератору]  
  • +/
    Ваше заблуждение понятно, но боюсь, это очень разные, не пересекающиеся области ... весь текст скрыт [показать]
     
  • 4.26, HardNik (?), 02:01, 28/01/2010 [^] [ответить]    [к модератору]  
  • +/
    >Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный
    >подход окажется столь слабым и неэффективным для перевода с языка на
    >язык?

    К сожалению, перлы на перле - детский лепет, по сравнению с фокусами,результатами контекстной зависимости естественных языков.
    В русском яязыке 200 000 базовых словоформ, 3 000 000 производных, и 5 200 000 семантических единиц из этих словоформ. Средняя длина предложения 10 слов, средняя длина слова 5 символов(цифра странная, но если учесть кол-во одно-двух-буквенных предлогов и союзов, объяснимая) . Непроективность русского языка (я памятник себе воздвиг нерукотворный;памятник  я себе воздвиг нерукотворный;памятник я воздвиг себе нерукотворный;памятник я  воздвиг нерукотворный себе; и тд) позволяет тупо дать оценку для разбора 70% предложений, как число упорядоченных сочетаний по 10 из 5200000 ~= 2E12, только для хранения базы потребуется 2байт* 10слов * 5букв * 2Е12= более 100 000 терабайт. И это для одного языка и попадание  только 70%.
    Так что на свой вопрос можете ответить сами.

     
     
  • 5.27, PSV (?), 10:29, 28/01/2010 [^] [ответить]    [к модератору]  
  • +/
    Это напоминает мне вероятностный расчёт невозможности появления жизни на земле. Там просто берется и рассчитывается вероятность повторения среднего фермента "аминокислота к аминокислоте". Естественно это неправильно, поскольку фермент работает (не всегда даже снижая свою эффективность) и при отклонениях в последовательности аминокислот его составляющих, главное что бы активный центр остался с точки зрения участников реакции тем же.

    Столько сколько Вы подсчитали по объему, столько просто не существует текстов, и вполне возможно, даже не было произнесено вообще за всю историю конкретного языка.

    В Вашем примере достаточно заменить предложение на предложение из предлогов-местоимений-глаголов и подставленных абстрактных "существительных" и "прилагательных". А для Существительных и Глаголов завести таблицу частоты совместной встречи в одном предложении и в соседнем.

    Число комбинаций сократится существенно.

    А если еще не пытаться генерировать все возможные порядки слов, а посмотреть на базе реально существующих текстов, то и получится тот самый статистический способ перевода :)

     
  • 5.28, XoRe (ok), 15:37, 28/01/2010 [^] [ответить]    [к модератору]  
  • +/
    Интересна ваша точка зрения на такой способ.
    Сначала разпарсить фразу, разбить на понятия.
    Например:
    Поставщик обязуется поставлять в соответствии с условиями настоящего Договора товар, наименование, количество и цена которого указаны в Приложениях к настоящему Договору (далее по тексту – «Товар»), а Покупатель обязуется принимать и оплачивать Товар на условиях, указанных в настоящем Договоре.

    Разделить на "Поставщик", "обязуется поставлять", "в соответствии с условиями настоящего Договора", "указаны в Приложениях" и т.д.

    Распарсить в некоторую структуру.
    А потом из неё создавать текст на нужном языке.
    Я говорю только про юридические документы - они вроде как неплохо структуризированы, плюс используется конечное количество понятий.
    Правда, я догадываюсь про объем работ)

     
     
  • 6.29, PSV (?), 16:04, 28/01/2010 [^] [ответить]    [к модератору]  
  • +/

    >Распарсить в некоторую структуру.

    так это уже другая задача :) имеющая впрочем место :)

     
  • 6.30, Аноним (-), 18:17, 28/01/2010 [^] [ответить]     [к модератору]  
  • +/
    К сожалению, это только кажется, что все просто с юридическими текстами Даже в ... весь текст скрыт [показать]
     

     Добавить комментарий
    Имя:
    E-Mail:
    Заголовок:
    Текст:


      Закладки на сайте
      Проследить за страницей
    Created 1996-2018 by Maxim Chirkov  
    ДобавитьПоддержатьВебмастеруГИД  
    Hosting by Ihor