Как узнать язык?

Автоматический определитель «Guesser.ru»

Автоматический определитель «guesser» позволяет по нескольким введенным словам определить язык текста, на котором он написан.

Принцип работы Автоматического определителя языка текста «guesser» предельно прост. Если вы столкнулись с текстом на незнакомом языке, загрузите его в поле автоматического определителя языка. «Guesser» разобьет текст на слова и сравнит со списком ключевых слов из словаря автоматического определителя языка. В определении языка участвуют не все слова, например, алгоритм исключает предлоги, союзы и слова длиной менее 4х символов.

Поиск совпадений слов происходит для следующих языков: азербайджанского, албанского, английского, арабского, армянского, африкаaнса, белорусского, болгарского, боснийского, венгерского, вьетнамского, голландского, греческого, грузинского, датского, иврита, индонезийского, ирландского, испанского, исландского, итальянского, казахского, китайского, киргизского, корейского, латинского, латышского, литовского, македонского, мальтийского, монгольского, немецкого, нидерландского, норвежского, персидского, польского, португальского, русского, румынского, сербского, словацкого, словенского, суахили, тайского, таджикского, турецкого, туркменского, узбекского, украинского, урду, фарси, финского, французского, хинди, хорватского, чешского, черногорского, шведского, эстонского, эсперанто, японского.

Определение языка текста происходит с некоторой ошибкой, которая зависит от особенности языка, уникальности и количества слов загруженного текста. Частота слов в текстах неравномерна. Некоторые слова встречаются в тектах достаточно равномерно (например, предлоги), однако, частота других слов может быть неравномерной даже в пределах одного текста. К тому же, одно и то же слово может иметь варианты, количество которых иногда достигает более сотни. Поэтому результатом автоматического определения языка может являться список наиболее подходящих языков, которые были определены по загруженному тексту. Для правильного определения языка используйте не менее 70-ти символов или десяти слов текста.

Если вас не удовлетворил результат определителя языка, разработанного бюро переводов Flarus, вы можете обратиться к другим сервисам распознавания языка, например:

  • Определитель языка от Xerox
  • Language Identifier by Henrik Falck
  • Автоматический определитель языка от Translated Labs
  • Определитель от Verbix (можно скачать дистибутив для установки под Windows)

Как быстро определить язык, на котором написан текст?

Впрочем, сделать это, как правило, не сложно. Этот ответ услужливо дадут один-два символа, характерные только для данного языка, и ни для какого другого.

О языках, использующих кириллицу, мы в этой статье говорить не будем. Но у тех языков, которые пользуются латинской письменностью, для звуков, которые встречаются только в данном языке, используются уникальные символы или комбинации символов, которые помогут однозначно определить сам неизвестный язык.

Что это за символы?

Ã, ã: это почти наверняка португальский язык. Если, к тому же, язык этот похож на испанский, со 100%-й вероятностью португальский язык. Пример: São Paulo.

Ă, ă: A с «чашечкой» сверху встречается только в румынском языке и во вьетнамском. Но во вьетнамском короткие слова. Для подтверждения того, что перед вами румынский текст, поищите в нем символы Ţ / ţ и Ş / ş (T и S с запятой внизу). Бухарест, Румыния
Фото: freestocks-photos, .com

Ģ, ģ; Ķ, ķ; Ļ, ļ; Ņ, ņ: латышский язык. Только в этом языке есть четыре согласные буквы с запятыми, расположенными снизу, и это не Ţ / ţ и Ş / ş, как в румынском. Кроме того, над гласными буквами в латышском языке для обозначения его длительности ставят линию: Ā /ā, Ī / ī, Ō / ō, Ū / ū. В другом балтийском языке, литовском, длительность звуков обозначают иначе.

Ő, ő; Ű, ű: «Ежики» над этими гласными буквами — верный признак венгерского языка. Кроме того, в тексте довольно часто встречается сочетание gy для обозначения звука ДЬ. Например, самоназвание Венгрии, Magyarország, Мадьярорсаг. Заметили еще одно часто встречаемое в венгерском языке сочетание — sz? Так венгры обозначают звук С. Довольно неожиданно! Еще один признак венгерского: почти все слова непонятны, и то и дело встречаются довольно длинные слова. Например, megszentségteleníthetetlenség — эта черта не может быть осквернена.

Ř, ř: этот звук, средний между Р и Ж, существует только в чешском языке. Другая отличительная буква, встречающаяся только в чешском языке — Ů / ů. Ну, и, наконец, если то и дело встречаются слова, похожие на русские — значит, 100% чешский. Станция метро в Праге, Чехия
Фото: mh-grafik, .com

Другой славянский язык, польский, имеет уникальный звук, обозначаемый буквой Ł, ł: Łódź. Буква эта похожа на Л, но читается, как английская W — Уодзь. В польском языке слов, похожих на русские, еще больше, чем в чешском.

I, ı; İ, i: в турецком тексте вы встретите оба варианта буквы I, с точкой и без точки. Это два разных звука — Ы и И, соответственно. Столица Турции — İstanbul, Истанбул. Еще в турецком языке есть буква ğ. Она пишется, но не произносится. Например, Erdoğan — Эрдоан, а не Эрдоган.

Å, å: те, кто изучал физику, узнают эту букву. Так обозначается единица длины «ангстрём». Эта буква есть во всех скандинавских языках: норвежском, датском и шведском. Как различить эту веселую троицу? Если вы найдете в тексте еще ø и æ — это норвежский или датский. Если отыщете ö и ä — это шведский язык. Как отличить датский от норвежского? Ищите в тексте сдвоенную букву а: aa (как в фамилии известного датского философа Кьеркегора (Kierkegaard). У норвежцев нет такого звука и такого обозначения этого звука. Уличный плакат в Рейкьявике, Исландия
Фото: DCCom, .com

Есть еще два скандинавских языка — исландский и фарерский. Оба используют буквы Ð, ð; Þ, þ для обозначения звука, который в современном английском обозначается сочетанием th. Фарерский язык — достаточно редкий, так что указанные буквы почти наверняка — признак исландского. Но если хотите точности определения — в фарерском встречается буква ø, в исландском вместо нее используют ö (jökull, «ледник»).

Язык состоит из коротких слов, и почти над каждой гласной есть акцент или «чубчик»? Это вьетнамский язык. Пример из Википедии:

Hà Nội là thủ đô của nước Cộng hoà Xã hội chủ nghĩa Việt Nam và cũng là kinh đô của rất nhiều vương triều Việt cổ.

Ханой является столицей Социалистической Республики Вьетнам, а также является столицей многих древних вьетнамских династий.

Вьетнамский плакат
Фото: falco, .com

Ñ, ñ, а также перевернутые вопросительный и восклицательный знаки (¡No pasaran!) присутствуют только в испанских текстах. Если слова в тексте вроде бы испанские (или французские), но часто встречаются буквы X / x — это каталанский язык. Редчайшую в испанском букву каталонцы используют для обозначения звука Ш.

В немецком языке используются гласные буквы с умлаутами Ä / ä, Ö / ö и Ü / ü. Кроме того, в немецком тексте довольно часто встречаются длинные слова, а также артикли der, die и das. В голландском языке встречаются сдвоенные гласные буквы (их используют для обозначения длинных звуков) и «сладкая парочка» ij (читается, как «ай»)

Кельтские языки (ирландский, шотландский гэльский и валлийский) характеризуются длинными словами. В ирландском и шотландском в тексте часто встречаются двухбуквенные сочетания согласных: bh, ch, dh, fh, gh, mh, ph, sh и th. Только ирландцы и шотландцы знают, как эти сочетания произносятся. Акцентированные гласные используются в обоих языках, но только в шотландском есть акценты, направленные в левую сторону, как, например, à в Gàidhlig.

Валлийский язык сильно отличается от других кельтских «братьев». В нем много сдвоенных букв ll и ff, а буква w является гласной (например, cwm).

Угро-финские «братья» — финский и эстонский. В текстах на этих языках трудно распознать даже «международные» слова. В финском языке могут встретиться очень длинные слова, например «moottoripyöräonnettomuus» — «мотоциклетная авария». Сдвоенные гласные в этих языках — обычное дело. Уличный указатель в Таллине, Эстония
Фото: camux, .com

Как отличить текст на эстонском языке от финского текста? В эстонском языке есть слова, оканчивающиеся на b или g, а также символ õ. Ну, и конечно, если вам повезло, можно обнаружить самоназвания: у финнов Suomi, у эстонцев — Eesti.

В албанском языке используются буквы c и q, а также сочетание xh. В тексте на албанском языке можно встретить букву ë (например столица Албании Тирана пишется Tiranë). Албанский язык абсолютно не похож ни на один европейский. Самоназвание страны — Shqipëria.

Хорватский язык похож на русский еще сильнее, чем чешский и польский. В нем есть буква Đ / đ для обозначения звука «дж». Для смягчения звуков Л и Н используется буква j: Nj = Нь, Lj = Ль.

Если вы знакомы с украинским языком, то без труда прочтете почти любую надпись на словацком языке. Эти языки очень близки.

Словацкий народный театр в Братиславе
Фото: falco, .com

Вообще задача определения современного языка по небольшому отрывку текста на этом языке разрешима всегда. У каждого языка есть характерные признаки, которые позволяют это сделать. Эти особенности проанализированы в замечательном справочнике Р. С. Гиляревского и В. С. Гривнина «Определитель языков мира по письменностям» для большого числа языков. Книга эта очень полезная, хотя последнее ее издание вышло в 1965 году, поэтому кое в чем она устарела.

То, что можно свести в таблицу и классифицировать, можно и запрограммировать. Программу по автоматическому определению языка называют иногда guesser. Такая программа позволяет по введенным нескольким словам текста определить язык, на котором этот текст написан. Естественно, чем больше слов, тем точнее будет определение. Список таких программ можно найти в Интернете. Кроме того, с задачей определения языка, с которого осуществляется перевод иностранных слов, очень часто справляется и переводчик Google.

Теги: иностранный язык, иностранные слова