Рубрика «язык»

Нейросеть DALL-E 2 создала собственный язык: правда, не совсем, и совсем не? - 1


1 июня 2022 года вышла статья Янниса Дараса и Александроса Димакиса из Техасского университета в Остине, названная «Открытие скрытого словарного запаса DALLE-2» (Discovering the Hidden Vocabulary of DALLE-2). Она произвела небольшой фурор в сети, заполнившейся заголовками «нейросеть создала свой язык!» — но, увы, не вполне заслуженно.

Для начала — пару слов о том, что из себя представляют генераторы изображений серии DALL-E вообще, и DALLE-2 в частности. Точнее, DALL·E 2 (через точку и пробел). Так называется выпущенная в начале апреля в ограниченный доступ — нейросеть, позволяющая генерировать изображения по запросам на английском языке. Как и первую DALL·E, её создала американская компания OpenAI, связанная с Илоном Маском и занимающаяся разработками в сфере нейросетей и самообучающегося искусственного интеллекта. Читать полностью »

Вернёмся к вопросу о компьютерах. Вопроса, что следует считать первым (или не совсем) компьютером, мы успели коснуться в статье про разностную машину Бэббиджа. А там, где есть первый компьютер, есть и первый программист. И кто же был этим супергероем, чинящим всё — от холодильника до лыж? А ответ, между тем, лежит недалеко от механического зверя Чарльза Бэббиджа, и в какой-то мере даже с ним связан. Итак, на сцену выходит леди Августа Ада Кинг Байрон, графиня Лавлейс!

image
Мать вычислений, бесподобная леди Лавлейс
Читать полностью »

Значение и загадочная история происхождения слова «религия»: расследование - 1


Неожиданно для меня, происхождение слова «религия» оказалось настоящей загадкой. Сперва всё было как будто бы просто: Google выдал родословное древо слова religion по первому же запросу. Оказалось, что корнями «религия» уходит в латинский глагол religare.

Латинский глагол religare означает «связывать», «воссоединять». В русской Википедии написано, что religare используется в смысле восстановления разорванной связи между человеком и Богом, ощущении некой связи со всем бытием, имеющим системность и организованность.

Во-первых, объяснение про связь с богом ничего не объясняет — даже если бы это было так, то каким образом это превратилось в дальнейшем в «религию» в современном значении?

Во-вторых, там же написано, что «religio (лат.) – совестливость, добросовестность, благочестие» — всё бы ничего, только это перевод не с латыни, а с древнефранцузского.

Расследование того, откуда на самом возникло слово «религия» в современном значении, уводит более чем на две тысячи лет в прошлое и обнаруживает столкновение двух совершенно разных версий двух значимых древнеримских мыслителей — известного ритора Цицерона и известного богослова Лактанция.
Читать полностью »

Моя маленькая помощь малым языкам - 1

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Это мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат.Читать полностью »

Я расскажу о том, как изучать иностранный язык и буду это делать на примере личного опыта изучения английского языка. Английский я начал учить в 36 лет, а уже сейчас у меня свободный английский язык (как письменный, так и устный), подтверждённый официальными сертификатами. Чтобы не быть голословным: у меня есть сертификат IELTS 7.5 баллов (это С1 level) и сертификат переводчика NAATI. Короче, я знаю о чем говорю.

Оглавление:

  1. Отступление про умных людей и прочих полиглотов
  2. Первый шаг
  3. Какой преподаватель нужен (уровень преподавателя)
  4. Где искать преподавателя
  5. Развитие навыков: слушание
  6. Развитие навыков: чтение
  7. Развитие навыков: письмо
  8. Развитие навыков: разговор: произношение
  9. Развитие навыков: разговор: языковой барьер
  10. Словарный запас
  11. Самое главное

Как выучить иностранный язык - 1

Итак, вопрос: “Как выучить английский язык?”.Читать полностью »

Ломаем игру на память: целый детектив - 1

Эта игра не давала нам покоя несколько месяцев. Правила очень простые: надо выкладывать карточки с картинками и придумывать сказку. Потом вспомнить её.

Простая штука на запоминание, подумали мы. Сто раз в такое играли, и всё наше образование просто вопит, что сейчас будет просто.

Три месяца. Три долбанных месяца прошло, прежде чем мы почти научились выигрывать. По пути нам пришлось поднять переводы «Войны и мира» и вообще узнать много нового о длине слов в разных языках. Заодно дошли до психолингвистов. И решили для себя давний вопрос про длину сообщения в русском и английском.

Спойлер: русский язык в среднем (на длинных фразах) не длиннее английского. И вообще все языки примерно одинаковы по скорости передачи информации — по крайней мере, так нам сказали в РАН. Но сразу сказали, что цитировать их нельзя, потому что исследования нет, и где-то рядом ходит РЕН-ТВ. Тут очень кстати пришёлся релиз английской версии Хабра с переводами — так мы быстро нашли базу эквивалентов.

Но давайте с самого начала.
Читать полностью »

image

Люди с техническим складом ума во всем стремятся найти систему. При изучении английского, столь востребованного в IT, многие программисты сталкиваются с тем, что не могут понять, как устроен этот язык, его систему.

“Кто виноват?”

В чем же проблема? Казалось бы, программист, частенько владеющий несколькими формальным языками программирования, или сисадмин, играючи управляющийся со сложнейшими системами, без труда должны были бы освоить столь несложный язык, как английский.

К сожалению, в общепринятой практике изучения английского языка не все так просто. Обучают языку и пишут пособия гуманитарии с иным, чем у технических специалистов, складом ума. Условно создателей представленных на сегодняшнем рынке программ и пособий по изучению английского можно разделить на две категории:
Читать полностью »

Космический язык, ч. 1: универсальна ли универсальная грамматика? - 1

Глаза осьминога демонстрируют явление конвергентной эволюции – намёк на возможность того, что структура языка инопланетян может оказаться похожей на нашу

Симпозиум METI

Симпозиум

Как бы вы составили сообщение для разумных существ с другой планеты? Им не был бы знаком ни один из языков человечества. Их «речь» может отличаться от нашей так же, как жутковатые крики китов или мерцающие огоньки светлячков. У их культурной и научной истории был бы свой собственный путь. Даже их разум может работать не так, как наш. Будет ли глубинная структура языка, так называемая "универсальная грамматика", у инопланетян такой же, как у нас? Группа лингвистов и других учёных собралась 26 мая 2018 года, чтобы обсудить сложные проблемы разработки сообщения, которое смогли бы понять внеземные существа. Появляется всё больше надежд на то, что среди миллиардов обитаемых планет, которые, как мы теперь считаем, существуют в нашей Галактике, найдутся такие существа. Этот симпозиум, названный «Язык в космосе» [Language in the Cosmos], был организован инициативой METI International. Он проходил в рамках Международной конференции по разработке космоса в Лос-Анджелесе, организованной Национальным космическим обществом. Председателем был доктор Шерри Уэллс-Дженсен, лингвист из Университета Боулинг-грин-стэйт в Огайо.
Читать полностью »

Как двусмысленность в языке может привести к появлению уникальных табу

Располагает ли китайский язык к суевериям? - 1

Каждый год больше миллиарда человек по всему миру празднуют Китайский новый год и занимаются незаметными лингвистическими танцами с удачей. Их можно представить себе в виде набора праздничных ритуалов, напоминающих ухаживание. Чтобы привлечь удачу в их жизни, они могут украшать дома и двери бумажными вырезками счастливых слов или фраз. Люди, которым нужно подстричься, стремятся сделать это до Нового года, поскольку слово «волосы» (фа) звучит похоже на слово «процветание» – а кому надо отрезать процветание, если даже вам надо просто подровнять? В праздничном меню часто присутствуют рыба, поскольку её название (ю) звучит, как слово «излишек»; водоросли фэт чой, поскольку на кантонском диалекте это звучит как «богатей»; апельсины, поскольку в определённых регионах их название звучит, как «удача».

Англоязычные [и русскоязычные] читатели способны оценить хорошую игру слов, и обыгрывание омофонов (слов, звучащих одинаково, но имеющих разное значение) – один из приёмов создания хорошей рекламы. Но китайские традиции возводят игру слов на новый уровень – такой, который глубоко уходит в корни культуры, в которой удачи упорно добиваются при помощи позитивных слов и дел, а неудачу отталкивают, устраняя негативное. Число «четыре» запятнано омофонией со словом «смерть» – многие китайцы никогда не купят дом с адресом, содержащим 4. В графическом дизайне часто встречаются рыбы и летучие мыши, потому что они звучат так же, как слова «изобилие» и «удача». Традиции дарения подарков преисполнены омофонных табу; можно дарить яблоки, потому что они звучат, как «мир», но не груши, потому что их название похоже на «разлуку». То, почему определённые объекты или числа считаются счастливыми или несчастливыми часто объясняется как само собой разумеющееся явление, происходящего из-за похожим образом звучащих слов.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js