Рубрика «Семантика» - 3

image

Привет!

Заметил, что многие не знают, как работать с трендами в интернете.

И тем более, не знают о существовании бесплатного сервиса, решающего эту проблему- Google Trends

Сервис поможет узнать, что волнует ваших клиентов сегодня, интересен ли ваш товар рынку, какая у него сезонность, в каком регионе наибольший интерес к товару и вашему конкуренту?

Статья будет полезна специалистам, ранее не работавшим с сервисом.
Читать полностью »

Здравствуйте, меня зовут… Человек. Число рук равно 2. Число ног равно 2. Группа крови равна 1. Резус равен истине.

Вам может показаться, что лишь по этой информации, без имени, фамилии и даже никнейма меня сложно отличить от множества других авторов статей. И будете правы. Однако, во фронтенде я часто вижу, как имя элемента заменяется его описанием. И это никого не волнует.

Три мужика и девочка

Присаживайтесь поудобнее, впереди вас ждёт увлекательное путешествие по серьёзным проблемам серьёзных проектов, которые, тем не менее, зачастую недооценивают.

Читать полностью »

Все мы участвовали в опросах, онлайн или в реальной жизни. А когда начинаем новый проект, то без опросов не обойтись. Но иногда есть результаты опросов, с которыми непонятно что делать, кроме как улыбнуться, ниже, на картинке, результат опроса Всероссийского центра изучения общественного мнения (ВЦИОМ).
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных - 1
Полюбопытствовал как сейчас используют вопросы с качественными оценками и обнаружил, что ВЦИОМ, ФОМ, Левада-Центр используют, в основном, трехдиапазонную шкалу (плохо/норма/хорошо). В случаях более детальных вопросов, шкала увеличивается до 5-6 единиц, но редко.
Как сравнить: «изумительный авто» и «уродливый барак», в маркетинговом опросе и в больших данных - 2
Тогда, на сегодняшний день, складывается ситуация, в которой социологи уходят от многоуровневой шкалы качественных оценок и стараются использовать трехуровневую. И если социология умеет из этого выворачиваться, то при анализе приличных объемов данных, необходимость использования качественных оценок становится усложняющим фактором и снижает надежность результатов. Так как разграничить, например, понятия: «прекрасная квартира» и «отличное жилье» практически невозможно, а с учетом ответа, одного из персонажей «Двенадцати стульев»: «Кому и кобыла невеста», многопересекаемость качеств выходит за разумные пределы.
Читать полностью »

В последние годы все чаще говорят о Trello, как о прекрасном инструменте для организации и планирования. В нашей компании мы вот уже 3 года используем Trello для планирования многих процессов, начиная с отпусков, командировок и согласования договоров и заканчивая управлением проектами.

К сожалению, не все так прекрасно в Trello. На нем нельзя сделать кастомный workflow. То есть нам нужно занять одного сотрудника, который будет в различных досках перетаскивать карточки руками. Как же сделать так, чтобы этого сотрудника можно было перевести на другую, более интересную и творческую работу?

Конечно, скажете вы, можно написать скрипт, который будет делать все это за нас. Но тут возникает проблема. Скрипт может написать только программист или человек, который понимает, как это делать. Поддерживать скрипт придется ему же. Мы нашли более простое и логичное решение — это семантическое моделирование.

Семантическое моделирование позволяет всю логику работы доски в Trello записать на естественном языке.
Читать полностью »

Semantic Web и Linked Data подобны ближнему космосу: жизни там нет. Чтобы отправиться туда на более-менее длительный срок… ну, не знаю, что говорили вам в детстве в ответ на «хочу стать космонавтом». Но понаблюдать за происходящим можно и находясь на Земле; стать астрономом-любителем или даже профессионалом гораздо проще.

В статье речь пойдет о свежих, не старее нескольких месяцев, трендах из мира RDF-хранилищ. Метафора в первом абзаце была навеяна эпических размеров рекламной картинкой под катом.

Читать полностью »

image

Многие люди не знают, как работать с трендами в интернете, где их искать. Перед тем, как начинать бизнес не знают, где посмотреть будет ли этот бизнес вообще популярен и нужен ли он. Поэтому напишу полный туториал, чтобы закрыть все вопросы по этой тематике.

Работать мы будем со специальным сервисом по сбору поисковых запросов пользователей Яндекса Вордстатом, интерфейс которого довольно прост и понятен:

image

В начале, по традиции, поставлю цели:

  • Понять весь функционал и научиться работать с Вордстатом;
  • Как правильно собирать семантику с максимальной релевантностью и CTR >50%;
  • Так как мы на Хабре, поработаем с API Wordstat напрямую.

Читать полностью »

Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где не любят зачёркнутый текст.

Так сложно найти, легко пропустить и невозможно оформить - 1

Источник изображения:Fandom.com

Читать полностью »

Открытая семантика русского языка, об истории создания которой вы можете прочитать здесь и здесь, получила большое обновление. Мы собрали достаточное количество данных, чтобы применить поверх собранной разметки машинное обучение и построить семантическую модель языка. Что из этого получилось смотрите под катом.

Новогодний датасет 2018: открытая семантика русского языка - 1
Читать полностью »

Всем привет!

Несмотря на диковинность и некоторую отвлеченность рассматриваемой сегодня темы — надеемся, что она сможет разнообразить вам выходные. В конце поста помещаем три ссылки от автора, позволяющие познакомиться с зависимой типизацией в Idris, F# и JavaScript
Читать полностью »

image

Byte-code “Tsifor” for any language as number of stem and number of grammatical form for man-machine interface and corpus linguistics

Дмитрий Тюрин (Dmitry Turin), vk.com/dima.turin, dima.turin@qq.com, dima.turin@gmail.com

Прочитана лекция (youtu.be/gl89IIvpgCg) на 6-м Фестивале языков в Великом Новгороде.

Ключевые слова: ЧМИ, машинный перевод, текстовый поиск, полнотекстовый поиск.

Аннотация: Машины мыслят идентификаторами, и ЧМИ требует назначить их основам слов и грамматическим формам, а в сообщениях указывать только числа. Форма слова задаются шестью «зубцами»: предлогом, префиксом, трансфиксом, постфиксом, послелогом, катализатором (последний стоит в любой части предложения). Изолирующие, аналитические и синтетические языки отличаются только тем, какие применяют зубцы. Инкорпорирующие и неинкорпорирующие, с левым или с правым ветвлением – только «лакуной»: между какими соседними зубцами главного слова стоит основа зависимого (и в каком порядке идут зубцы главного и зависимого слов, разных зависимых частей речи при одной главной, однородных членов). Таким образом перенумеровав основы слов и «расчёски» (композиции зубцов), заменяем каждое слово на два идентификатора. Языки разнятся также тем, какими граммемами обмениваются существительное, числительное и счетное слово – «блендингом», а также кто из них принимает константные грамматические формы и какие. Свойства языка – номер используемой лакуны, порядки зубцов, подробности блендинга, копируемые граммемы при вершинном и двойном маркировании и т.д. – выносятся из сообщений в специальные таблицы в операционной системе.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js