Рубрика «яндекс» - 201

Яндекс продолжает развивать свои API-функции. И вот результат в виде нового парсера. Томита-парсер – это инструмент для извлечения структурированных данных (фактов) из текста на естественном языке. Извлечение фактов происходит при помощи контекстно-свободных грамматик и словарей ключевых слов. Парсер позволяет написать свою грамматику, добавить свои словари и запустить на текстах.

Томита-парсер позволяет по написанным пользователем шаблонам (КС-грамматикам) выделять из текста разбитые на поля цепочки слов или факты. Например, можно написать шаблоны для выделения адресов. Здесь фактом является адрес, а его полями — «название города», «название улицы», «номер дома» и т.д. Парсер включает в себя три стандартных лингвистических процессора: токенизатор (разбиение на слова), сегментатор (разбиение на предложения) и морфологический анализатор (mystem). Основные компоненты парсера: газеттир, набор КС-грамматик и множество описаний типов фактов, которые порождаются этими грамматиками в результате процедуры интерпретации.
Читать полностью »

В феврале в Санкт-Петербурге прошла вторая конференция для менеджеров проектов и руководителей групп – «План Б».

Менеджеры Яндекса и других крупных компаний поделились своим опытом, рассказали про ошибки и провалы, объяснили, почему они случаются, и посоветовали, что делать, чтобы они не повторялись.

events.yandex.ru/events/planb/spb-feb-2013/talks/ — тут выложены видео всех докладов.

Наиболее интересными мне показались Неурядицы при создании сложных проектов/сервисов, Ошибки в стартапах, Читать полностью »

Друзья, мне тут в руки попал рассказ Саши Куприна про его поездку на финал, знакомство с Яндексом, диплом и ночевки в офисе. С разрешения автора делюсь с вами!

Яндекс достаточно давно интересуется олимпиадными программистами. Будучи второкурсником, я слушал рассказы про ШАД Григория Кондакова, выступления Миши Левина. Получал футболки и брошюры на четвертьфиналах и полуфиналах чемпионата мира. Но, знаете, в то далёкое исключительно олимпиадное время совсем не волновали вопросы работы, а уж тем более дополнительного обучения. Ну, до поры, до времени.

На четвёртом курсе наша провинциальная команда (Orel STU) пробилась на финал ACM ICPC. Это был, мягко говоря, феерический успех – ведь мы никогда не срывали звёзд с неба, да и отбор был посерьёзнее, чем нынче. К нашей неугомонной радости случилась революция в Египте, которая стала причиной переноса финала из Шарм-Эль-Шейха в город Орландо солнечных штатов Америки.

А там-то и случился тот короткий разговор. Как-то вечером в chill zone мы болтали с Мишей Левиным о танцевальном агрегате, как вдруг подошёл на тот момент мне неизвестный Серёжа Чернышёв и, опознав по футболке участника финала, спросил: «В Яндекс к нам хочешь?» А чего отказываться? =)

Всё получилось как-то удивительно просто. Перекинулись парой писем. Уладили какую-то бюрократию — анкетку заполнить, даты согласовать. У меня оказался один формальный начальник и сразу несколько реальных.
Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »

Пока компьютер не начнет думать как человек, он не сможет отличить плохой сайт от хорошего… так, как это сделал бы человек. На самом деле поисковые системы имеют в своих арсеналах методики сбора и анализа данных, с помощью которых кремниевые мозги легко затыкают за пояс знатоков из мяса.

Сразу оговоримся — под «хорошим» сайтом мы имеем в виду «достойный занять место в поисковой выдаче по конкретному ключевому запросу», не будем погружаться в дебри эстетики сайтостроения.

Итак, если не вдаваться в детали, сейчас в поисковых системах комплексно применяется три подхода: ранжирование страниц по авторитетности (пример — принесший Google популярность алгоритм PageRank), поведенческие факторы (анализ действий реальных посетителей реальных сайтов) и машинное обучение (пример — «Матрикснет» Яндекса, который обучает алгоритмы оценками выборок специалистами-асессорами, ну и по сути увязывает и уравновешивает первые два подхода).

Ранжирование по авторитетности на ранних этапах развития интернета работало очень хорошо, но в дальнейшем «слишком математическая» природа такого подхода позволила оптимизаторам применять фокусы, использующие найденные в ходе экспериментов слабости системы. Качество выдачи страдало, поисковики вводили поправки, дополнительные формулы и коэффициенты, фильтры и санкции, но по-настоящему крупный прорыв был сделан, когда появилась возможность ранжировать сайты на основе предпочтений их реальных живых посетителей. Анализ поведенческих факторов объективнее любых личных пристрастий (как экспертных, так и профанных), поскольку работает с предпочтениями большой выборки целевой аудитории.
Читать полностью »

image

Компания Yandex любит выделиться. Она уже сделала Yandex Chrome Браузер. Настало время сделать Yandex Play Store, альтернативный магазин приложений для Android-устройств.Читать полностью »

Этой весной в Москве пройдёт ECIR — одна из самых значимых в мире научных конференций по информационному поиску. Её организаторами выступают Яндекс и Высшая школа экономики. Этот ECIR будет уже 35-м по счёту, но в России конференция пройдёт впервые.

ECIR 2013

С 24 по 27 марта о своих исследованиях расскажут учёные из Беркли, Лондонского университета королевы Марии, Университета китайской Академии Наук, Школы компьютерных наук Университета Глазго и других ведущих научных школ Европы, США, Южной Америки и Азии. В нашем офисе и в Digital October проведут воркшопы и прочитают доклады исследователи из таких компаний и индустриальных лабораторий, как Twitter, Yahoo! Labs, Microsoft Research, Ebay, IBM Research.
Читать полностью »

Сейчас более чем в 2/3 случаев опасные сайты заражают компьютеры пользователей, загружая в браузер вредоносные Java-апплеты. Такое заражение может происходить при регулярном обновлении браузера, в некоторых случаях – даже если используется ОС не от Microsoft. Если на компьютере нет виртуальной машина Java, заражённый сайт «заботливо» предложит установить её версию с уязвимостью, после чего повторно атакует компьютер пользователя.

Защита от вирусов, проникающих через Java приложения

Чтобы обнаруживать сайты, использующие этот способ заражения, Яндекс запустил специальный поведенческий анализатор вредоносного кода для Java-приложений. Он позволяет детектировать обфусцированный вредоносный код, который использует самые популярные на сегодняшний день уязвимости JRE. В результате с начала февраля было обнаружено более четырех тысяч зараженных сайтов, суммарная посещаемость которых до заражения достигала 1,5 млн. пользователей в сутки.
Читать полностью »

Как мы уже рассказывали на VolgaCTF2012, сейчас более чем в 2/3 случаев опасные сайты заражают компьютеры пользователей, загружая в браузер вредоносные Java-апплеты. Такое заражение может происходить при регулярном обновлении браузера, в некоторых случаях – даже если используется ОС не от Microsoft. Если на компьютере нет виртуальной машина Java, заражённый сайт «заботливо» предложит установить её версию с уязвимостью, после чего повторно атакует компьютер пользователя.Чтобы обнаруживать сайты, использующие этот способ заражения, Яндекс запустил специальный поведенческий анализатор вредоносного кода для Java-приложений. Он позволяет детектировать обфусцированный вредоносный код, который использует самые популярные на сегодняшний день уязвимости JRE. В результате с начала февраля было обнаружено более четырех тысяч зараженных сайтов, суммарная посещаемость которых до заражения достигала 1,5 млн. пользователей в сутки.

Одним из наиболее актуальных способов распространения вредоносного кода на сегодняшний день являются Java-эксплойты, которые встречаются в любом эксплойт-паке. Такая популярность обусловлена несколькими факторами:

  • использование Oracle Java более чем на 3 миллиардах компьютеров;
  • кроссплатформенность эксплойтов;
  • относительная простота эксплуатации уязвимостей;
  • в большинстве случаев Java-плагин включен в браузере.

Java-эксплойты обрели широкую популярность у злоумышленников из-за большого количества логических уязвимостей в Java. Такие уязвимости позволяют выполнить произвольный код незаметно для пользователя, потому что их использование обычно не сопровождается падением процессов браузера или виртуальной машины Java. С 2010 года злоумышленники использовали для заражения уязвимости CVE-2010–0806, CVE-2010–4452, CVE-2011–3544, CVE-2012-0500 и CVE-2012-4681, а с самого начала 2013 года стали активно использовать новую уязвимость СVE-2013-0433.

Читать полностью »

Сегодня, 25 февраля 2013 года, Яндекс запустил в работу свой магазин приложений Яндекс.Store.
Главное его отличие, в том, что оплачивать приложения можно не только банковской картой, но и со счетов своих мобильных телефонов (Для операторов Билайн, МТС, Мегафон), а так же, что все платежи и приложения проверяются антивирусом Касперского, тем самым удаляя 99% вирусного контента.

Сейчас в нем доступно уже около 50 000 приложений, в том числе и топовые приложения из Google.Play.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js