Архив за 03 сентября 2012

Электронный словарь сегодня стал одним из основных инструментов переводчика, наряду с браузером, оцифрованными справочниками и базами соответствий (последнее важно в основном лишь для переводчиков нехудожественных текстов).

Среди электронных словарей ABBY Lingvo отличается одной ключевой особенностью: полнотекстовым поиском с индексацией. Что-то похожее можно реализовать при помощи индексов в Adobe Acrobat, но удобство интерфейсов именно в словарной области не подлежит сравнению.

ABBY Lingvo давно уже превратился из обычного словаря в универсальный агрегатор источников. Вдобавок к титанической работе фирмы-создателя, энтузиастами оцифрованы в формат Lingvo сотни пособий, в том числе и основные двуязычные, и огромные многотомные толковые словари серий Cambridge, Collins, Longman, Merriam-Webster, Oxford, и энциклопедические словари вроде Британики. Созданы локальные копии сетевых гигантов (Википедий, Викисловарей, Urban Dictionary и так далее). И при обычном использовании это предоставляло бы исключительные возможности. Но при полнотекстовом поиске всё это богатство превращается ещё и в языковые корпусы и базы соответствий. Значение такого поиска при переводах сложных терминов, устойчивых словосочетаний, фразеологизмов трудно переоценить.

С каждым выпуском ABBY расширяет допустимые границы компилируемых словарей и поисковых индексов. Уже сейчас можно скомпилировать словарь размером почти в 2 гигабайта исходного текста. Однако при подключении большого количества словарей индекс разрастается. И сами словари на диске, и поисковый пользовательский индекс также могут достигать гигабайтных размеров. При этом полнотекстовый поиск замедляется, на него начинает влиять скорость работы винчестеров. Эпоха развития SSD может помочь в решении этой проблемы, но пока эти механизмы ещё не используются повсеместно из-за большей цены и меньшей износоустойчивости. К счастью, есть способ, по приросту скорости выигрывающий даже у SSD. Читать полностью »

Базовая станция 4G LTE на обычном ПК

Один из самых феноменальных программистов Фабрис Беллар (Fabrice Bellard) продолжает создавать фантастические проекты. Автор LZEXE, QEMU, FFmpeg и эмулятора Linux PC на Javascript выпустил новый шедевр.

LTEENB – LTE Base Station Software: это софтверный эмулятор базовой станции 4G LTE на обычном ПК, с использованием доступного радиооборудования. Фабрис говорит, что теперь базовую станцию LTE можно поднять и использовать как обычный хотспот WiFi.
Читать полностью »

Прошлая статья привлекла большой интерес. И даже, на некоторое время, стала лучшей за 24 часа. У меня появилось несколько идей и на часть вопросов в комментариях нужно ответить более развернуто.
image

Читать полностью »

В этом посте рассказывается о созданной в форме кикстартеровского проекта системе мониторинга качества московского воздуха vozduh.msk.ru. Сначала будет несколько слов о том, почему воздух интересно мониторить и почему для этого недостаточно существующих систем. Потом будет рассказ о сборе средств на проект (с цифрами). Потом будет рассказ об архитектуре системы, её характеристиках, сильных сторонах и ограничениях.

От берёзы до arduino

Система мониторинга качества московского воздуха

26 апреля 2012 года Москву накрыло плотное желто-зелёное облако. Вместе с облаком поползли слухи о каком-то якобы взорвавшемся заводе по производству удобрений. Но скоро стало ясно, что для конспирологии места нет: этой весной случилось уникально бурное цветение берёзы. Зелёное облако состояло из пыльцы. Друзья-аллергики сидели дома, плотно закрыв створки стеклопакетов.

Но даже без злосчастной берёзы московский воздух обычно отнюдь не горной чистоты. Многие возвращающиеся из отпуска жалуются на характерное состояние, напоминающее лёгкую степень отравления.

Нам было известно два источника данных по загрязнению воздуха в городе.

  1. Мосэкомониторинг. Измеряет содержание двуокиси серы, двуокиси азота и других газов. Эта система не мониторит (или не публикует) точные данные по загрязнению воздуха твердыми частицами (пылью, дымом, пыльцой растений)
  2. Сайт производителя противоаллергенного препарата. Эти данные не учитывают пыль и дым, а также не оперативны, запаздывание достигает нескольких дней.

Судя по данным мосэкомониторинга, концентрация примесей газов-загрязнителей в московском воздухе обычно находится на премлемом уровне. Т.е. бывает всякое (особенно в районе Автозаводской), но в целом, судя по этим данным, наш воздух примерно такой же, как и в других мегаполисах. Значит есть другие действующие факторы, оказывающие существенное влияние на здоровье людей.

Как мониторится воздух на западе

В мире широко используется интегральный показатель качества воздуха под названием AQI (Air Quality Index). Он учитывает загрязнение воздуха озоном, угарным газом, двуокисью серы, двуокисью азота и твердыми частицами. У нас AQI не публикуется, и насколько я понимаю, полных данных для его вычисления нет.

Помимо сети государственных пунктов мониторинга качества воздуха на западе широко развита практика частного, гражданского мониторинга. Наверное самый известный проект в рамках этой активности — «яйцо качества воздуха», Air quality egg.

Возникла гипотеза: важный вклад в качество воздуха вносит «невидимая» мосэкомониторингом пыль.
Читать полностью »

в 20:13, , рубрики: phar, yii, yii framework, метки: ,

Как только узнав о исполняемых PHP-архивах phar, сразу же захотелось попробовать их. Разработчиками да и на хабре было все это добро довольно неплохо разрекламировано. Была информация о том что использование архивов +APC даёт прирост производительность в 6 раз.Читать полностью »

в 19:48, , рубрики: Алгоритмы

АВЛ деревья Если в одном из моих прошлых постов речь шла о довольно современном подходе к построению сбалансированных деревьев поиска, то этот пост посвящен реализации АВЛ-деревьев — наверное, самого первого вида сбалансированных двоичных деревьев поиска, придуманных еще в 1962 году нашими (тогда советскими) учеными Адельсон-Вельским и Ландисом. В сети можно найти много реализаций АВЛ-деревьев (например, тут), но все, что лично я видел, не внушает особенного оптимизма, особенно, если пытаешься разобраться во всем с нуля. Везде утверждается, что АВЛ-деревья проще красно-черных деревьев, но глядя на прилагаемый к этому код, начинаешь сомневаться в данном утверждении. Собственно, желание объяснить на пальцах, как устроены АВЛ-деревья, и послужило мотивацией к написанию данного поста. Изложение иллюстрируется кодом на С++.

Читать полностью »

Researchers Expose Locations of Pirate Bay Uploaders

(источник)
В рамках научного исследования была опубликована информация об отдельных людях и группах лиц, загружавших торрент-файлы на The Pirate Bay. Данные показывают, что большинство торрент-файлов были загружены с территории США (в большинстве случаев айпишники вели к интернет-провайдерам Comcast и Road Runner). Исследователи также заявили, что выявили «top 100»-аплоадеров и их приблизительное местонахождение.
Читать полностью »

Researchers Expose Locations of Pirate Bay Uploaders

(источник)
В рамках научного исследования была опубликована информация об отдельных людях и группах лиц, загружавших торрент-файлы на The Pirate Bay. Данные показывают, что большинство торрент-файлов были загружены с территории США (в большинстве случаев айпишники вели к интернет-провайдерам Comcast и Road Runner). Исследователи также заявили, что выявили «top 100»-аплоудеров и их приблизительное местонахождение.
Читать полностью »

В жизни многих обитателей софтверной индустрии иногда настаёт момент, когда им приходится нарисовать план проекта. Люди, что-то слышавшие об управлении проектами, читавшие книжки на эту тему (особенно книжки, не описывающие конкретную индустрию), а также учившиеся управлению проектами где-либо (в ВУЗе, на курсах и т.п.) чаще всего автоматически выбирают для создания этого плана Microsoft Project. Иногда использование MS Project навязывается руководством, клиентом, процессными стандартами в компании и т.п.

Для софтверных проектов выбор MS Project обычно крайне неудачен и ниже мы объясним почему, но сначала напомним несколько простых фактов о том, как устроены софтверные проекты, особенно в контексте заказной разработки.
Читать полностью »

Стив Хаффман, один из создателей Reddit, рассказал на презентации, чему они научились, пока строили и развивали Reddit до 7,5 млн пользователей в месяц, 270 миллионов просмотров страниц в месяц и более 20 серверов баз данных.

Стив уточнил, что большинство полученных уроков были очевидными, поэтому в презентации не будет радикально новых идей. Но у Стива огромный опыт, и если он не смог увидеть эти грабли, то возможно, вам стоит обратить внимание на эти «очевидные вещи».

Каждый из 7 уроков будет рассмотрен в соответствующей секции.

  • Падайте часто
  • Разделение сервисов
  • Открытая схема данных
  • Избегайте хранения состояний
  • Memcache
  • Сохраняйте избыточные данные
  • Имейте возможность работать оффлайн

Читать полностью »