Рубрика «python» - 322

UCS2 или UCS4? — pyodbc и работа с utf16 данными в MSSQL

2012-07-20 в 6:51, admin, рубрики: linux, odbc, python, virtualenv, Песочница, метки: linux, odbc, python, virtualenv

Проблема

Для работы с базой данных MSSQL Server 2005 в кодировке UTF-16(UCS2) я использую скрипт, написанный на python. Этот скрипт использует для работы с базой данных следующий набор инструментов:

unixODBC
FreeTDS
pyodbc
sqlachemy

И тут появилась трудность: при получении строковых данных из базы (поля nvarchar, ntext) неправильно обрабатывается юникод.
Как выяснилось, установленный у меня питон был собран с UCS4 юникодом. Методы получения типа юникода в сборка python хорошо описаны в данном вопросе на stackoverflow. Т.е, если выполнить следующую строчку в терминале:

python -c "import sys;print 'UCS4' if sys.maxunicode > 65536 else 'UCS2'"

то мы получаем версию сборки юникода для python.В моем случае это было UCS4. Что это за собой тянет:

unixODBC вызывая соответствующие функции работы с базой данных с аппендиксом W (например, SQLExecDirectW()), получает результаты. в которых один символ текста занимает 2 байта(UCS2)
pyodbc получает результаты от ODBC-драйвера, и в свою очередь сохраняет результаты в переменную с типом unicode
Таким образом 1 символ результата, по мнению pyodbc, составляет 4 байта(UCS4). Именно так и сохраняется результат. полученный из ODBC-драйвера.

Драйвер возвращает данные, в которых символ занимает 2 байта, а pyodbc переделывает эти данные так, что символ занимает 4 байта. Все бы хорошо, если бы было какое-либо преобразование, но данные просто сохраняются как массив байтов в переменную с типом unicode, что несет неприятные последствия: символ результата по-сути содержит 2 символа того результата, который вернул ODBC-драйвер.
Читать полностью »

Откуда тормоза в ORM?

2012-07-18 в 16:10, admin, рубрики: django, orm, python, высокая производительность, производительность, метки: Django, orm, python, производительность

Анализ некоторых python ORM на непроизводительные расходы

Введение

При разработке приложения на python django, я столкнулся с его неадекватным торможением.
После нескольких попыток улучшить довольно сложные алгоритмы расчетов, я обратил внимание, что существенные улучшения этих алгоритмов приводили к весьма скромному результату — из чего я сделал вывод, что узкое место вовсе не в алгоритмах.

Последующий анализ показал, что действительно, основным непроизводительным потребителем ресурсов процессора оказался django ORM, который был использован для доступа к данным, необходимым при расчетах.Читать полностью »

Префиксные деревья в Python

2012-07-17 в 11:24, admin, рубрики: python, python3, trie, структуры данных, метки: python, python3, trie, структуры данных

Доделал на днях питонью библиотеку datrie, реализующую префиксное дерево (см. википедию или хабр), спешу поделиться.

Если вкратце, то можно считать, что datrie.Trie — это замена стандартному питоньему dict, которая при определенных условиях (ключи — строки) занимает меньше памяти, имеет сравнимую скорость получения отдельного элемента и поддерживает дополнительные операции (получение всех префиксов данной строки, получение всех строк, начинающихся с данной строки и др.), которые работают примерно так же быстро, как и «словарные» операции.

Работает под Python 2.6-3.3, поддерживает юникод, лицензия LGPL.

Читать полностью »

Ответы на вопросы с PyObject. Часть 2

2012-07-15 в 13:43, admin, рубрики: python, метки: python

Всем привет.
Это продолжение ответов на вопросы и задания по Python с сайта pyobject.ru.
Читать полностью »

Прогнозирование событий и Data Mining — вперед в будущее

2012-07-14 в 14:38, admin, рубрики: Business Intelligence, data mining, OSINT, python, Блог компании «Group-IB», метки: Business Intelligence, OSINT

В Сети появился интересный сервис мониторинга информации по открытым источникам — Recorded Future.

Он позволяет аккумулировать информацию из более чем 150 000 различных СМИ с возможностью хранения архива до 5 лет с возможностью последующего анализа и извлечения знаний о возможных последствиях произошедшего и будущих событиях.

Автором сервиса является Chris Holden, любезно предложивший нам воспользоваться Recorded Future без внесения оплаты, хотя полный функционал доступен только на коммерческой основе.

Например, сейчас сервис осуществляет непрерывный мониторинг более 8 000 политических лидеров различных государств мира, позволяя отслеживать куда и зачем поедет какой-либо известный деятель. Порой, хорошая аналитика этих событий позволяет установить взаимосвязи в международных отношениях и спрогнозировать наиболее вероятные модели их развития путем анализа истории путешествий выбранного деятеля.

Наиболее интересные кейсы, демонстрирующие возможности системы, отражены на следующих прикладных примерах:

— отслеживание возникающих киберугроз и действий хакеров в мире
— анализ содержимого писем из круга приближенных Усамы Бин-Ладена
— анализ протестной активности
— анализ выборов в Греции и Египте
Читать полностью »

Реализация кеша с ограничением по числу элементов на Python — два решения: простое и посложнее

2012-07-13 в 13:35, admin, рубрики: python, Песочница, метки: python

Формулировка задачи

Предположим, что у нас есть необходимость иметь некий сервис, который бы отдавал нам по запросу какую-либо информацию, и отдавал как можно быстрее. Что для этого делает любой нормальный человек? Налаживает кэширование наиболее часто запрашиваемых данных. При этом, если хоть немного задуматься о перспективе, то размеры кэша необходимо ограничивать.
Для простоты реализации в случае Питона сделаем ограничение по числу элементов в кэше (здесь предполагается, что данные более-менее однородны по размеру, а также учитывается специфика, что определить объём памяти, реально занимаемый каким-либо Питоновским объектом — весьма нетривиальная задача, кому интересно, пусть пожалует сюда), а для того, чтобы кэш содержал как можно более часто используемую информацию — построим его по принципу least recently used, т.е. чем более давно запрашивали кусочек информации, тем больше у него шансов «вылететь» из кэша.

О двух решениях (попроще и посложнее) я и расскажу в этой статье.Читать полностью »

Осовремененный Unix Way или pipe в браузер

2012-07-11 в 11:08, admin, рубрики: django, linux, open source, pipe, python, sockjs, tornado, WebSocket, Веб-разработка, метки: Django, pipe, python, sockjs, tornado, WebSocket

Наверное, каждый, кому когда-нибудь приходилось следить одновременно за большим количеством окошек с логами, подумывал о переносе некоторых из них на экран планшета или телефона.
А, находясь далеко от компьютера, следить за выхлопом недавно запущенного большого и страшного сервиса?
Конечно, можно поставить ssh клиент на телефон, но это не особо удобно.
Поэтому я решил сделать мини-сервис упрощающий «удалённый» просмотр логов.

Читать полностью »

SPARQL запросы к содержимому HTML страниц

2012-07-11 в 8:50, admin, рубрики: grab, python, semantic web, sparql, Семантическая Сеть, метки: grab, python, semantic web, sparql

Здравствуйте.
После посещения одной конференции у меня появилась идея, воплощение которой я и представляю.
Данный пост предоставляет пример работы с библиотеками grab и rdflib, а также готовый класс для выполнения SPARQL запросов к содержимому web-страниц.
Читать полностью »

Разворачиваем шлюз Skype-оповещений в облаке

2012-07-10 в 17:10, admin, рубрики: dotcloud, python, skype, skypekit, метки: dotcloud, python, skypekit

Разворачиваем шлюз Skype оповещений в облаке
Так сложилось что в нашей корпоративной среде разработчики используют групповые чаты skype для общения. Возникла необходимость уведомлять присутствующих о выполняющемся развертывании кода на productiontesting сервера.

Для этого был написан простенький python скрипт на Flask + SkypeKit и настроено окружение бесплатного в таких масштабах облачного сервиса dotCloud. Сервис вынесен за пределы нашей инфраструктуры для того, чтобы 1) иметь возможность получать уведомления об ошибках вне зависимости от состояния наших серверов, и 2) не ставить на свои сервера всякую проприетарную закрытую пакость (улыбка)

SkypeKit — это консольный демон skype, позволяющий управлять собой через pythonc++java, о нём уже писали на хабре (инструкция может немного устареть, но ничего сложного в процессе регистрации нет). Сразу оговорюсь, что для использования придётся заплатить целых $5 за доступ к SkypeKit for Desktop.
Читать полностью »

Космическая Змея в Магазине или Как Мы «CheeseShop» Ставили

2012-07-10 в 10:55, admin, рубрики: deployment, django, python, rpm, системное администрирование, метки: deployment, python, rpm

Доброе время суток, уважаемые читатели!

Ниже приведена увлекательная(?) история о том как наша организация решала проблему т.н. «деплоймента как у людей». Наш основной язык разработки Python, с примесями разных интересных (и не очень) пакетов (Django, Bottle, Flask, PIL, ZMQ, и т.д.).

Начнём с краткого описания одного из наших приложений:

Django 1.4
MySQL
Celery для крон-имитации и поддержки вспомогательных функций в фоновом режиме
Daemon-процесс, основанный на Django management command

Всё это дело работает под связкой gUnicorn и nginx, на ОС CentOS 5.8.

Детали, как принято, ниже.

Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «python» - 322

UCS2 или UCS4? — pyodbc и работа с utf16 данными в MSSQL

Проблема

Откуда тормоза в ORM?

Введение

Префиксные деревья в Python

Ответы на вопросы с PyObject. Часть 2

Прогнозирование событий и Data Mining — вперед в будущее

Реализация кеша с ограничением по числу элементов на Python — два решения: простое и посложнее

Формулировка задачи

Осовремененный Unix Way или pipe в браузер

SPARQL запросы к содержимому HTML страниц

Разворачиваем шлюз Skype-оповещений в облаке

Космическая Змея в Магазине или Как Мы «CheeseShop» Ставили

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «python» - 322

Проблема

Введение

Формулировка задачи

Новости

Актуальные темы

Архив