Рубрика «python» - 158

Реализация android-приложения на python: Kivy + KivyMD

2018-03-16 в 15:28, admin, рубрики: python, Разработка под android

Изначально статья задумывалась как пошаговая инструкция о том как с нуля сделать приложение – тайм-менеджер, своеобразный помощник для мониторинга впустую потраченного времени за использованием смартфона. Выбор был между React-Native (т.к. уже имелся опыт работы с этим инструментом) и Kivy (т.к. имелся опыт работы на python).

Однако в процессе реализации возникло множество проблем (или просто некоторые проблемы). Поэтому в данной статье будет описаны проблемы и пути их решения.
Читать полностью »

Distant Joining: выбираем репрезентативный набор генов

2018-03-16 в 9:18, admin, рубрики: python, биоинформатика, выборка данных, Программирование, филогенетика

Современные методы биоинформатики позволяют довольно точно восстанавливать эволюционные истории на основании последовательностей генов или белков ныне живущих организмов. А благодаря технологиям секвенирования нового поколения последовательности производятся быстрее, чем их успевают анализировать. Вот только эволюционная реконструкция – дело вычислительно дорогое и неплохо бы уметь получать репрезентативные выборки пригодного для анализа размера. Как это сделать и что вообще такое в данном случае “репрезентативная” – под катом.
Древо жизни по Hug et al. 2016
Читать полностью »

Мега-Учебник Flask, Часть XV: Улучшение структуры приложения

2018-03-16 в 6:41, admin, рубрики: blueprint, flask, python, Requirements, Разработка веб-сайтов

Miguel Grinberg

Мега-Учебник Flask, Часть XV: Улучшение структуры приложения - 1 Туда Сюда

Это пятнадцатая часть серии Мега-учебников Flask, в которой я собираюсь реструктурировать приложение, используя стиль, подходящий для более крупных приложений.

Читать полностью »

Cжатие и улучшение рукописных конспектов

2018-03-15 в 11:49, admin, рубрики: EM-алгоритм, HSV, Hue-Saturation-Value, open source, PDF, PNG, python, RGB, Алгоритмы, артефакты JPEG, бинаризация, векторное квантование, евклидово расстояние, квантование цвета, кластерный анализ, математическая статистика, метод k-средних, обработка изображений, сканирование, цветовое пространство

Я написал программу для очистки отсканированных конспектов с одновременным уменьшением размера файла.

Исходное изображение и результат:

Cжатие и улучшение рукописных конспектов - 1
Слева: исходный скан на 300 DPI, 7,2 МБ PNG / 790 КБ JPG. Справа: результат с тем же разрешением, 121 КБ PNG ^[1]

Примечание: описанный здесь процесс более-менее совпадает с работой приложения Office Lens. Есть другие аналогичные программы. Я не утверждаю, что придумал нечто радикальное новое — это просто моя реализация полезного инструмента.

Если торопитесь, просто посмотрите репозиторий GitHub или перейдите в раздел результатов, где можно поиграться с интерактивными 3D-диаграммами цветовых кластеров.
Читать полностью »

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

2018-03-14 в 13:12, admin, рубрики: big data, data mining, ner, nlp, python, yargy, машинное обучение, наташа

Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами:

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке - 1

Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых решений: Spacy, Stanford NER, OpenNLP, NLTK, MITIE, Google Natural Language API, ParallelDots, Aylien, Rosette, TextRazor. Для русского тоже есть хорошие решения, но они в основном закрытые: DaData, Pullenti, Abbyy Infoextractor, Dictum, Eureka, Promt, RCO, AOT, Ahunter. Из открытого мне известен только Томита-парсер и свежий Deepmipt NER.

Я занимаюсь анализом данных, задача обработки текстов одна из самых частых. На практике оказывается, что, например, извлечь имена из русского текста совсем непросто. Есть готовое решение в Томита-парсере, но там неудобная интеграция с Питоном. Недавно появилось решение от ребят из iPavlov, но там имена не приводятся к нормальной форме. Для извлечения, например, адресов («ул. 8 Марта, д.4», «Ленинский проезд, 15») открытых решений мне не известно, есть pypostal, но он чтобы парсить адреса, а не искать их в тексте. C нестандартными задачами типа извлечения ссылок на нормативные акты («ст. 11 ГК РФ», «п. 1 ст. 6 Закона № 122-ФЗ») вообще непонятно, что делать.

Год назад Дима Веселов начал проект Наташа. С тех пор код был значительно доработан. Наташа была использована в нескольких крупных проектах. Сейчас мы готовы рассказать о ней пользователям Хабра.

Наташа — это аналог Томита-парсера для Питона (Yargy-парсер) плюс набор готовых правил для извлечения имён, адресов, дат, сумм денег и других сущностей.

В статье показано, как использовать готовые правила Наташи и, самое главное, как добавлять свои с помощью Yargy-парсера.
Читать полностью »

Эффективное использование памяти при параллельных операциях ввода-вывода в Python

2018-03-13 в 16:14, admin, рубрики: asynchronous, asyncio, multithreading, parallel processing, python, параллельное программирование

Существует два класса задач где нам может потребоваться параллельная обработка: операции ввода-вывода и задачи активно использующие ЦП, такие как обработка изображений. Python позволяет реализовать несколько подходов к параллельной обработке данных. Рассмотрим их применительно к операциям ввода-вывода.

До версии Python 3.5 было два способа реализации параллельной обработки операций ввода-вывода. Нативный метод — использование многопоточности, другой вариант — библиотеки типа Gevent, которые распараллеливают задачи в виде микро-потоков. Python 3.5 предоставил встроенную поддержку параллелизма с помощью asyncio. Мне было любопытно посмотреть, как каждый из них будет работать с точки зрения памяти. Результаты ниже.
Читать полностью »

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

2018-03-13 в 10:06, admin, рубрики: big data, data mining, data science, kaggle, machine learning, python, машинное обучение

Сейчас анализ данных все шире используется в самых разных, зачастую далеких от ИТ, областях и задачи, стоящие перед специалистом на ранних этапах проекта радикально отличаются от тех, с которыми сталкиваются крупные компании с развитыми отделами аналитики. В этой статье я расскажу о том, как быстро сделать полезный прототип и подготовить простой API для его использования прикладным программистом.

Для примера рассмотрим задачу предсказания цены на трубы размещенную на платформе для соревнований Kaggle. Описание и данные можно найти здесь. На самом деле на практике очень часто встречаются задачи в которых надо быстро сделать прототип имея очень небольшое количество данных, а то и вообще не имея реальных данных до момента первого внедрения. В этих случаях приходится подходить к задаче творчески, начинать с несложных эвристик и ценить каждый запрос или размеченный объект. Но в нашей модельной ситуации таких проблем, к счастью, нет и поэтому мы можем сразу начать с обзора данных, определения задачи и попыток применения алгоритмов.
Читать полностью »

Решаем задачи без самобалансирующихся деревьев в Python

2018-03-13 в 7:19, admin, рубрики: heapq, python, а для индексации поиском, Алгоритмы, двоичные деревья, куча, ненормальное программирование, никто не читает теги, но они не для чтения, Программирование, так что это нормально

Многие задачи на алгоритмы требуют знания определённых структур данных. Стек, очередь, куча, динамический массив, двоичное дерево поиска — нечасто решение алгоритмической задачи обходится без использования чего-либо из них. Однако, качественная их реализация — нетривиальная задача, и при написании кода всегда хочется по максимуму обойтись использованием стандартной библиотеки языка.

Что касается Python, то в нём есть почти всё.

Динамический массив — встроенный тип list. Он же поддерживает и стековые операции: .append() и .pop().
Хэш-таблица — встроенные типы set и dict, а также неизменяемый брат сета frozenset.
Куча — list со специальными операциями вставки и удаления, реализованными в модуле heapq.
Двусторонняя очередь — это описанный в модуле collections тип deque.

Но вот самобалансирующегося дерева поиска, как такового, в стандартной библиотеке нет. А жаль!

В этой статье я разберу несколько алгоритмических задачек, подразумевающих решение с помощью двоичного дерева, и покажу, чем в разных ситуациях его можно заменить в Питоне.
Читать полностью »

Первые шаги в Машинном обучении

2018-03-12 в 13:16, admin, рубрики: machine learning, python, python 3, машинное обучение

Привет дорогой друг, ты всегда хотел попробовать машинное обучение, но область выглядела загадочно и сложно? Я хотел бы поделиться с тобой моей историей как я сделал первые шаги в машинном обучении, при нулевом знании Python и высшей математики на небольшом примере.
Читать полностью »

Тестирование проектов C-C++ с помощью Python

2018-03-12 в 8:36, admin, рубрики: c/c++, c++, python, tdd, программирование микроконтроллеров

Введение

Хорошо известна возможность интеграции Python и C / C++. Как правило, этот прием используется для ускорения программ на Python или с целью подстройки программ на C / C++. Я хотел бы осветить возможность использование python для тестирования кода на C/C++ в IDE без поддержки системы организации тестов в IDE. С моей точки зрения это целесообразно применять в сфере разработки программного обеспечения для микроконтроллеров.

Можно много рассуждать на тему необходимости тестов в проектах, я исхожу из того что тесты помогают мне разрабатывать функционал программы. И после завершения проекта, по прошествии некоторого времени, помогают в нем разобраться и уберегают от ошибок.

При разработке программ для микроконтроллеров, я сталкивался с отсутствием стандартного ввода / вывода (конечно можно переопределить функции ввода вывода и в симуляторе, выводить данные через UART — но часто UART уже задействован, да и симулятор работает не всегда корректно) и большими рисками вывести из строя аппаратное обеспечение ошибочной бизнес логикой. На стадии разработки, я реализовывал отдельные проекты, тестирующие части программы и далее на меня ложилась ответственность за запуск всех тестовых приложений после внесения изменений. Конечно, это все можно автоматизировать. Так можно работать, но я нашел способ лучше.
Читать полностью »

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «python» - 158

Реализация android-приложения на python: Kivy + KivyMD

Distant Joining: выбираем репрезентативный набор генов

Мега-Учебник Flask, Часть XV: Улучшение структуры приложения

Miguel Grinberg

Cжатие и улучшение рукописных конспектов

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

Эффективное использование памяти при параллельных операциях ввода-вывода в Python

Как быстро написать и выкатить в продакшн алгоритм машинного обучения

Решаем задачи без самобалансирующихся деревьев в Python

Первые шаги в Машинном обучении

Тестирование проектов C-C++ с помощью Python

Введение

Архив

Информация

Статьи из архивов

Обсуждаемое

Рекомендуем

Рубрика «python» - 158

Miguel Grinberg

Введение

Новости

Актуальные темы

Архив