Рубрика «парсеры»

Как написать свой небольшой парсер на Python?

2024-10-05 в 20:36, admin, рубрики: парсер json, парсер сайтов, парсер форумов, парсеры

Всем привет. Я думаю, что некоторые задавались вопросом о том, как написать свой небольшой парсер на Python. В данной статье я хочу рассмотреть достаточно простой случай - это парсинг данных уже с готового датасета stackexchange.com. В дальнейшем уже можно будет работать с более сложными задачами. По факту, создание парсера можно разделить на два этапа: подготовка и кодинг.

Этап I. Подготовка

Для начала нам нужно создать папку для нашего парсера. В ней будет храниться наш код и файл с распарсенными данными. Лично я буду использовать программу Visual Studio Code, но особой разницы нет.

Читать полностью »

Вам следует написать новый (ужасный) язык программирования

2024-08-14 в 13:00, admin, рубрики: ruvds_перевод, новые языки программирования, парсеры, создание языка программирования, языки программирования

Каждый разработчик ПО использует язык программирования, и обычно даже несколько. Лишь немногие из нас создают языки программирования. Это логично, ведь работу, которую мы выполняем, чаще всего можно сделать при помощи уже существующих языков. И совершенствованием этих языков уже занимаются другие люди, а мы можем сосредоточиться на нашей непосредственной задаче.

Но из-за этого мы теряем возможность научиться чему-то новому. Я нашла это новое, когда создала язык, руководствуясь глупым принципом: поток управления должен осуществляться через исключения и ничего больше. Я создала его как шутку, но неожиданно для себя в процессе разработки получила новые знания.
Читать полностью »

Если вы отказались от регулярных выражений, то теперь у вас три проблемы

2023-04-10 в 16:00, admin, рубрики: regex, regexp, ruvds_перевод, Блог компании RUVDS.com, композиция, ненормальное программирование, парсеры, парсинг данных, Программирование, Регулярные выражения

Известная шутка программистов гласит, что если решение вашей проблемы включает в себя парсинг текста при помощи регулярного выражения, то теперь у вас есть две проблемы. Некоторые программисты, прочитав шутку, решают попробовать иной подход. Возможно, регулярные выражения не так уж нужны. Возможно, задачу можно решить простым split строки или чем-то подобным. Однако другие могут задуматься немного глубже и задаться вопросом: «А если я сделаю нечто настолько дерзкое, что в результате получу три проблемы?» Мой пост написан в таком духе!

В нём используется код на Python, однако его легко можно адаптировать под любой язык с поддержкой функций высшего порядка.
Читать полностью »

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

2023-02-07 в 9:54, admin, рубрики: Блог компании offlineCRM: Бесплатная CRM для самозанятых, веб-аналитика, интернет-маркетинг, контент-маркетинг, парсеры, парсинг, парсинг html, парсинг json, парсинг контента, парсинг сайта, парсинг сайтов, Управление e-commerce

Меня зовут Максим Кульгин, моя компания xmldatafeed занимается парсингом сайтов в России порядка четырёх лет. По итогам прошедшего 2022 года поделюсь советами для тех, кто думает о подобном бизнесе. Бизнес очень интересный, но наполнен нюансами, которые и расскажу в статье.

Я ранее рассказывал про наш опыт развития бизнеса на парсинге сайтов в двух статьях (часть 1 и часть 2 Читать полностью »

Лайфхак: как спарсить гигабайт double-ов в секунду

2021-02-16 в 9:30, admin, рубрики: c++, библиотека, Блог компании RUVDS.com, Лайфхаки для гиков, парсеры, Программирование

Лайфхак: как спарсить гигабайт double-ов в секунду - 1

Как в коде на C++ прочитать значение double из строки?

std::stringstream in(mystring);
while(in >> x) {
   sum += x;
}

На Intel Skylake с компилятором GCC 8.3, такой код парсит 50 МБ/с. Жёсткие диски запросто обеспечивают последовательное чтение со скоростью в несколько ГБ/с, так что вне всякого сомнения, нас ограничивает не скорость чтения с диска, а именно скорость парсинга. Как его ускорить?

Первое, что напрашивается – отказаться от удобств, предоставляемых потоками в C++, и вызывать strtod(3) напрямую:

do {
    number = strtod(s, &end);
    if(end == s) break;
    sum += number;
    s = end; 
} while (s < theend);

Скорость вырастает до 90 МБ/с; профайлинг показывает, что при чтении из потока выполняется ~1600 инструкций на каждое читаемое число, при использовании strtod – ~1100 инструкций на число. Стандартные библиотеки Си и C++ можно оправдать требованиями универсальности и переносимости; но если ограничиться парсингом только double и только на x64, то можно написать намного более эффективный код: хватит 280 инструкций на число.
Читать полностью »

Примерно 20 строк, примерно такие же результаты: wc на Elixir

2020-02-22 в 20:11, admin, рубрики: Elixir/Phoenix, парсеры, Программирование, рекурсия, тексты, функциональное программирование

Полгода назад Крис Пеннер опубликовал Beating C With 80 Lines Of Haskell: Wc. В предисловии говорится:

Задача состоит в том, чтобы построить более шустрый клон оптимизированной вручную реализации утилиты wc на C в нашем любимом высокоуровневом языке программирования со сборкой мусора — на Haskell! Звучит достаточно просто, не так ли?

Крис прошел весь путь от простой реализации при помощи ByteStrings, через моноиды, встроенные моноиды и, наконец, пришел к параллельной многоядерной версии вышеописанного, которой и удалось немного побить чистый C-код во время выполнения на четырех ядрах.

Несколько дней назад на Хабре была размещена еще одна заметка на ту же тему от 0xd34df00d Побеждая C двадцатью строками Haskell: пишем свой wc. Автор доказал возможность пользования идиоматического хаскеля и в 20 (двадцати) строках кода реализовал алгоритм, который почти в десять раз быстрее, чем идиоматическая реализация на C.

Читать полностью »

Изучение комбинаторных парсеров с Rust

2019-09-27 в 14:04, admin, рубрики: Rust, комбинаторы, парсеры, перевод, Программирование, системное программирование, языки программирования

Привет! Представляю вашему вниманию перевод статьи "Learning Parser Combinators With Rust".

Эта статья учит основам комбинаторных парсеров людей, которые уже знакомы с Rust. Предполагается, что никаких других знаний не требуется, а всё, что не имеет прямого отношения к Rust, а также некоторые неожиданные аспекты его использования, будут объяснены. Эта статья не поможет вам выучить Rust, если вы его ещё не знаете, и в этом случае, вы, вероятнее всего, не поймёте комбинаторные парсеры хорошо. Если вы хотите изучить Rust, я рекомендую книгу "Язык программирования Rust".

Читать полностью »

Изучаем синтаксические парсеры для русского языка

2018-08-09 в 6:00, admin, рубрики: dependency parsing, nlp, UDPipe, Блог компании Сбербанк, Компьютерная лингвистика, машинное обучение, парсеры, Программирование, синтаксис

Привет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксический парсер для работы с русским языком. Для этого мы углубились в дебри морфологии и токенизации, протестировали разные варианты и оценили их применение. Делимся опытом в этом посте.

Изучаем синтаксические парсеры для русского языка - 1
Читать полностью »

Пишем телеграм бота-парсера вакансий на JS

2017-10-03 в 12:43, admin, рубрики: javascript, node.js, open source, telegram, Блог компании Tinkoff.ru, боты, парсеры

Тема создания ботов для Telegram становится все более популярной, привлекая программистов попробовать свои силы на этом поприще. У каждого периодически возникают идеи и задачи, которые можно решить, написав тематического бота. Для меня, как программиста на JS, пример такой актуальной задачи — мониторинг рынка вакансий по соответствующей тематике.

Однако одним из наиболее популярных языков и технологий в сфере создания ботов является Python, предлагающий программисту огромное количество хороших библиотек для обработки и парсинга различных источников информации в виде текста. Мне же захотелось сделать это именно на JavaScript — одном из моих любимых языков.
Читать полностью »

Как я разбирал docx с помощью XSLT

2017-02-13 в 5:12, admin, рубрики: docx, ecma-376, intersystems cache, microsoft office, pptx, XML, xslt, Блог компании InterSystems, ненормальное программирование, обработка документа, парсеры, Программирование

Задача обработки документов в формате docx, а также таблиц xlsx и презентаций pptx является весьма нетривиальной. В этой статье расскажу как научиться парсить, создавать и обрабатывать такие документы используя только XSLT и ZIP архиватор.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «парсеры»

Как написать свой небольшой парсер на Python?

Этап I. Подготовка

Вам следует написать новый (ужасный) язык программирования

Если вы отказались от регулярных выражений, то теперь у вас три проблемы

19,6 млн рублей за 2022 год. Парсинг сайтов. 25 советов желающим заняться

Лайфхак: как спарсить гигабайт double-ов в секунду

Примерно 20 строк, примерно такие же результаты: wc на Elixir

Изучение комбинаторных парсеров с Rust

Изучаем синтаксические парсеры для русского языка

Пишем телеграм бота-парсера вакансий на JS

Как я разбирал docx с помощью XSLT