Рубрика «открытые данные»

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.

  1. Государство в декабре принудило все коммерческие компании отдать себе биометрические данные 70 миллионов трудоспособных россиян (закон 211535 о "Единой информационной системе"). Всё что собрали банки, телекомы, интернет-сервисы.

  2. В январе 2023 Путин Читать полностью »

В конце марта 2023г., компания Databricks выпустила Dolly, большую языковую модель, подобную ChatGPT, дообученную на платформе Databricks Machine Learning Platform. Результат оценки работы модели Dolly показывает, что модель с открытым исходным кодом двухлетней давности (GPT-J) при дообучении на публичном датасетеЧитать полностью »

(Пере)запускаем отделение Creative Commons в России! Участвуйте и помогайте - 1

Привет! Привет всем сторонникам open source, лицензий Creative Commons и прочих альтернативных подходов к авторскому праву! Год назад организация Creative Commons отметила 20 лет с момента основанияЧитать полностью »

Введение

Уважаемые читатели, хочу представить Вашему вниманию свой небольшой проект https://sugar-beet.herokuapp.com/, который является воплощением идеи, описанной в своей предыдущей статье Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов. Стадию развитию его можно определить как MVP. Однако, к сожалению, Heroku отказывается от бесплатного тарифа 28 ноября 2022 годаЧитать полностью »

Привет! Недавно, пришлось работать на проекте с внешним API. Работал, я, к слову, всегда либо с простым REST, либо с GET/POST only запросами, но в этом нужно было работать с API Timetta. Он использует OData и что же это такое?

Содержание

  1. REST vs OData

  2. Схема

  3. Типы данных

    1. Примитивные

    2. EntityType

    3. ComplexType

    4. EnumType

    5. Collection

    6. EntitySet

  4. Читать полностью »

В июне прошлого года вышла первая версия программы Organic Maps — бесплатных мобильных карт для Android и iOS с открытым исходным кодом. Об этом событии я опубликовал небольшую заметку на Хабре. Весь год шла интенсивная разработка, а число установок превысило 100 тысяч. Я решил взять небольшое интервью у разработчиков Organic Maps и обсудить с ними итоги года работы и планы на будущее.

Читать полностью »
Насколько естественен естественный язык? Представляем датасет RuCoLA - 1

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать полностью »

ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно
ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Читать полностью »

Продавец предлагает дефицитный товар, безбожно накручивая цену, торгует из-под полы - сделка происходит на «сером рынке». И покупатель соглашается купить!
Продавец предлагает дефицитный товар, безбожно накручивая цену, торгует из-под полы - сделка происходит на «сером рынке». И покупатель соглашается купить!

Эта статья является продолжением материала "Читать полностью »

Мотивация и цель исследования

Цель исследования -- на основе анализа открытых статистических данных сравнить ситуацию с преступностью в США и России и попытаться понять:

  • какие преступления количественно преобладают;

  • как изменяется преступность по годам;

  • каков уровень преступности в удельном выражении (на 1 млн. населения);

  • как указанные параметры распределяются территориально -- по штатам США и регионам России.

Источники данных

Для анализа используются только открытые официальные данные:

  1. Количество совершенных преступлений по основным преступлениям (Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js