Финальная версия (для всех, кто публиковал хоть раз)
Финальная версия (для всех, кто публиковал хоть раз)
Уважаемые администрация ресурса Хабр!
Сделайте пожалуйста возможность банить индивидуальных пользователей в комментариях по тому же принципу, как вы это сделали для публикаций на сайте!
Сейчас при элементарной генерации текста с помощью ИИ (Имитацией Интеллекта), этот самый интеллект пропадает у отдельных пользователей, что доставляет не только моральные страдания остальным читателям Хабра, но и вызывает серьезное раздражение портянки LLM шлака в комментариях к статьям.
Я люблю критику. Я ищу точки роста. Мне не хватает интеллектуального диалога, так чтобы были аргументы и контраргументы, примеры и антипримеры. Я в поиске качественной обратной связи: конкретной, предметной, аргументированной. Я хочу видеть свои "мертвые зоны" и вектора развития.
Допустим..., на работе у меня с этим проблемы, я прихожу на Хабр. Мне кажется, что тут тусуются те, кто может мне её дать. И действительно, здесь есть коллеги, кто умеет это сделать. Но есть те, кто, не умеет и не хочет это делать.
Почему-то мне кажется, что Хабр поддерживает последних, что он им помогает.
У нас есть система регистрации простоев оборудования. В ней рабочему нужно ввести комментарий о причине простоя вручную. А нам потом надо собирать статистику по этим данным для анализа, как работал цех и что приводило к простоям.
Рабочие вводят причины простоя разными словами, от души. «Шланг порвался», «они не успевают дать продукцию», «безобразно обрезана кромка» — это ещё цветочки. Одно только слово «железнодорожный» можно написать десятками способов — жд, Жд, ЖД, ж/д, жд, ж /д, ж д, Ж д, ЖД!!! — и так далее. С вывернутыми слешами, двойными пробелами и другими творческими формулировками.
В базе 13 миллионов записей, из них 700 тысяч уникальных, из которых остаётся примерно 500 тысяч после нормализации по регистру, слешам, пробелам и т. п. А нам нужно как-то разобраться, что не так и с кем.
Если вы сейчас думаете про ML, LLM и прочие модные слова, я вас огорчу. Оказалось, что есть простой кондовый способ, если применить немного ТРИЗа. В итоге получилось, что мы умудрились и рабочим сделать намного удобнее (что вообще-то редкость в реалиях производства), и дико помочь аналитикам. Читать полностью »

Каждый месяц в блоге Selectel на Хабре появляется 35-40 публикаций. Сбор статистики по ним мы давно автоматизировали, но до последнего времени не охватывали sentiment-анализ, то есть оценку тональности комментариев средствами машинного обучения.
У нас есть своя ML-платформа, серверное железо и опыт в развертывании IT-инфраструктуры. Вполне логично, что в какой-то момент возник вопрос: что, если проанализировать эмоциональный окрас комментариев в блоге на Хабре с помощью LLM?
Под катом рассказываем, что из этого получилось.Читать полностью »
Привет. Я здесь писал еще не очень много, но успел попробовать несколько форматов статей. Здесь были интервью с некоторыми IT специалистами из компании в которой я работаю, переводы, гайды… Что-то зашло, что-то нет. И вот, сегодня я решил попробовать новый для себя формат.

Kubernetes — большой проект. Не только потому, что очень востребован, но и с точки зрения исходного кода. На момент написания этой статьи насчитывалось более 86 000 коммитов, более 2000 участников, более 2000 открытых тикетов, более 1000 открытых пул-реквестов и 62 800 звёзд в репозитории на GitHub.
Утилита scc насчитала более 4,3 млн строк кода на Go (всего более 5,2 млн строк), из них более 3 млн строк реального кода и более 700 тыс. строк с комментариями, в общей сложности более 16 000 файлов, включая директорию vendor/.
Читать полностью »
На «Пикабу» появилась новая функция: посты-ответы — фича для тех, кому «постом навеяло» написать собственную статью. Это отличная функция, важность которой выходит далеко за пределы «Пикабу» и касается состояния всего современного интернета.
Пост-ответ — это цифровая реинкарнация жанра публицистической дискуссии. Традиционно этот жанр считался «газетным», но, на самом деле, он гораздо старше как масс-медиа (переписка Ивана Грозного и Андрея Курбского), так и печати как таковой.
В печатной прессе этот жанр расцвёл: ярчайшие примеры подобных публичных дискуссий внесли в историю публицистики вклад не меньший, чем лучшие соло-публикации — если не больший. Люди до сих пор помнят о полемике Герцена с Чернышевским — даже если не читали ни одной из их публикаций. Наверное, потому, что любая яркая статья была обречена перерасти в дискуссию. Тогда как статьи, не способные вызвать обсуждение, оказались забыты.
С диджитализацией коммуникации печатная пресса начала угасать — а с ней сходить на нет и формат публицистической дискуссии.
При этом в онлайне возник другой, совершенно новый, ранее не существовавший жанр: жанр комментария. Ответить на публикацию разными способами можно было и раньше. Но никогда — таким образом, чтобы вся её аудитория имела возможность увидеть этот ответ в том же месте.
Читать полностью »
Привет!
Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.
Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.
Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.
Импортируем модуль и обновляем.