Рубрика «tokenizer»

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

2025-12-08 в 18:55, admin, рубрики: python, tokenizer, ахмадулина, книги, поэзия, проза, чтение

Что сделалось? Зачем я не могу,
уж целый год не знаю, не умею
слагать стихи и только немоту
тяжелую в моих губах имею? Вы скажете — но вот уже строфа,
четыре строчки в ней, она готова.
Я не о том. Во мне уже стара
привычка ставить слово после слова.

Стихотворение "Другое" Белла Ахмадулина написала в 1966 году. Строки этого стихотворения очень просты, при этом отличаются сильным эмоциональным воздействием. В чем же секрет такого сильного звучания этих строк?

Читать полностью »

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

2025-12-04 в 6:33, admin, рубрики: nlp, NLTK, pandas, python, stanford, tokenizer, говнокод, поэзия, проза, чтение

Что меня носит по свету транзитом?

Тело намаялось, сердце не сыто.

Бегство от быта — смешная защита,

всё ненасытней растут аппетиты.

Любим сквозь сито, поем через сито.

Сыты по горло — сердце не сыто.

Небо не сыто. Окошки открою —

ты прилетаешь по воздуху кролем.

Читать полностью »

Как Python раскрыл поэтический гений Маршака

2025-11-12 в 7:16, admin, рубрики: NLTK, nltk python, python, tokenizer

Маршак почти идеально сохранил ритм, смысл и структуру оригинала. Вот как я убедился в этом с помощью Python.

Я цифровой гуманитарий. Мне интересно пересечение литературы и математики. Я не просто читаю стихи, я анализирую их с помощью Python, чтобы найти то, что скрыто за словами: ритм, семантику, эмоции.

В этом посте я расскажу, как провёл лингвистико-поэтический анализ перевода 101-го сонета Шекспира Самуилом Маршаком, используя простые инструменты:

Подсчёт слогов и анализ метрики
Сравнение семантики строк
Визуализация результатов

Читать полностью »

Как открытые веса раскрыли секреты обучения GPT-5

2025-10-10 в 8:52, admin, рубрики: adult-content, embeddings, github, glitch-tokens, gpt-5, gpt-oss, membership-inference, OpenAI, tokenizer, training-data

Команда AI for Devs перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения.На примере модели GPT-oss автор показывает, как можно восстановить части обучающего пайплайна и даже выявить, что GPT-5 видела фразы с сайтов для взрослых.

Недавно OpenAI выпустила модель с открытыми весами. В этой статье разберём, как этот релиз неизбежно раскрывает часть информации об их обучающем пайплайне — и заодно покажем, что GPT-5 действительно обучалась на фразах с сайтов для взрослых.

Читать полностью »

Считаем количество токенов для LLM в исходниках ядра Linux и не только…

2025-01-20 в 12:15, admin, рубрики: AI, fun, llm, OpenAI, tiktoken, token, tokenizer

Эта статья про новое расширение ахритектуры трансформеров – Titan от Google –, позволяющее расширить рамки LLM до 2 млн токенов, побудила поинтересоваться, сколько токенов, пригодных для LLM, содержат исходники колоссального софта.

Какой открытый софт будем „препарировать“:

Профессиональный лексический анализ на регулярных выражениях

2019-08-07 в 6:11, admin, рубрики: algorithms, DFA, java, lexer, nfa, regex, regexp, syntax analysis, syntax highlight, tokenizer, tokenizing, Алгоритмы, Компиляторы, Программирование, Регулярные выражения

Синтаксический анализ текста всегда начинается с лексического анализа или tokenizing-а. Существует простой способ решить эту задачу практически для любого языка с помощью регулярных выражений. Еще одно применение старым добрым regexp-ам.

Читать полностью »

Elixir: Готовим парсинг правильно — yecc и leex

2016-09-08 в 18:21, admin, рубрики: Elixir, erlang, Erlang/OTP, functional programming, parser, tokenizer, функциональное программирование

Elixir: Готовим парсинг правильно — yecc и leex - 1

Лексический анализ (токенизация) и парсинг — одни из наиболее важных концепцпий в информатике и программировании. Эти концепции базируются на огромном количестве теоретических знаний, но сегодня мы о них не будем говорить, потому что их действительно много. Кроме того, подход к парсингу через "науку" может вызвать жёсткое отвращение и напугать. Между тем, практическое применение очень простое и прямолинейное. Если хотите знать больше о теории — идите в Википедию (лексический анализ и парсинг), или читайте восхитительную книгу дракона (рекомендовано к прочтению вообще всем программистам).

Обычный человек боится использовать лексеры и парсеры, а вместо них пишет велосипед на регулярных выражения. Мне кажется, что кажущаяся сложность является этому причиной. В этом посте я пострараюсь развенчать её!

Читать полностью »

Az.js: JavaScript-библиотека для обработки текстов на русском языке

2016-06-15 в 16:51, admin, рубрики: azjs, data mining, DAWG, javascript, natural language processing, nlp, open source, pymorphy2, tokenizer, Алгоритмы, естественные языки, морфология, Семантика, синтаксис, токенизация, метки: az, azjs

Как чуден и глубок русский курлык
— Генератор постов

Обработка естественного языка (natural language processing, NLP) — тема, на мой взгляд, очень интересная. Во-первых, задачи тут чисто алгоритмические: на вход принимаем совершенно примитивный объект, строчку, а извлечь пытаемся вложенный в него смысл (ну или хотя бы частичку смысла). Во-вторых, необязательно быть профессиональным лингвистом, чтобы решать эти задачи: достаточно знать родной язык на более-менее приличном уровне и любить его.

А ещё с небольшими затратами можно сделать какого-нибудь бестолкового чат-бота — или, как вот я, генератор постов на основе того, что вы писали на своей страничке в соцсети. Возможно, кто-то из вас уже видел это приложение — оно довольно глупое, чаще всего выдает бессмысленный и бессвязный текст, но изредка всё же дает повод улыбнуться.

Бессвязность текстов в нынешней версии «Генератора» вызвана тем, что на самом деле никакого анализа он производить не умеет. Просто в одних случаях «предсказывает» продолжение предложения по собранным биграммам, а в других — заменяет в готовом предложении некоторые слова на другие, которые заканчиваются похоже. Вот и вся начинка.

Конечно, хочется сделать что-нибудь поинтереснее. Беда в том, что модные сейчас нейросети не очень-то применимы здесь: им нужно много ресурсов, большую обучающую выборку, а в браузере у пользователя соцсети всего этого нет. Поэтому я решил изучить вопрос работы с текстами с помощью алгоритмов. К сожалению, готовых инструментов для работы с русским языком на JavaScript найти не удалось, и я решил сделать свой маленький велосипед.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «tokenizer»

Это другое. Python нашел замалчивание в поэзии Беллы Ахмадулиной

Сердце не сыто. Python помогает раскрыть особенности мастерства поэта Вознесенского

Как Python раскрыл поэтический гений Маршака

Маршак почти идеально сохранил ритм, смысл и структуру оригинала. Вот как я убедился в этом с помощью Python.

Как открытые веса раскрыли секреты обучения GPT-5

Считаем количество токенов для LLM в исходниках ядра Linux и не только…

Профессиональный лексический анализ на регулярных выражениях

Elixir: Готовим парсинг правильно — yecc и leex

Az.js: JavaScript-библиотека для обработки текстов на русском языке