‘abcde’+’fgh’=?

Это статья про довольно неожиданный результат выполнения программы на python. Матёрым разработчикам она покажется детским лепетом, но для тех, кто изредка использует python как полезный инструмент будет несомненно интересна. Также рекомендую её как гимнастику ума. Чтобы заняться этой гимнастикой могли все желающие не добавлял в статью ни строчки кода.

Недавно мне потребовалось автоматизировать довольно сложный процесс раскладки файлов по каталогам. Опыта в этом у меня довольно немного, но всё шло хорошо. Я написал несколько скриптов bash, которые занимались сжатием/распаковкой и переименовыванием/перемещением файлов, но тут потребовалось получать данные для некоторых операций из текстового файла.
Конкретно задача выглядела так:
1) Взять первую строку файла name.txt, оканчивающуюся подстрокой |some_data
2) Вычленить из неё подстроку some_data
3) Сжать name.txt в архив some_data.zip
Незадолго до этого коллега любезно написал мне программу на Python, реализующую схожий функционал — копирование, с некоторыми условиями, первых строк всех файлов из каталога в один. Я решил слегка подправить эту программу под текущую задачу.
Код, как и обещал, не привожу, только алгоритм. Сразу скажу, что выполняется он абсолютно правильно, именно так, как я и описываю, без ошибок или неточностей.
Алгоритм:
1) Взять первую строку файла name.txt
2) Вычленить из неё всё, после символа '|' и записать в переменную s
3) Удалить из s все переносы строки (символ 'n')
4) Удалить из s все пробелы
5) Если s — пустая строка ('') вывести об этом сообщение и закончить программу
6) Добавить в конец переменной s символы '.zip'
7) Выполнить в консоли «zip [вставить значение s] name.txt»

При выполнении у меня случился экзистенциальный кризис. Программа не создавала файлы вида abcdef.zip, она создавала файлы вида .zipef. То есть вместо добавления .zip к переменной s она выводила '.zip' вместо первых четырёх символов.
Иначе говоря, получалось, что для python 'abcde' + 'fgh' == 'fghde'. Проблема усугублялась тем, что до этого я с python вообще никак не сталкивался и не был уверен, что подобное поведение не норма. В самом деле, берём адрес массива, пишем по этому адресу другой массив и считываем — получили второй массив поверх первого.
К счастью оказалось что это не так и строки должны нормально конкатенироваться.

Для устранения этой проблемы мне потребовалось около часа. Все необходимые данные у вас есть, попробуйте предположить причину этого безобразия.

А дело вот в чём

1) Взять первую строку файла name.txt
2) Вычленить из неё всё, после символа '|' и записать в переменную s
3) Удалить из s все переносы строки (символ 'n')
Кое-что критично важное мы не удалили. Символ 'r' — возврат каретки. В итоге происходит вот что:
Пусть s == «abcdefr». Мы добавили в конец '.zip' и получили «abcdefr.zip».
Обозначим знаком _ курсор; рассмотрим три этапа вывода строки s:

//выводим 'abcdef'
>abcdef_

//выводим 'r'- курсор переводится
>_abcdef

//печатаем '.zip'
>.zip_ef

Рекомендую в схожих ситуациях проверять вообще все управляющие символы ^[1], поскольку создавать файлы с именами типа «File <табуляция>Name» тоже не очень хорошо.

Автор: Electrohedgehog

Источник ^[2]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/python/116830

Ссылки в тексте:

[1] управляющие символы: https://ru.wikipedia.org/wiki/%D0%A3%D0%BF%D1%80%D0%B0%D0%B2%D0%BB%D1%8F%D1%8E%D1%89%D0%B8%D0%B5_%D1%81%D0%B8%D0%BC%D0%B2%D0%BE%D0%BB%D1%8B

[2] Источник: https://habrahabr.ru/post/280714/

Нажмите здесь для печати.