- PVSM.RU - https://www.pvsm.ru -

Bison для JavaScript

Нет, не Jison [1]. А полноценный генератор парсеров с полной поддержкой бизона.


Начнем с главного вопроса.

Зачем?

Очень нужно портировать большой сишный парсер на яваскрипт без потери мелких деталей оригинала. Очень повезло, что оригинальный парсер написан в терминах yacc/bison, а не руками на хардкорном Си.

Когда настала пора портировать этот парсер, первое, что пришло в голову, это загуглить «javascript bison parser». Конечно, первым же результатом выпал Jison. Вот радость-то, подумалось тогда. Однако, первый же эксперимент показал, что Jison не умеет делать большой кусок работы с промежуточными состояниями. Это такие кабэ токены, при попадании на которые надо выполнить кусочек своего кода, чтобы, например, подсказать лексеру в каком он сейчас контексе. Краткая переписка в гитхабе проекта [2] утешения не принесла. Вместо автора ответил очень подкованный чувак [3]. Он написал там, по-моему, целую книгу с кучей подробностей! Пришлось трижды перечитать и понять: да, увы, придется ковырять оригинальный bison.

Bison

Сразу скажу, что бизон очень хорошо спроектирован. Вместо того, чтобы хардкодить внутри генератора какие-то конструкции, бизон использует язык шаблонов, с помощью которого красиво раскладывает нужные переменные и таблички в результирующий парсер. Для каждого из трех языков есть свой шаблон, называемый скелетом (skeleton). И всё бы хорошо, но язык шаблонов GNU m4 [4] там просто ужасен. Из-за этого анахронизма, вместо того, чтобы спокойно портировать скелет для явы, пришлось джва дня разбираться только с шаблонным мусором.

lalr1.js

Так называется скелет для яваскрипта — lalr1.js [5]. Они там все братья лалры [6] :)

В итоге получилось очень даже ничего. Берем какой-нибуть grammar.y в одну руку, lalr1.js — в другуя, и бац:

bison -S ./lalr1.js grammar.y

получаем grammar.js, который после запиливания к нему лексера очень даже может что-то распарсить.

Ах, да. Важно не забыть заменить весь Си код в этом самом grammar.y на яваскрипт. Ну, и лексер запилить. Ну, и еще потестить хорошенько, сравнив логи парсера на Си и парсера на яваскрипте.

Эпилог

Как обычно, делалось всё потому, что было жуть как интересно. Но при этом удалось довести результат до беты. Если среди вас окажутся люди, заинтересованные генерацией яваскриптовых парсеров (ну, там для кофескрипта, или прямо сразу яваскрипта), то буду очень рад помощи в обкатке всего этого в деле. Поиграть можно, забрав исходники с kung-fu-tzu/bison-lalr1.js [5] и установив себе bison и v8/d8.

Автор: JPEG

Источник [7]


Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/javascript/36586

Ссылки в тексте:

[1] Jison: http://zaach.github.io/jison/

[2] в гитхабе проекта: https://github.com/zaach/jison

[3] ответил очень подкованный чувак: https://github.com/zaach/jison/issues/173#issuecomment-18542435

[4] GNU m4: http://www.gnu.org/software/m4/manual/m4.html

[5] lalr1.js: https://github.com/kung-fu-tzu/bison-lalr1.js

[6] братья лалры: http://en.wikipedia.org/wiki/LALR_parser

[7] Источник: http://habrahabr.ru/post/183400/