Cемантическое слияние JSON файлов в Git

в 16:00, , рубрики: Git, javascript

Операция слияния (merge), выполняемая стандартными средствами git, хорошо работает для текстовых файлов, содержащих исходные тексты программ. Но слияние текстовых файлов, содержащих жестко структурированные данные, в частности JSON — это большая головная боль.

Для решения этой проблемы можно подключить к git'у отдельный инструмент слияния для JSON-файлов, который не работает построчно, а учитывает структуру JSON-объектов.

Предлагаю использовать для этого скрипт на javascript, который анализирует сливаемые JSON-файлы и делает слияние на основании структуры и вложенности объектов JSON.

Что это дает?

К примеру вы держите настройки своего приложения в JSON-файле. Если одновременно два разработчика добавят в конец файла новый параметр (каждый со своим именем), то при слиянии в git возникнет конфликт. Скрипт семантического слияния разберется, что добавлены два разных параметра и проведет слияние автоматически и без конфликтов, включив в результирующий файл оба параметра.

Также семантическое слияние спасает, когда в JSON хранятся списки объектов с одинаковым набором свойств. Если в середину такого списка добавлен новый объект, у которого от окружающих отличаются лишь несколько значений свойств, стандартный git'овский merge, да и любой инструмент построчного сравнения скорее всего запутается. Разрешать конфликт придется вручную, внимательно вглядываясь в текст и рискуя испортить структуру JSON.

То же касается и изменения порядка следования объектов в JSON.

Особенности семантического слияния

Порядок следования именованных объектов в файлах игнорируется.
Для неименованных объектов (элементов массива) порядок строк имеет значение. Сравнение массивов идет по порядку следования элементов массива в обоих файлах. При добавлении элемента в середину массива, такая ситуация не распознается и возникают конфликты во всех последующих элементах. Также конфликты возникают и при добавлении в конец массива элементов в обоих сливаемых файлах.

Конфликты

В случае конфликта (один и тот же объект изменен в обоих сливаемых версиях файла), в результирующий файл слияния добавляется информация, показывающая суть конфликта:

{
   "CONFLICT": "<<<<<<<<>>>>>>>>",     // для быстрого поиска конфликтующего места в файле
   "OURS": ...  // "наша" версия объекта
   "THEIRS": ... // "их" версия объекта
   "ANCESTOR": ...  // версия объекта общего предка
   "PATH": ... // путь к конфликтующему объекту по иерархии объектов, разделенный точками
}

Версии скрипта

Поскольку мы разрабатываем windows-приложение и используем git под windows, то мне пришлось допилить скрипт, чтобы он работал на windows «из коробки», то есть через Windows Scripting Host. WSH не поддерживает JSON, поэтому библиотека разбора JSON включена прямо в скрипт. Для тех, кто готов использовать node.js имеется более компактная версия скрипта.

Инструкция по включению merge-драйвера в git

1. Кладем скрипт jsonmerge.js в папку gitlib, например в C:Program Files (x86)Gitlib

2. Подключаем в git новый merge-driver. Для этого вносим изменения в файл конфигурации git.
Для включения драйвера только для одного репозитория вносим изменения в файл <папка проекта>.gitconfg
Или, для включения драйвера для всех локальных репозиториев, вносим изменения в файл глобальный файл настроек .gitconfig, который лежит в папке профиля пользователя (в windows это %userprofile%), например C:Users<имя пользователя>.gitconfig

[merge "json_merge"]
    name = A custom merge driver for json files
    driver = cscript //B //Nologo 'C:/Program Files (x86)/Git/lib/jsonmerge.js' %O %A %B
    recursive = binary

Для node.js строка driver выглядит так:

    driver = node 'C:/Program Files (x86)/Git/lib/jsonmerge.js' %O %A %B

Не забываем изменить путь к файлу jsonmerge.js на свой.

3. Указываем, для каких расширений файлов применять данный драйвер в файле .gitattributes. Его можно расположить в любой папке проекта, чтобы распространить его действие на папки нижнего уровня. Обычно находится в корневой папке проекта:

*.json merge=json_merge

Изначально скрипт на coffeescript был взят отсюда, переведен на чистый javacript и доработан, чтобы его можно было запускать в windows через стандартный Windows Script Host. Также добавлена обработка ошибок: если JSON-структура одного из сливаемых файлов некорректная, оригинальный скрипт не возвращает признак конфликта, и git считает слияние успешным. В моем версии это исправлено.

Собственно, сам скрипт

Версия jsonmerge.js под node.js

var ancestor, conflicts, fs, make_conflict_node, merge, ours, theirs;

fs = require('fs');

try {
ancestor = JSON.parse(fs.readFileSync(process.argv[2]));
} catch(e) {
  console.log('Incorrect JSON in ancestor file '+process.argv[2]+ ' '+e.message);
  process.exit(1);
}

try {
ours = JSON.parse(fs.readFileSync(process.argv[3]));
} catch(e) {
  console.log('Incorrect JSON in ours file '+process.argv[3]+ ' '+e.message);
  process.exit(1);
}

try {
theirs = JSON.parse(fs.readFileSync(process.argv[4]));
} catch(e) {
  console.log('Incorrect JSON in theirs file '+process.argv[4]+ ' '+e.message);
  process.exit(1);
}

conflicts = false;

make_conflict_node = function(ancestor_value, our_value, their_value, path) {
  var res;
  res = {};
  res['CONFLICT'] = '<<<<<<<<>>>>>>>>';
  res['OURS'] = our_value != null ? our_value : null;
  res['THEIRS'] = their_value != null ? their_value : null;
  res['ANCESTOR'] = ancestor_value != null ? ancestor_value : null;
  res['PATH'] = path.join('.');
  return res;
};

merge = function(ancestor_node, our_node, their_node, path) {
  var ancestor_value, key, keys, our_value, sub_path, their_value, _, _results;
  if (path == null) {
    path = [];
  }
  keys = {};
  for (key in our_node) {
    _ = our_node[key];
    keys[key] = true;
  }
  for (key in their_node) {
    _ = their_node[key];
    keys[key] = true;
  }
  _results = [];
  for (key in keys) {
    _ = keys[key];
    ancestor_value = ancestor_node != null ? ancestor_node[key] : void 0;
    our_value = our_node != null ? our_node[key] : void 0;
    their_value = their_node != null ? their_node[key] : void 0;
    sub_path = path.concat(key);
    if (our_value !== their_value) {
      if (JSON.stringify(their_value) === JSON.stringify(ancestor_value)) {
        continue;
      } else if (JSON.stringify(our_value) === JSON.stringify(ancestor_value)) {
        _results.push(our_node[key] = their_value);
      } else if (our_value && their_value && typeof our_value === 'object' && typeof their_value === 'object') {
        _results.push(merge(ancestor_value, our_value, their_value, sub_path));
      } else {
        conflicts = true;
        _results.push(our_node[key] = make_conflict_node(ancestor_value, our_value, their_value, sub_path));
      }
    } else {
      _results.push(void 0);
    }
  }
  return _results;
};

merge(ancestor, ours, theirs);

fs.writeFileSync(process.argv[3], JSON.stringify(ours, null, 4));

process.exit(conflicts ? 1 : 0);

Версия jsonmerge.js под node.js

/*
    json2.js
    2014-02-04

    Public Domain.

    NO WARRANTY EXPRESSED OR IMPLIED. USE AT YOUR OWN RISK.

    See http://www.JSON.org/js.html


    This code should be minified before deployment.
    See http://javascript.crockford.com/jsmin.html

    USE YOUR OWN COPY. IT IS EXTREMELY UNWISE TO LOAD CODE FROM SERVERS YOU DO
    NOT CONTROL.


    This file creates a global JSON object containing two methods: stringify
    and parse.

        JSON.stringify(value, replacer, space)
            value       any JavaScript value, usually an object or array.

            replacer    an optional parameter that determines how object
                        values are stringified for objects. It can be a
                        function or an array of strings.

            space       an optional parameter that specifies the indentation
                        of nested structures. If it is omitted, the text will
                        be packed without extra whitespace. If it is a number,
                        it will specify the number of spaces to indent at each
                        level. If it is a string (such as 't' or ' '),
                        it contains the characters used to indent at each level.

            This method produces a JSON text from a JavaScript value.

            When an object value is found, if the object contains a toJSON
            method, its toJSON method will be called and the result will be
            stringified. A toJSON method does not serialize: it returns the
            value represented by the name/value pair that should be serialized,
            or undefined if nothing should be serialized. The toJSON method
            will be passed the key associated with the value, and this will be
            bound to the value

            For example, this would serialize Dates as ISO strings.

                Date.prototype.toJSON = function (key) {
                    function f(n) {
                        // Format integers to have at least two digits.
                        return n < 10 ? '0' + n : n;
                    }

                    return this.getUTCFullYear()   + '-' +
                         f(this.getUTCMonth() + 1) + '-' +
                         f(this.getUTCDate())      + 'T' +
                         f(this.getUTCHours())     + ':' +
                         f(this.getUTCMinutes())   + ':' +
                         f(this.getUTCSeconds())   + 'Z';
                };

            You can provide an optional replacer method. It will be passed the
            key and value of each member, with this bound to the containing
            object. The value that is returned from your method will be
            serialized. If your method returns undefined, then the member will
            be excluded from the serialization.

            If the replacer parameter is an array of strings, then it will be
            used to select the members to be serialized. It filters the results
            such that only members with keys listed in the replacer array are
            stringified.

            Values that do not have JSON representations, such as undefined or
            functions, will not be serialized. Such values in objects will be
            dropped; in arrays they will be replaced with null. You can use
            a replacer function to replace those with JSON values.
            JSON.stringify(undefined) returns undefined.

            The optional space parameter produces a stringification of the
            value that is filled with line breaks and indentation to make it
            easier to read.

            If the space parameter is a non-empty string, then that string will
            be used for indentation. If the space parameter is a number, then
            the indentation will be that many spaces.

            Example:

            text = JSON.stringify(['e', {pluribus: 'unum'}]);
            // text is '["e",{"pluribus":"unum"}]'


            text = JSON.stringify(['e', {pluribus: 'unum'}], null, 't');
            // text is '[nt"e",nt{ntt"pluribus": "unum"nt}n]'

            text = JSON.stringify([new Date()], function (key, value) {
                return this[key] instanceof Date ?
                    'Date(' + this[key] + ')' : value;
            });
            // text is '["Date(---current time---)"]'


        JSON.parse(text, reviver)
            This method parses a JSON text to produce an object or array.
            It can throw a SyntaxError exception.

            The optional reviver parameter is a function that can filter and
            transform the results. It receives each of the keys and values,
            and its return value is used instead of the original value.
            If it returns what it received, then the structure is not modified.
            If it returns undefined then the member is deleted.

            Example:

            // Parse the text. Values that look like ISO date strings will
            // be converted to Date objects.

            myData = JSON.parse(text, function (key, value) {
                var a;
                if (typeof value === 'string') {
                    a =
/^(d{4})-(d{2})-(d{2})T(d{2}):(d{2}):(d{2}(?:.d*)?)Z$/.exec(value);
                    if (a) {
                        return new Date(Date.UTC(+a[1], +a[2] - 1, +a[3], +a[4],
                            +a[5], +a[6]));
                    }
                }
                return value;
            });

            myData = JSON.parse('["Date(09/09/2001)"]', function (key, value) {
                var d;
                if (typeof value === 'string' &&
                        value.slice(0, 5) === 'Date(' &&
                        value.slice(-1) === ')') {
                    d = new Date(value.slice(5, -1));
                    if (d) {
                        return d;
                    }
                }
                return value;
            });


    This is a reference implementation. You are free to copy, modify, or
    redistribute.
*/

/*jslint evil: true, regexp: true */

/*members "", "b", "t", "n", "f", "r", """, JSON, "\", apply,
    call, charCodeAt, getUTCDate, getUTCFullYear, getUTCHours,
    getUTCMinutes, getUTCMonth, getUTCSeconds, hasOwnProperty, join,
    lastIndex, length, parse, prototype, push, replace, slice, stringify,
    test, toJSON, toString, valueOf
*/


// Create a JSON object only if one does not already exist. We create the
// methods in a closure to avoid creating global variables.

if (typeof JSON !== 'object') {
    JSON = {};
}

(function () {
    'use strict';

    function f(n) {
        // Format integers to have at least two digits.
        return n < 10 ? '0' + n : n;
    }

    if (typeof Date.prototype.toJSON !== 'function') {

        Date.prototype.toJSON = function () {

            return isFinite(this.valueOf())
                ? this.getUTCFullYear()     + '-' +
                    f(this.getUTCMonth() + 1) + '-' +
                    f(this.getUTCDate())      + 'T' +
                    f(this.getUTCHours())     + ':' +
                    f(this.getUTCMinutes())   + ':' +
                    f(this.getUTCSeconds())   + 'Z'
                : null;
        };

        String.prototype.toJSON      =
            Number.prototype.toJSON  =
            Boolean.prototype.toJSON = function () {
                return this.valueOf();
            };
    }

    var cx,
        escapable,
        gap,
        indent,
        meta,
        rep;


    function quote(string) {

// If the string contains no control characters, no quote characters, and no
// backslash characters, then we can safely slap some quotes around it.
// Otherwise we must also replace the offending characters with safe escape
// sequences.

        escapable.lastIndex = 0;
        return escapable.test(string) ? '"' + string.replace(escapable, function (a) {
            var c = meta[a];
            return typeof c === 'string'
                ? c
                : '\u' + ('0000' + a.charCodeAt(0).toString(16)).slice(-4);
        }) + '"' : '"' + string + '"';
    }


    function str(key, holder) {

// Produce a string from holder[key].

        var i,          // The loop counter.
            k,          // The member key.
            v,          // The member value.
            length,
            mind = gap,
            partial,
            value = holder[key];

// If the value has a toJSON method, call it to obtain a replacement value.

        if (value && typeof value === 'object' &&
                typeof value.toJSON === 'function') {
            value = value.toJSON(key);
        }

// If we were called with a replacer function, then call the replacer to
// obtain a replacement value.

        if (typeof rep === 'function') {
            value = rep.call(holder, key, value);
        }

// What happens next depends on the value's type.

        switch (typeof value) {
        case 'string':
            return quote(value);

        case 'number':

// JSON numbers must be finite. Encode non-finite numbers as null.

            return isFinite(value) ? String(value) : 'null';

        case 'boolean':
        case 'null':

// If the value is a boolean or null, convert it to a string. Note:
// typeof null does not produce 'null'. The case is included here in
// the remote chance that this gets fixed someday.

            return String(value);

// If the type is 'object', we might be dealing with an object or an array or
// null.

        case 'object':

// Due to a specification blunder in ECMAScript, typeof null is 'object',
// so watch out for that case.

            if (!value) {
                return 'null';
            }

// Make an array to hold the partial results of stringifying this object value.

            gap += indent;
            partial = [];

// Is the value an array?

            if (Object.prototype.toString.apply(value) === '[object Array]') {

// The value is an array. Stringify every element. Use null as a placeholder
// for non-JSON values.

                length = value.length;
                for (i = 0; i < length; i += 1) {
                    partial[i] = str(i, value) || 'null';
                }

// Join all of the elements together, separated with commas, and wrap them in
// brackets.

                v = partial.length === 0
                    ? '[]'
                    : gap
                    ? '[n' + gap + partial.join(',n' + gap) + 'n' + mind + ']'
                    : '[' + partial.join(',') + ']';
                gap = mind;
                return v;
            }

// If the replacer is an array, use it to select the members to be stringified.

            if (rep && typeof rep === 'object') {
                length = rep.length;
                for (i = 0; i < length; i += 1) {
                    if (typeof rep[i] === 'string') {
                        k = rep[i];
                        v = str(k, value);
                        if (v) {
                            partial.push(quote(k) + (gap ? ': ' : ':') + v);
                        }
                    }
                }
            } else {

// Otherwise, iterate through all of the keys in the object.

                for (k in value) {
                    if (Object.prototype.hasOwnProperty.call(value, k)) {
                        v = str(k, value);
                        if (v) {
                            partial.push(quote(k) + (gap ? ': ' : ':') + v);
                        }
                    }
                }
            }

// Join all of the member texts together, separated with commas,
// and wrap them in braces.

            v = partial.length === 0
                ? '{}'
                : gap
                ? '{n' + gap + partial.join(',n' + gap) + 'n' + mind + '}'
                : '{' + partial.join(',') + '}';
            gap = mind;
            return v;
        }
    }

// If the JSON object does not yet have a stringify method, give it one.

    if (typeof JSON.stringify !== 'function') {
        escapable = /[\"x00-x1fx7f-x9fu00adu0600-u0604u070fu17b4u17b5u200c-u200fu2028-u202fu2060-u206fufeffufff0-uffff]/g;
        meta = {    // table of character substitutions
            'b': '\b',
            't': '\t',
            'n': '\n',
            'f': '\f',
            'r': '\r',
            '"' : '\"',
            '\': '\\'
        };
        JSON.stringify = function (value, replacer, space) {

// The stringify method takes a value and an optional replacer, and an optional
// space parameter, and returns a JSON text. The replacer can be a function
// that can replace values, or an array of strings that will select the keys.
// A default replacer method can be provided. Use of the space parameter can
// produce text that is more easily readable.

            var i;
            gap = '';
            indent = '';

// If the space parameter is a number, make an indent string containing that
// many spaces.

            if (typeof space === 'number') {
                for (i = 0; i < space; i += 1) {
                    indent += ' ';
                }

// If the space parameter is a string, it will be used as the indent string.

            } else if (typeof space === 'string') {
                indent = space;
            }

// If there is a replacer, it must be a function or an array.
// Otherwise, throw an error.

            rep = replacer;
            if (replacer && typeof replacer !== 'function' &&
                    (typeof replacer !== 'object' ||
                    typeof replacer.length !== 'number')) {
                throw new Error('JSON.stringify');
            }

// Make a fake root object containing our value under the key of ''.
// Return the result of stringifying the value.

            return str('', {'': value});
        };
    }


// If the JSON object does not yet have a parse method, give it one.

    if (typeof JSON.parse !== 'function') {
        cx = /[u0000u00adu0600-u0604u070fu17b4u17b5u200c-u200fu2028-u202fu2060-u206fufeffufff0-uffff]/g;
        JSON.parse = function (text, reviver) {

// The parse method takes a text and an optional reviver function, and returns
// a JavaScript value if the text is a valid JSON text.

            var j;

            function walk(holder, key) {

// The walk method is used to recursively walk the resulting structure so
// that modifications can be made.

                var k, v, value = holder[key];
                if (value && typeof value === 'object') {
                    for (k in value) {
                        if (Object.prototype.hasOwnProperty.call(value, k)) {
                            v = walk(value, k);
                            if (v !== undefined) {
                                value[k] = v;
                            } else {
                                delete value[k];
                            }
                        }
                    }
                }
                return reviver.call(holder, key, value);
            }


// Parsing happens in four stages. In the first stage, we replace certain
// Unicode characters with escape sequences. JavaScript handles many characters
// incorrectly, either silently deleting them, or treating them as line endings.

            text = String(text);
            cx.lastIndex = 0;
            if (cx.test(text)) {
                text = text.replace(cx, function (a) {
                    return '\u' +
                        ('0000' + a.charCodeAt(0).toString(16)).slice(-4);
                });
            }

// In the second stage, we run the text against regular expressions that look
// for non-JSON patterns. We are especially concerned with '()' and 'new'
// because they can cause invocation, and '=' because it can cause mutation.
// But just to be safe, we want to reject all unexpected forms.

// We split the second stage into 4 regexp operations in order to work around
// crippling inefficiencies in IE's and Safari's regexp engines. First we
// replace the JSON backslash pairs with '@' (a non-JSON character). Second, we
// replace all simple value tokens with ']' characters. Third, we delete all
// open brackets that follow a colon or comma or that begin the text. Finally,
// we look to see that the remaining characters are only whitespace or ']' or
// ',' or ':' or '{' or '}'. If that is so, then the text is safe for eval.

            if (/^[],:{}s]*$/
                    .test(text.replace(/\(?:["\/bfnrt]|u[0-9a-fA-F]{4})/g, '@')
                        .replace(/"[^"\nr]*"|true|false|null|-?d+(?:.d*)?(?:[eE][+-]?d+)?/g, ']')
                        .replace(/(?:^|:|,)(?:s*[)+/g, ''))) {

// In the third stage we use the eval function to compile the text into a
// JavaScript structure. The '{' operator is subject to a syntactic ambiguity
// in JavaScript: it can begin a block or an object literal. We wrap the text
// in parens to eliminate the ambiguity.

                j = eval('(' + text + ')');

// In the optional fourth stage, we recursively walk the new structure, passing
// each name/value pair to a reviver function for possible transformation.

                return typeof reviver === 'function'
                    ? walk({'': j}, '')
                    : j;
            }

// If the text is not JSON parseable, then a SyntaxError is thrown.

            throw new SyntaxError('JSON.parse');
        };
    }
}());


function readFile(fname){
    var fso = new ActiveXObject("Scripting.FileSystemObject");
    var ForReading = 1;
    //WScript.Echo(fname);
	var file = fso.GetFile(fname);
    var stream = file.OpenAsTextStream(ForReading,0);
    var text = stream.ReadAll();
	//WScript.Echo(text);
    stream.close();
    return text;
}

function writeFile(fname, text){
    var fso = new ActiveXObject("Scripting.FileSystemObject");
    var Overwrite = 1;
    //WScript.Echo(fname);
	var stream = fso.CreateTextFile(fname,Overwrite);
	//WScript.Echo(text);
    stream.Write(text);
    stream.close();
}

var ancestor, conflicts, fs, make_conflict_node, merge, ours, theirs;


//fs = require('fs');
fso = new ActiveXObject("Scripting.FileSystemObject");

var Args = WScript.Arguments;

//ancestor = JSON.parse(fs.readFileSync(process.argv[2]));
/*
WScript.Echo(Args(0));
WScript.Echo(Args(1));
WScript.Echo(Args(2));
*/

try {
  ancestor = JSON.parse(readFile(Args(0)));
} catch(e) {
  WScript.Echo('Incorrect JSON in ancestor file '+Args(0)+ ' '+e.message);
  WScript.quit(1);
}


try {
  ours = JSON.parse(readFile(Args(1)));
} catch(e) {
  WScript.Echo('Incorrect JSON in ours file '+Args(1)+ ' '+e.message);
  WScript.quit(1);
}

try {
theirs = JSON.parse(readFile(Args(2)));
} catch(e) {
  WScript.Echo('Incorrect JSON in theirs file '+Args(2)+ ' '+e.message);
  WScript.quit(1);
}


conflicts = false;

make_conflict_node = function(ancestor_value, our_value, their_value, path) {
  var res;
  res = {};
  res['CONFLICT'] = '<<<<<<<<>>>>>>>>';
  res['OURS'] = our_value != null ? our_value : null;
  res['THEIRS'] = their_value != null ? their_value : null;
  res['ANCESTOR'] = ancestor_value != null ? ancestor_value : null;
  res['PATH'] = path.join('.');
  return res;
};

merge = function(ancestor_node, our_node, their_node, path) {
  var ancestor_value, key, keys, our_value, sub_path, their_value, _, _results;
  if (path == null) {
    path = [];
  }
  keys = {};
  for (key in our_node) {
    _ = our_node[key];
    keys[key] = true;
  }
  for (key in their_node) {
    _ = their_node[key];
    keys[key] = true;
  }
  _results = [];
  for (key in keys) {
    _ = keys[key];
    ancestor_value = ancestor_node != null ? ancestor_node[key] : void 0;
    our_value = our_node != null ? our_node[key] : void 0;
    their_value = their_node != null ? their_node[key] : void 0;
    sub_path = path.concat(key);
    if (our_value !== their_value) {
      if (JSON.stringify(their_value) === JSON.stringify(ancestor_value)) {
        continue;
      } else if (JSON.stringify(our_value) === JSON.stringify(ancestor_value)) {
        _results.push(our_node[key] = their_value);
      } else if (our_value && their_value && typeof our_value === 'object' && typeof their_value === 'object') {
        _results.push(merge(ancestor_value, our_value, their_value, sub_path));
      } else {
        conflicts = true;
        _results.push(our_node[key] = make_conflict_node(ancestor_value, our_value, their_value, sub_path));
      }
    } else {
      _results.push(void 0);
    }
  }
  return _results;
};

merge(ancestor, ours, theirs);

//fs.writeFileSync(process.argv[3], JSON.stringify(ours, null, 4));
writeFile(Args(1), JSON.stringify(ours, null, 4));

//process.exit(conflicts ? 1 : 0);
WScript.quit(conflicts ? 1 : 0);


Автор: Mur466

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js