Модель проявления сознания или ИНС без эффекта забывания

в 0:57, , рубрики: искусственный интеллект, Философия ИИ, метки:

Эта статья продолжение Модель функционального разделения сознания и бессознательного. Введение. В ней мы лирически описали принципы перцептрона Розенблатта. И подняли проблему обучения от двух и более учителей. В этой статье проблема «двух и более учителей» не рассматривается, её мне достаточно сложно сформулировать технически на простых примерах (на сложных могу). Поэтому с этим будем разбираться возможно в следующей статье — если будет некоторый интерес.

В этой статье мы поговорим о сознании, но если желаете пропустить лирику (а специалистов она несколько напрягает, но хотелось чтобы поняли не только специалисты), то начинайте читать с раздела «Модель «Нулевого сознания» в Интеллектронике». Но лирика все же дает некоторые идеи о связи с такими фиктивными понятиями как сознание.

Первое, определимся с тем, что такое бессознательное. Это на самом деле проще, чем может показаться первоначально. Бессознательное – это весь механизм памяти и те эффекты, которые там возникают. Этому, в частности, была посвящена предыдущая статья. Вся та распределенность, ассоциативность, двухуровневость никогда не были сознательны, все эти эффекты внутренние. А на поверхность допускается лишь конечный результат (элементы реакции) под воздействием сознательного комплекса.

Второе, довольно важное положение, это описание сознательного комплекса. Чем он отличается от всего бессознательного, от прочей работы памяти?

Комплекс, согласно Юнгу, образуется когда бессознательная область психики приводится в движение. Процессы, происходящие в бессознательном, могут в чем-то противоречить друг другу. Тогда эти процессы выносятся на уровень сознания. Сознание может лишить энергии, которую следовало бы направить на разрешение этого комплекса. Если это происходит, то возникает т.н. “понижение умственного уровня”. Интенсивность сознательных интересов и деятельности постепенно убывает, из-за чего возникает либо апатичная инертность, либо регрессивное развитие сознательных функций, под этим понимается опускание последних на их инфантильные и архаичные первоступени, т.е. нечто вроде дегенерации. Но сознание может отождествить себя с данным комплексом. Тогда наличие таких комплексов становиться одним из нормальных свойств психики. Эти сознательные комплексы проявляются в сколько-нибудь дифференцированной типовой установке или потребности.

Именно такой сознательный комплекс возникает в процессе обучения. Любое обучение – это декларация противоречивых для бессознательного вещей. Этот комплекс устанавливает определенную активность, ответственную за принадлежность внешних стимулов к определенному типу явлений. Сама эта активность возникает как бы изнутри, как борьба сознания с противоречивостью бессознательного. Этим она отличается от другой активности, которая возникает в бессознательном в ответ на стимулы внешней среды.

Работа такого сознательного комплекса серьезно ускоряет процесс обучения. Это происходит от того, что комплекс сам дифференцирует различные типы явлений, а при обучении остается согласовать это с другой возникающей активностью бессознательного. Это намного проще, чем полностью согласовывать достаточно противоречивую активность бессознательного.

Далее весь вопрос в степени захваченности обучения сознанием. Если обучение произошло быстро – это показывает высокую степень осознанности. Теперь когда происходит проверка способности, обучение которой произошло, важным становиться объем полученного обучения. Если он крайне мал (по сравнению с общим объемом области знаний), то все равно включается бессознательное, и пытается хоть как-то заменить работу сознанию, обобщая как можно полученные знания, с целью предвидеть реальность. К сожалению, бессознательному в этом случае практически нечего обобщать и получается лишь некая нелепица.

Если же объем полученных знаний более высок, он вытесняет бессознательные процессы. И сознание восстанавливает ранее полученные знания, а бессознательное допускает лишь для небольшого минимального обобщения знаний. Но для всех тех областей, которые не были непосредственно заученны, в результате просто не возможно сделать ни какого предположения, и тем более предвиденья их значений.

Интуиция работает удовлетворительно лишь тогда, когда процесс обучения не был полностью захвачен сознанием, а происходила некая отвлеченность. Эта отвлеченность или последующая забывчивость не должны быть слишком большими, ориентировочно должно оставаться 80% внимания. При этом процесс обучения немного затягивается – это позволяет включиться в обучение бессознательному.

Когда же позже происходит проверка способности (при достаточном объеме полученных знаний), работа сознания позволяет очертить четкие границы знаний, а работа бессознательного наполнить содержанием те места, обучению которым не уделялось внимания, т.е. происходит некое обобщение, предвиденье (прогнозирование).

В отдельности работа бессознательного в этом случае представляет некое “размытое пятно”, при наложении на которое работы сознания, получается достоверные знания.

Но иногда процесс обучения может не сопровождаться присутствием сознания. При этом позже будет получено достаточно удовлетворительный результат, но зато никогда не возможно будет достичь четкости. Знания будут постоянно размыты.

Модель «Нулевого сознания» в Интеллектронике

«Комплекс устанавливает определенную активность, ответственную за принадлежность внешних стимулов к определенному типу явлений. Сама эта активность возникает как бы изнутри, как борьба сознания с противоречивостью бессознательного.»

Эта фраза для практика – кибернетика сильно расплывчата и мало указывает какой особенностью должна обладать модель сознания. Здесь мы постараемся объяснить эту мысль более конкретно.

За основу модели берется модель памяти – перцептрон Розенблатта. В перцептроне известна проблема забываемости. Она проявляется так: при обучении каждый последующий стимул может затереть память, а точнее изменить весовые коэффициенты, на которых базировалась реакция при предыдущем стимуле. Поэтому за один проход (итерацию) при котором единожды показываются стимулы из обучающей выборки, даже если на конкретный стимул уже была получена правильная реакция, последующие обучение может привести к забыванию. Поэтому обучение завершается только когда согласованы все пары стимул-реакция по всей обучающей выборке, которые периодически забываются.

Это и понятно, т.к. это соответствует нахождению коэффициентов в системе уравнений. Если были найдены коэффициенты удовлетворяющие решению нескольких уравнений К из общего числа уравнений N в системе, то при последующем поиске коэффициентов, несмотря на то, что будут согласованы другие M уравнений, для некоторых из К будут опять не совпадать условия. Эта проблема является причиной длительного обучения.

Упростить, улучшить и тем самым получить более быстрое обучение можно применив описанный ниже прием. Этот прием по внешним результатам напоминает проявление сознания в бессознательном. Но не будем забегать вперед.

Можно было бы вообще не пользоваться моделью перцептрона, а просто запоминать соответствия вход-выход. Но тем самым мы лишились бы возможности делать некоторые обобщения и главное, у нас не было бы модели взаимосвязи интересующей нас предметной области, выраженной системой нелинейных уравнений.

Аналогичный этому результат можно было бы получить напрямую вмешиваясь в управление активацией элементов ассоциативного слоя (А-элементов). Что это дало бы?

Скажем, выделим для этих целей дополнительно столько А-элементов, сколько и R-элементов, т.е. увеличим размер памяти, не связывая ее с сенсорными элементами, на размер реагирующих элементов. А во время обучения, при подачи соответствующего стимула на сенсорные элементы, будем одновременно устанавливать активность этих дополнительных А-элементов. При этом эту активность будем устанавливать, так чтобы она в точности соответствовала требуемую состоянию R-элементов. Состояние же активности других А-элементов будет псевдослучайным, точнее каким-то образом будет зависеть от входного стимула.

В таком случае, обучение будет практически мгновенным, т.к. в памяти (ассоциативном слое) искусственно образуется такой паттерн, как и требуемый на выходе. Этим и воспользуется процедура обучения, цель которой будет лишь нейтрализовать случайную активность на других “обычных” А-элементах.

Следует отметить, что представленный здесь прием “ускоренного обучения” имеет существенный недостаток – такая модель практически исключает возможность обобщения и последующего прогнозирования на экзаменационном множестве. Это ставит под сомнение, в таком случае, вообще применение перцептрона.

Но это, естественно, вырожденный пример. Стоит лишь изменить некоторые детали и тогда такой прием “ускоренного обучения” будет обладать существенными преимуществами перед любой нейронной сетью по ряду параметров.

Такие детали состоят в следующем. Необходимо ввести некоторый элемент случайности (мутирования) в активацию дополнительных А-элементов, о которых говорилось выше. Например, при необходимости активировать дополнительный А-элемент мы будем в 80% (эту цифру назовем фактором внимания, или что технически точнее — точностью прогнозирования) случаев реально его активировать. Это несколько замедлит обучение, т.к. сенсорную активность уже будет не так просто нейтрализовать. А так как во внутренней активности будет потерянна 100% достоверность необходимой на выходе реакции, то процедуре настройки коэффициентов (обучению) потребуется учитывать и сенсорную информацию и согласовывать ее с внутренней. Этот процесс можно образно, или просто в более узком, частном проявлении – назвать проявлением сознательного из бессознательного.

Самое важное, что применяя эту модель “за плечами” остается проблема забывания и в такой нейронной сети (в отличии от других) не возникает ситуаций, что она прогнозирует хуже, чем была обучена. Такая сеть позволяет регулировать (посредством фактора внимания) уровень обобщения – в одном крайнем случае получать учет всей обучающей выборки, но практически с отсутствием возможности прогнозирования; в другом крайнем случае, получаем результат аналогичный результату перцептрона, когда обобщение настолько велико, что образ становиться сильно размытым и уже нельзя понять какие черты образа правдоподобны (соответствуют обучению); меняя же фактор внимания можно плавно регулировать уровень обобщения получив дополнительно к известным чертам образа наиболее вероятное обобщение. Более того скорость обучения становиться прогнозируемой и зависит от фактора внимания.

Стоит упомянуть, что в некоторых известных нейронных сетях уже и ранее были, на взгляд автора, не вполне осознано использованы некоторые принципы представленные здесь.

Так, например, метод СС4 S. Kak, использует идеи угловой классификации, и пытается максимально ускорить обучение посредством статического расчета активности внутреннего слоя, искусственно активируя лишь один А-элемент для разных стимулов. Это сходно с тем, что мы непосредственно воздействуем на активность А-слоя, но отличается тем, что мы более точно ставим соответствие активности А-слоя с необходимым результатом на R-слой. А также плавность обобщения при угловой классификации (которая осуществляется уже другим способом, чем у нас) оставляет желать лучшего.

Так же стохастические сети Амосова, в которых, также на взгляд автора, необоснованно большое внимание уделяется вопросу случайности активации ассоциативного слоя имеют некоторую аналогию в нашем подходе. Имеется ввиду принцип случайности активации дополнительных А-элементов в зависимости от величины фактора внимания, но в отличии от сетей Амосова, остальные А-элементы при активации не подвержены такой случайности.

Именно цельность нашего подхода позволяет говорить о, пускай и отдаленной, но аналогии с информационными процессами возникающими при проявлении сознания у человека. В конце концов, наша модель сознания имеет такое же отношение к человеческому сознанию, как и модель искусственного нейрона к нейрону биологическому.

Напоследок, стоит обратить внимание на то, что такая модель “нулевого сознания”, естественно, нуждается в усовершенствовании.

И первым становиться вопрос об искусственности применяемого приема, ведь мы непосредственно как “с неба” регулируем дополнительные элементы в ассоциативном слое. Они должны зависеть от сигналов с обратных связей, и прогнозировать состояние которое должно случится. Это как раз одна из причин почему интересны сети Хокинса — Иерархическая Темпоральная Память (НТМ).

Вторым и главным, здесь не включено моделирование проблемы «обучения от нескольких учителей», а соответственно, противоречия — сознательного комплекса, еще не возникает.

Автор: tac

* - обязательные к заполнению поля