Рубрика «поисковые системы» - 11

Пока компьютер не начнет думать как человек, он не сможет отличить плохой сайт от хорошего… так, как это сделал бы человек. На самом деле поисковые системы имеют в своих арсеналах методики сбора и анализа данных, с помощью которых кремниевые мозги легко затыкают за пояс знатоков из мяса.

Сразу оговоримся — под «хорошим» сайтом мы имеем в виду «достойный занять место в поисковой выдаче по конкретному ключевому запросу», не будем погружаться в дебри эстетики сайтостроения.

Итак, если не вдаваться в детали, сейчас в поисковых системах комплексно применяется три подхода: ранжирование страниц по авторитетности (пример — принесший Google популярность алгоритм PageRank), поведенческие факторы (анализ действий реальных посетителей реальных сайтов) и машинное обучение (пример — «Матрикснет» Яндекса, который обучает алгоритмы оценками выборок специалистами-асессорами, ну и по сути увязывает и уравновешивает первые два подхода).

Ранжирование по авторитетности на ранних этапах развития интернета работало очень хорошо, но в дальнейшем «слишком математическая» природа такого подхода позволила оптимизаторам применять фокусы, использующие найденные в ходе экспериментов слабости системы. Качество выдачи страдало, поисковики вводили поправки, дополнительные формулы и коэффициенты, фильтры и санкции, но по-настоящему крупный прорыв был сделан, когда появилась возможность ранжировать сайты на основе предпочтений их реальных живых посетителей. Анализ поведенческих факторов объективнее любых личных пристрастий (как экспертных, так и профанных), поскольку работает с предпочтениями большой выборки целевой аудитории.
Читать полностью »

Поведенческие факторы и с чем их едят
Доброго времени суток!
Более подробно остановимся на:

  • Поведенческие факторы? Курим или реальность? А как пощупать?
  • Нужно построить зиккурат больше информации. Откуда поисковые системы узнают о поведении пользователей?
  • Чего ПС ценят в поведении людей? Основные факторы
  • Как заставить людей вести себя хорошо! Плетка? Пряник?
  • Ну и на последок…

Читать полностью »

GSA: Препарируем Google Search Appliance в виртуальной машине
Последние годы, с интересом почитывая о персональных поисковых системах в веселых желтых коробках имени Google, я периодически гуглил по словам GSA, Google Search Appliance, reverse engineering и, чего греха таить, hack, DIY, disk dump и т.п. Но ничего, кроме официальных пресс-релизов и переписки счастливых (?) обладателей с группой поддержки, я не встречал.

Иногда звучали на форумах робкие вопросы вроде «а как бы рута мне получить» или «попасть в GSA по ssh», но на все подобные вопросы ответ был один — только группа поддержки Google знает пароли. И никому не скажет. Удивительно, но я не встречал в интернете никаких попыток собрать «хакинтош» на движке Гугла, или по живому коду разобраться в алгоритме ранжирования страниц.

Ситуация слегка изменилась в 2008 году, когда на волне эйфории от виртуализации, Google выкатил VGSA – бесплатную виртуальную машину для Vmware с ограниченной до 50 тысяч документов лицензией. Впрочем, особого энтузиазма это в интернете не вызвало, в 2009 году проект был свернут и большинство ссылок в Гугле на VGSA стали возвращать 404 (заметьте – самим же Гуглом). Ссылку на релиз от 2008 года можно найти довольно легко. Ссылка на версию 2009 сохранилась лишь на паре китайских сайтов.

О том, как я поставил vgsa_20090210 на ESX 5.1, зашел рутом, снял ограничение на размер индекса и увидел много чего интересного с точки зрения СЕО, можно Читать полностью »

В предыдущей статье, обсуждение получилось слишком крикливым. Но мы открыли свой сайт и там я переписал более взвешенно. Написанное там рекомендую прочитать, чтобы потом не жаловаться на сложность изложения. На самом деле нужен минимум информации для понимания. Я обещал написать продолжение о своем эксперименте, поэтому те кто заинтересовался проблематикой построения эволюционных деревьев — прошу под кат. Читать полностью »

Приветствую! Надеюсь, эта статья будет кому-нибудь полезна.

Многие знают о возможностях адресной строки Chrome, запоминающей поисковые системы различных сайтов. Однако эффективно ее использовать, думаю, умеют далеко не все.
Я сижу в интернете исключительно через этот браузер (дело вкуса и привычки, конечно) и использую кастомизированный поиск в Chrome по несколько десятков раз в день. Большое количество действий, ежедневно выполняемых через браузер, можно оптимизировать, добавив в список определенные поисковые системы.

Итак, кончаю муть, перехожу к «технической» и практической стороне дела.
Читать полностью »

image

Прототип алгоритма определения происхождения информационного всплеска.

Читать полностью »

Этот проект был задуман давно. Лет 5 назад я считал, что многие результаты в геномике могут быть получены людьми далекими от биологии, коим я в полной мере являюсь. Конечно за это время я немного нахватался терминологии и немного узнал как работают специалисты. Но чем больше я узнавал как работают специалисты тем большие отторжение это у меня вызывало. Я считаю, что они явно много незаслуженно усложняют в результате чего не простая область становится не проходимой. В то время как все достаточно просто и качественно можно сделать. И да я с ними пытаюсь конкурировать (конечно, только в определенной узкой области), как бы наивно это не выглядело.

Вся проблема этого проекта — это то, что я его единственный полноценный участник. Конечно, я успел со многими за это время поговорить и многие оказали реальное влияние на проект. Всем им спасибо. Понятно, что не коммерческий проект не сильно может рассчитывать на успех. Да, действительно за каждым научным проектом стоит солидные около миллионные вливания и команда серьезных ученных. У нас этого нет, а есть лишь гуманизм и энтузиазм.

Поэтому в первую очередь я нуждаюсь в советах от тех у кого есть опыт в стартапе подобных проектов на не коммерческой основе. Во вторую очередь, нужна собственно команда программистов (от знания биологии, при необходимости, я вас освобожу :) ). А сейчас я хотел бы найти таких энтузиастов, которые могли бы обеспечить работу (скажем скромно) домашней веб-страницы проекта (прошу писать мне на почту tac@inbox.lv или личными сообщениями хабра). И конечно, важен любой другой отклик и предложения.

А ниже я расскажу идею и то на что претендует проект, а также о текущих результатах, а они в худшем случае сравнимы с теми которые дают специалисты. Но я вполне самокритичен, поэтому всегда готов выслушать критику — желательно не в мой адрес, а в адрес проекта.

Читать полностью »

Этот пост о боли ученых и простых людей, которым нужно найти «сложную» информацию. Так уж сложилось, что лишь немногие умеют правильно формулировать вопросы к поисковикам. Очень громкое заявление, которое захотят оспорить тысячи Знающих, но я и сам понимаю, что оно может выглядеть неправильным. Не от того, что мысль неправильна, скорее я не совсем точно сформулировал ее. Так лучше:

«С ростом сложности предмета поиска возрастает трудность формулировки запроса» — это утверждение верно для каждого человека, независимо от его способностей.

Начинаете понимать? Вы, как программисты, с легкостью формулируете простые запросы вроде «рязань москва экспресс расписание », поэтому есть стереотип, что упрощать процесс поиска не нужно. Но что происходит, когда нам нужно узнать, может ли redis не только сохранять значения с TTL, но и автоматически удалять самые старые, чтобы не свопиться на диск? Возможно и эта проблема некоторым покажется легкой для рисерча, тогда обратите внимание на одну из моих:Читать полностью »

Я начну с провокационного заявления — «биологи не публикуют детали своих исследований». Казалось бы столько статей, столько исследований… но где описание и детализация информации, которая получена? Её в принципе нет. А статьи без такой информации пусты и спорны. Каждый нахваливает свой метод, но много ли кто озаботился верификацией чужих данных, а главное смог ли он её сделать?

Можно лишь приветствовать появление таких биоинформационных баз как NCBI genomes и PDB, в которые исследователи помещают данные о секвенированных геномах и структурах РНК, белков. И главное, некоторые ученные прежде чем опубликовать статью, прежде помещают данные в биоинформационные базы.

Вы скажите есть много других баз — но я вам скажу они менее серьезные, и как правило перепосты этих двух с некоторой адаптацией. Но главное, что вся другая биоинформационная информация, можно сказать вторичная — не помещается в базы. А в статьях тем не менее идут различные спекуляции.

Конечно, так оно выглядит только для таких дилетантов как я. У настоящих же профессионалов все как в аптеке. Поэтому можете не утруждать себя ответом на эти пафосные заявления. Мы просто поговорим как выглядит биоинформатика в её частных областях глазами дилетанта. Но может и вас эта история к чему нибудь побудит.

Мы поговорим ниже о построение дерева эволюции согласно Дарвину, посмотрим на сколько это справедливо и таки я в итоге дам полное дерево (в рамках имеющейся информации) эволюции бактерий на основании самых консервативных генов тРНК. И дам пояснение о методе построения такого дерева.

Специалистам в биоинформатике рекомендую читать с раздела №5, пропустив весь мой пафос.

Читать полностью »

Думаю многие ИТ-специалисты интересуются не только программированием, но и вопросами более земными и частенько их можно застать рассуждающими о происхождении человека, разума и т.д. Мы обратимся к самому началу — происхождению видов бактерий. И хотя там есть много узкоспециальных вопросов, сам принцип построения филогенетических деревьев не такой легкий, но захватывающий. О нем то мы и будем говорить.

Чуть ранее я написал статью Систематика прокариот — дальние родственники, где сообщил о грубых результатах и методе их получения. Он несколько не классический, но вполне укладывается в научную парадигму. Достаточно «жесткий» диалог с Davidov, который имел место быть в этой статье, может создать впечатление проблематичности метода о котором я говорю. Но мы потом сели и спокойно обсудили, и подвели некоторые итоги. Суть диалога представляет некоторый интерес и я его вначале частично опубликую.

А затем хочу продемонстрировать один наглядный пример построения дерева «происхождения видов» с помощью моего подхода (назовем его «детерминированный подход»). По сути метод можно обобщить, и тогда он не будет относится только к филогенетике и его можно использовать в других областях, когда нужно граф превратить в дерево, выкинув слабые связи.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js