- PVSM.RU - https://www.pvsm.ru -
В Сети появился интересный сервис мониторинга информации по открытым источникам — Recorded Future [1].
Он позволяет аккумулировать информацию из более чем 150 000 различных СМИ с возможностью хранения архива до 5 лет с возможностью последующего анализа и извлечения знаний о возможных последствиях произошедшего и будущих событиях.
Автором сервиса является Chris Holden, любезно предложивший нам воспользоваться Recorded Future без внесения оплаты, хотя полный функционал доступен только на коммерческой основе.
Например, сейчас сервис осуществляет непрерывный мониторинг [2] более 8 000 политических лидеров различных государств мира, позволяя отслеживать куда и зачем поедет какой-либо известный деятель. Порой, хорошая аналитика этих событий позволяет установить взаимосвязи в международных отношениях и спрогнозировать наиболее вероятные модели их развития путем анализа истории путешествий выбранного деятеля.
Наиболее интересные кейсы, демонстрирующие возможности системы, отражены на следующих прикладных примерах:
— отслеживание возникающих киберугроз и действий хакеров в мире [3]
— анализ содержимого писем из круга приближенных Усамы Бин-Ладена [4]
— анализ протестной активности [5]
— анализ выборов в Греции и Египте [6]
Применение сервиса имеет более широкие границы, нежели использования в целях анализа геополитической обстановки, терроризма и протестной активности. Он успешно пригоден для мониторинга корпоративных новостей, информации по конкурирующим компаниям, их продуктам и механизмам их освящения в прессе.
Аналитика позволяет отслеживать события, связанные с появлением какой-либо новой технологии, заключения контрактов, смены членов совета директоров или ключевых лиц компании, что уже представляет собой очень мощный и удобный аналитический инструмент с возможностью оценки эмоциональной окраски («позитив», «негатив»):
Сервис предлагает платное API (http://code.google.com/p/recordedfuture/wiki/RecordedFutureAPI [7]), позволяющее гибко задавать метки для отслеживания по заданным критериям, включая географию:
import urllib, json, datetime, zlib, sys, time
def query(q, usecompression=True):
"""
Результатом выполнения запроса будет являться JSON-объект
"""
try:
url = 'http://api.recordedfuture.com/ws/rfq/instances?%s'
if usecompression:
url = url + '&compress=1'
for i in range(3):
try:
data = urllib.urlopen(url % urllib.urlencode({"q":q}))
if type(data) != str:
data = data.read()
if usecompression:
data = zlib.decompress(data)
break
except:
print >>sys.stderr, "Retrying failed API call."
time.sleep(1)
res = json.loads(data)
if res['status'] != "SUCCESS":
print >>sys.stderr, "Error",str(res['errors'])
return res
except Exception, e:
print str(e)
return {'status': 'FAILURE', 'errors': str(e)}
Идея, используемая в сервисе, очень проста — из всех источников выделяются даты в различных нотациях (числовом, символьном) после чего события, которые за ними закреплены, — регистрируются. При этом анализируется, когда именно это событие произойдет («скоро», «через несколько месяцев», «в далеком будущем»). Сервис постоянно высылает обновления по наиболее интересным сферам для отслеживания:
Использование подготовленного класса на Python:
python company-entquery.py MYTOKEN tickerfile.txt 2010-06-14 2010-06-20 > entoutputfile.txt
,
python company-aggquery.py MYTOKEN tickerfile.txt 2010-06-14 2010-06-20 > aggrawoutputfile.txt
где:
MYTOKEN — полученный хэш доступа к API;
tickerfile.txt — специальный файл, директивы которого указывают на СМИ и ресурсы, которые требуется анализировать.
Сводный отчет будет представлять собой вывод вида:
Ticker,Entity,Time,Count,Momentum,Positive,Negative
MSFT,33312449,2011-11-01 19:30:00,780,0.43689,0.062,0.00461
GOOG,33321272,2011-11-01 19:30:00,1707,0.72436,0.07052,0.0254
AMZN,33328212,2011-11-01 19:30:00,344,0.20139,0.05491,0.01374
CHK,33511577,2011-11-01 19:30:00,6,0.00817,0,0
MSFT,33312449,2011-11-02 19:30:00,1235,0.4538,0.04981,0.0137
GOOG,33321272,2011-11-02 19:30:00,2602,0.80317,0.06482,0.02282
AMZN,33328212,2011-11-02 19:30:00,619,0.22222,0.06884,0.00787
CHK,33511577,2011-11-02 19:30:00,45,0.02334,0,0.02581
Обработка этой информации — ложится на плечи программиста, за исключением оценки «позитива» и «негатива». Использование подобного ресурса позволяет создать достаточно мощный и эффективный инструмент конкурентного анализа и использоваться в целях BI.
Автор: skvz
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/python/11422
Ссылки в тексте:
[1] Recorded Future: http://www.recordedfuture.com
[2] мониторинг: https://www.recordedfuture.com/this-is-recorded-future/how-recorded-future-works/live-example-upcoming-world-leader-travel/#/?sc=5DIZkV5aBR&viewid=kobra_view_stream_feed
[3] отслеживание возникающих киберугроз и действий хакеров в мире: https://www.recordedfuture.com/2012/mapping-and-monitoring-cyber-threats/
[4] анализ содержимого писем из круга приближенных Усамы Бин-Ладена: http://analysisintelligence.com/terrorism/osama-bin-laden-letters-analyzed/
[5] анализ протестной активности: https://www.recordedfuture.com/assets/Detecting-Emergent-Conflicts-through-Web-Mining-and-Visualization.pdf
[6] анализ выборов в Греции и Египте: http://analysisintelligence.com/political-elections-analysis/comparing-the-exceptional-elections-in-egypt-and-greece/
[7] http://code.google.com/p/recordedfuture/wiki/RecordedFutureAPI: http://code.google.com/p/recordedfuture/wiki/RecordedFutureAPI
Нажмите здесь для печати.