- PVSM.RU - https://www.pvsm.ru -
Вероятно, самое сложное в любом Data Science-проекте — это придумать оригинальную, но реализуемую идею. Специалист, который ищет такую идею, легко может попасться в «ловушку наборов данных». Он тратит многие часы, просматривая существующие наборы данных и пытаясь выйти на новые интересные идеи. Но у такого подхода есть одна проблема. Дело в том, что тот, кто смотрит лишь на существующие наборы данных (c Kaggle [1], Google Datasets [2], FiveThirtyEight [3]), ограничивает свою креативность, видя лишь небольшой набор задач, на которые ориентированы изучаемые им наборы данных.
Иногда мне нравится изучать интересующие меня наборы данных. Если я построю удачную модель для данных, взятых с Kaggle, для которых уже создано бесчисленное множество моделей, практической ценности в этом не будет, но это, по крайней мере, позволит мне научиться чему-то новому. Но дата-сайентисты — это люди, которые стремятся создавать что-то новое, уникальное, что-то такое, что способно принести миру реальную пользу.
Как вырабатывать новые идеи? Для того чтобы найти ответ на этот вопрос, я совместила собственный опыт и результаты исследований креативности. Это привело к тому, что мне удалось сформировать 5 вопросов, ответы на которые помогают находить новые идеи. Тут же я приведу и примеры идей, найденных благодаря предложенной мной методике. В процессе поиска ответов на представленные здесь вопросы вы пройдёте по пути создания новых идей и сможете задействовать свои креативные возможности на полную мощность. В результате у вас будут новые уникальные идеи, которые вы сможете реализовать в ваших Data Science-проектах.
Когда вы подумываете о том, чтобы начать новый проект, у вас в голове имеется некое намерение или некая цель. Для начала вам надо найти ответ на вопрос о том, почему вы хотите создать очередной проект в сфере науки о данных. Если вы в общих чертах определитесь с тем, к какой именно цели вы стремитесь, это поможет вам сосредоточиться на поиске идеи. Поэтому подумайте о том, для чего вы собираетесь создать проект. Вот несколько вариантов:
Подумать над этим вопросом стоит по трём основным причинам.
Приведу пример. Среди областей знаний, которые мне интересны, и в которых у меня есть опыт, можно отметить экологическую и социально-экономическую устойчивость систем, финансы, популярную культуру, обработку естественного языка. Сосредоточение внимания на этих темах помогает мне задействовать те знания, которые уже у меня есть. Благодаря этим знаниям я определяю, смогу ли я, чем-то вдохновившись, выйти на новую идею, которую можно будет реализовать.
Главный источник вдохновения — это чтение. В ходе процесса поиска идеи вы можете найти интересные темы, прибегнув к чтению различных материалов:
Если говорить о других источниках вдохновения, то вдохновение, не закрывая себя перед новыми идеями, можно найти и в обычной жизни. Каждый раз, когда вас заинтересует какой-нибудь вопрос, подумайте о том, сможете ли вы ответить на этот вопрос, прибегнув к методам работы с данными. Например, недавно я наткнулась на трейлер сериала «Пацаны» и обнаружила массу позитивных отзывов о нём на IMDb. «Есть ли подтверждение того, что в сериалах, со временем, растёт количество сцен с применением насилия [12]?», — спросила я себя. «Существует ли постоянно растущая аудитория, которой нравятся жестокие сериалы?», — продолжила я. Если что-то вас заинтересовало — ловите момент и изучайте соответствующие данные.
Как генерировать идеи проектов, опираясь на вышеописанные источники вдохновения? Нейробиологи выделили три различных психологических процесса, связанных с генерированием идей:
После того, как вы определились с общим направлением исследования, вам нужно будет заняться поиском данных, которые позволят вам понять то, как реализовать вашу идею в виде Data Science-проекта. Это крайне важно в определении того, удастся ли реализовать идею. Отвечая на вопрос, вынесенный в заголовок этого раздела, стоит учитывать возможность наличия того, что вам нужно, в существующих хранилищах данных. Возможно, нужные данные вам придётся собирать самостоятельно, что усложняет задачу. Итак, вот обзор источников данных:
Если вам не удаётся отыскать данные, которые могут вам помочь в реализации идеи вашего проекта, переформулируйте идею. Попытайтесь извлечь из исходной идеи такую идею, которую можно реализовать, пользуясь имеющимися у вас данными. А между тем задайте себе вопрос о том, почему вам не удаётся найти нужные вам данные. Что не так в той области, которой вы интересуетесь? Что можно с этим сделать? Уже одни только ответы на эти вопросы могут привести к появлению нового Data Science-проекта.
Итак, у вас есть фантастическая идея! Но можно ли её реализовать? Снова пройдитесь по этапам процесса генерирования идей. Подумайте о том, чего вы хотите достичь (вопрос №1), интересна ли вам выбранная область, если ли у вас опыт работы в ней (вопрос №2), есть ли у вас данные, необходимые для реализации идеи (вопрос №4). Теперь вам нужно определить следующее: имеются ли у вас навыки, необходимые для реализации идеи и для достижения цели.
Тут важно учесть такой фактор, как время, которое вы планируете потратить на данный проект. Вероятно, вы не собираетесь писать по выбранной вами теме докторскую диссертацию. Поэтому тот проект, который вы будете делать в рамках найденной идеи, возможно, затронет лишь некоторую её часть. Может быть, он будет заключаться лишь в изучении чего-то нового, необходимого вам для реализации идеи в будущем.
После того, как вы пройдёте 5 вышеописанных шагов выработки идеи, у вас должен быть вопрос, на который вы можете и хотите ответить, потратив на это столько времени, сколько готовы потратить на достижение своей цели.
Я, пользуясь описанной здесь методикой, постоянно нахожу оригинальные идеи для своих Data Science-проектов. Надеюсь, эта методика пригодится и вам.
Как вы ищите новые идеи для своих Data Science-проектов?
Автор: ru_vds
Источник [24]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/razrabotka/357210
Ссылки в тексте:
[1] Kaggle: https://www.kaggle.com/
[2] Google Datasets: https://datasetsearch.research.google.com/
[3] FiveThirtyEight: https://fivethirtyeight.com/
[4] Image: https://habr.com/ru/company/ruvds/blog/519900/
[5] диаграммах Венна: https://www.kdnuggets.com/2016/10/battle-data-science-venn-diagrams.html
[6] важный актив: https://www.forbes.com/sites/kalevleetaru/2016/06/12/why-we-need-more-domain-experts-in-the-data-sciences/#4292e33b3b50
[7] исследователи: https://psycnet.apa.org/record/2016-17972-001
[8] эту: https://www.wired.com/story/googles-autocomplete-ban-politics-glitches/
[9] языковых моделях: https://arxiv.org/abs/1911.03064
[10] этой: https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe
[11] NLP-исследовании сериала «Офис»: https://towardsdatascience.com/nlp-on-the-office-series-cf0ed44430d1
[12] растёт количество сцен с применением насилия: https://www.commonsensemedia.org/violence-in-the-media/have-movies-become-more-violent-over-the-years
[13] проектов: https://medium.com/@julia.nikulski/here-is-what-you-need-to-know-about-staying-in-boston-with-airbnb-57e81f5296ae
[14] проекты: https://www.freecodecamp.org/news/how-to-build-a-data-science-project-from-scratch-dc4f096a62a1/
[15] сравнение: https://towardsdatascience.com/coding-bootcamps-vs-universities-54b482fc58a7
[16] FiveThirtyEight: https://data.fivethirtyeight.com/
[17] BuzzFeed: https://github.com/BuzzFeedNews/everything
[18] AWS: https://registry.opendata.aws/
[19] UCI Machine Learning Repository: https://archive.ics.uci.edu/ml/datasets.php
[20] data.world: https://data.world/
[21] Data.gov: https://catalog.data.gov/dataset
[22] Our World in Data: https://ourworldindata.org/
[23] отслеживанию событий: https://towardsdatascience.com/four-basic-ways-to-automate-data-extraction-3151064dc110
[24] Источник: https://habr.com/ru/post/519900/?utm_source=habrahabr&utm_medium=rss&utm_campaign=519900
Нажмите здесь для печати.