Когда-то давным давно(год-два назад) у меня было немного свободного времени и очень много sql и баз данных на прошлой работе
Часть свободного времени я проводил с пользой для тела, остальное - с пользой для души.
Польза для души нашлась в том, что навык лазить руками в рабочую базу данных и при этом ничего не ломать я пробовал распространять на что-то большее.
Итак, с чего можно начать.
1. Начать можно с теории.
Очень неплохо будет знать статистику:
http://onlinestatbook.com/Online_Statistics_Education.pdf
http://wiki.stat.ucla.edu/socr/index.php/EBook
После этого - машинное обучение.
Для первичного ознакомления неплохо подойдет вот этот китаец https://class.coursera.org/ml
Это чуть хардпорнее: https://class.coursera.org/neuralnets-2012-001
Вообще, вот вам курсера:
Статистика: https://www.coursera.org/course/stats1
Тут всего понемножку: https://class.coursera.org/datasci-001
И тут всего по немножку: https://class.coursera.org/scientificcomp-005
Бодрый курс прям по рекомендательным системам, на который у меня, честно говоря, просто не хватило времени: https://www.coursera.org/course/recsys
Еще есть лекции Яндекса: http://shad.yandex.ru/lectures/machine_learning.xml
У меня лично двойственное отношение к курсере - имхо она слишком поверхностная. Но в рамках ознакомления - очень даже ничего. По мере изучения будут возникать вопросы.
 |
| Вопросы! |
Ответы можно будет поискать в академических учебниках, а если хочется совсем свежака, то и на arxiv.org.
Еще много всего спонсируется американской военщиной, полный список проектов, связанных с обработкой данных, можно посмотреть тут:http://www.darpa.mil/opencatalog/
2. Инструменты:
- Сам себе до сих пор не верю, но Excel.
- Gephi - штука, которая умеет делать с графами почти всё. Крутить, вертеть, разглядывать, приближать, отдалять, кластеризовать, считать связность.
- RapidMiner - умеет вообще всё, это студия для тех, кому лень программировать. Внезапно открылось, что новая версия стала триальной - теперь за эту кирку хотят денег. Впрочем, из минусов - довольно сильно тупит на больших объемах(нуачовыхотели).
- Какая-нибудь СУБД. Довольно долго у меня был Sql Server, впрочем, для небольших операций сгодится даже MySql или вообще sqlite. Дело вкуса и привычки. Очень удобным будет MongoDB - она позволяет отвязаться от реляционной модели данных.
- R - язык, заточенный под обработку данных. Сдобрен всевозможными плюшками для кручения-верчения данными - загрузка/сохранение через одну команду, экзерсисы с матрицами и много всякого. Для него даже есть IDE.
- Python - что на нем только не сделаешь. Универсальнее, чем R, Octave, Matlab, так что для загрузки csv таки придется написать больше одной строчки.
Никак не затрагиваю OLAP - он всё-таки применяется в Enterprise Business Intelligence(до булшит-бинго еще 2 слова!), что как-то было в стороне от моих изысканий.
3. Куда дальше?
А вот
сюда, например. Тут же можно поучиться, помочь человечеству(если не ты, то кот!), а если повезет, то еще и подзаработать.
Тут же моё любимое задание-введение по Титанику, с подробным разбором, к которому на
хабре даже сделали перевод.
Если вдруг Kaggle станет не хватать, набрать датасетов можно вот тут: http://www.kdnuggets.com/datasets/index.html
Датасеты самые разнообразные, от биологии до глубокого космоса.
Ну а вообще человеки собрали уже столько разных данных и эти данные содержат в себе столько знаний, что тема просто бездонная.