Публикации по теме 'pyspark'


Исследование данных и машинное обучение с помощью Spark
Проект Udacity Capstone Sparkify — это набор данных Udacity , разработанный так, чтобы быть похожим на потоки данных, ожидаемые от музыкального сервиса больших данных, такого как Spotify или Pandora. Это журнал активности пользователей с демографической информацией, рейтингами, привычками просмотра музыки и т. д. Цель проекта — проанализировать эти данные и с помощью библиотеки Pyspark для Python применить модели машинного обучения в попытке точно предсказать CHURN ( вероятность..

Сквозное распределенное машинное обучение с использованием AWS EMR, Apache Spark (Pyspark) и MongoDB Tutorial с…
В этом посте я расскажу, как запускать алгоритмы машинного обучения распределенным образом с помощью Python Spark API pyspark. Мы также узнаем, как настроить экземпляр AWS EMR для запуска наших приложений в облаке, настроить сервер MongoDB в качестве базы данных NoSQL для хранения неструктурированных данных (таких как JSON, XML) и как выполнять обработку данных. быстрый анализ за счет использования возможностей pyspark. Требования: Аккаунт AWS (или вы можете запустить локально)..