上传者: 42169674
|
上传时间: 2021-12-08 15:11:20
|
文件大小: 6KB
|
文件类型: -
AWS V1.0上的数据仓库
背景
一家名为Sparkify的初创公司希望分析他们在新音乐流应用程序上收集的有关歌曲和用户活动的数据。 分析团队对了解用户正在收听的歌曲特别感兴趣。 他们决定在AWS云上实施数据仓库。
架构图
数据驻留在S3中。 ETL管道从S3提取数据并将其分阶段转换为Redshift,将其转换并将其加载到针对歌曲播放分析的查询而优化的星型模式中。 这包括下表。
舞台桌
StagEvents-使用COPY Clouse直接从日志数据文件夹中加载数据
艺术家,身份验证,名字,性别,itemInSession,姓氏,长度,级别,
位置,方法,页面,注册,sessionId,歌曲,统计信息,ts,userAgent,userId
StagSongs-使用COPY clouse直接从歌曲数据文件夹中加载数据songplay_id,start_time,user_id,级别,