企业将本地数据环境迁移到云端以追求更强大、更灵活和集成的分析和 AI/ML 功能,这推动了云数据湖实施的激增。理由是合理的:与传统的本地基础设施相比,如果实施正确,云数据湖有望在降低成本的同时获得可扩展性和敏捷性。
但迁移仅与其底层安全机制一样强大,而云数据湖带来必须理解和持续维护的安全策略。云数据湖在单一环境中利用的云平台、对象存储、多个数据处理引擎和现代分析工具等组件如果集成不当,都可能带来攻击者利用和数据暴露的风险。
这不应该让组织远离云数据湖迁移和现代化项目。在过去的几年中,云数据湖安全实践取得了长足的进步。当运用专业知识时,可以有效地管理端到端云数据湖的安全性和合规性,以运行生产就绪的工作负载,无论是对于那些有幸在内部拥有必要 DIY 知识的人,还是通过负责执行和运营的第三方。
为此,这里有 10 个云数据湖安全最佳实践,可帮助管理风险并提高部署监控和保护的持续可见性:
1.隔离安全功能
作为一项基本的最佳实践,安全功能应与非安全功能分开,用户访问应限制在必要的绝对最低权限。在云数据湖安全的背景下,这意味着限制云和数据湖平台上的角色,并确保只有经验丰富的安全人员才能更改云安全控制。来自最近的一份报告DivvyCloud 强调配置错误和用户缺乏经验是特别关键的违规风险。安全功能隔离和云专业知识对于降低风险至关重要。
2. 加固云平台
从唯一的云帐户开始,以强化和隔离您的云数据湖部署。例如,AWS 上的用户可以利用AWS 组织服务以轻松创建和管理新帐户。使用运行数据湖的独特云帐户,实施强化保护独联体基准. 这些准则包括精心应用的支持帐户安全的配置设置。使用唯一的强化帐户通过提供与其他云服务的逻辑数据分离来提高安全性。
3. 保护网络边界
您为云数据湖部署设计的安全网络边界构成其第一道防线。您选择的方法必须考虑到您的具体情况。关键合规性或带宽要求很可能意味着需要专用连接或基于云的 VPN。如果任何敏感数据存储在云中并且允许非私有连接,那么防火墙对于保持流量控制和可见性至关重要。
利用您的云平台市场提供的第三方下一代防火墙。这些防火墙提供入侵防御、应用程序感知和威胁情报等高级功能,通常是对原生云安全工具的补充。
通过在中心辐射型配置中使用这些防火墙,您可以有效地保护并确保所有云环境的一致性合规性。在整个云基础设施环境中,只有防火墙应该有公共 IP 地址。通过具有入侵防护配置文件的强大入口和出口策略限制未经授权的访问和数据泄露风险。
4. 实施基于主机的安全性
在云平台中经常被忽视的是,基于主机的安全性可以保护主机,并作为数据保护和抵御攻击的最后一层。主机安全是一项广泛的工作,必须适应特定的服务和功能用例。
主机入侵检测是基于主机的安全的关键组成部分。主机上运行的代理根据已知的威胁特征或行为异常检测可疑活动,并向管理员发送异常事件警报。
机器学习算法也被引入基于混合主机的入侵检测,当与基于威胁或异常的系统结合使用时,可以提供更高的检测率。
文件完整性监控 (FIM) 跟踪云环境中的任何文件更改,有效检测和跟踪攻击的进展。攻击者利用漏洞通过破坏一系列文件或服务来提升他们在云环境中的权限。FIM 解决方案识别这些变化以阻止此类攻击。许多还可以恢复损坏的文件。为了满足法规遵从性,通常需要 FIM 功能。
日志管理是另一个需要注意的重要安全实践。记录事件的分析为调查安全事件提供了一种关键机制。因此,围绕日志存储、保留和删除的流程、程序和控制应经过精心设计,以满足您的安全框架或法规遵从性要求。许多可用的日志管理工具旨在与基于云的解决方案集成(例如AWS 云观察,继续以 AWS 作为我的云示例)并提供数据可视化和资源使用警报以及强大的日志收集功能。通常,安全日志管理策略会将日志实时复制到存储中以保证其完整性。
5. 引入强大的身份管理和认证措施
身份管理是强大的访问控制的支柱。通过集成您的身份提供商和云提供商来保护您的云数据湖;例如,利用 AWS 上的 Active Directory 使用SAML 2.0. 管理具有多个服务的第三方应用程序或数据湖可能需要更复杂的身份验证服务阵列,可能将 SAML 客户端和提供程序定位为使用 Auth0、OpenLDAP、Kerberos、Apache Knox 或其他。
6. 利用授权控制
云提供商提供可配置的数据和资源访问控制,作为其平台即服务解决方案的一部分。这些身份和访问管理 (IAM) 策略和基于角色的访问控制 (RBAC) 允许精细的行和列级别的访问限制。使用这些功能来实施最低权限访问策略。例如,AWS 通过他们的湖的形成服务,它可以自动执行流程以保护您的数据湖。还提供跨服务和帐户共享数据的选项。
7. 强制加密
云提供商提供加密最佳实践指南,应予以遵循。确保这一基本安全功能的有效性需要深入了解 IAM、加密密钥轮换策略以及如何配置应用程序。AWS 用户应该学习AWS KMS 最佳实践. 加密必须保护静态数据和动态数据,如果使用集成的第三方服务,可能需要自行提供证书和相关的轮换方案。
8. 保持警惕的漏洞和补丁管理
实施全面的漏洞和安全补丁策略,将自动检测、风险和严重性评估、测试和补丁部署相结合。使用替代缓解技术来缩短检测、测试和补丁部署之间的时间范围。关闭不必要的服务和利用防火墙控制都可以成为减少环境易受攻击时间的有效解决方案。
可见性是漏洞管理计划中的关键因素。了解环境中的每一个风险并优先打补丁将缩短被利用和数据丢失的机会。
9. 实践合规监控和事件响应
云安全功能,包括早期威胁检测、调查和响应,需要有效的合规监控和事件响应计划。考虑集成现有的安全信息和事件管理 (SIEM) 基础设施来执行云监控。云部署具有独特的威胁,需要培训和经验才能正确识别和解决。采用事件响应运行手册作为快速有效地响应安全事件的策略。
10. 实施数据丢失防护
云数据湖实施利用云对象存储中的持久数据来优化和维护可用性和完整性。例如,Amazon S3 提供安全存储和高可用性以及可靠的性能。
在无意的对象替换或删除的情况下,对象版本控制和保留功能提供了至关重要的冗余。评估和解决所有存储或管理数据的服务的数据丢失风险。强大的授权保护限制对删除和更新功能的访问将有效降低由于用户活动而导致数据丢失的风险。
包起来
在急于追求云数据湖迁移和现代化的过程中,安全不能成为事后的想法——全面和持续的保护措施势在必行。
通过遵循这些最佳实践,或选择内置端到端安全性的解决方案,组织可以更有信心地利用云数据湖的巨大分析优势,同时确保其数据受到保护。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|