全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 storm实时数据分析平台
6710 2
2024-06-19
一、大数据难不难?该如何学习
 其实大数据的学习体系主要时围绕数据价值化展开,会涉及到数据采集、存储、分析和应用等环节。我们只要找到一个适合自己的切入点就可以。对于小白来说,可以从数据采集开始学习,因为难度较低,学起来比较容易。数据采集会涉及到Python语言,因此想要学好数据采集,首先需要学习Python。
大数据软件安装包:pan.baidu.com/s/1k-_20h0JGL1jv9KD27H23g 提取码: tj8v
    学习Python语言可以从语言基础、常用数据结构和函数、函数和面向对象编程、Python网络数据采集这几个方面进行学习。
    下一个阶段就是数据分析了,数据分析包含:数据分析概述和EXCEL应用、关系型数据库和SQL、商业智能(BI)工具、Python数据分析等内容。这部分是一个难点,需要进行系统学习和大量实践经验。
    掌握了以上内容之后,就该学习机器学习算法了,该模块包含:数学基础、算法、深度学习和神经网络、数据仓库和大数据挖掘等内容。这部分学习难度是比较大的,尤其是算法部分。这部分可以从经典的机器学习算法开始了解,例如K近邻、决策树等,适用场景比较多。

二、成为一名大数据开发工程师,需要具备哪些技能?
1、数仓开发工程师
根据企业的要求搭建数仓体系(DW),是企业所有级别决策的制定过程,基于分析性报告和决策支持目的,为需要业务智能的企业,提供指导业务流程、监视时间、成本、质量以及控制,为战略策略做数据支持。

2、算法挖掘工程师
在大厂重创新、研究,在小厂重赋能、产品,有本质上的区别,也分很多种类型,包括搜索算法、导航算法、NLP、视觉算法、图像识别、自动驾驶、安全算法、通信算法等,需要掌握的技能差异性也很大,整体来看,有以下共性。

3、大数据平台开发工程师
大数据平台开发有两个方面,平台自研、应用开发,需要熟悉Web后端开发语言、大数据开源组件,至少精通掌握一种开发语言golang、php、java;对开发框架的原理&源码都有一定的了解(如laravel)

4、大数据前端开发工程师
给用户看到的都叫做前端,比如APP界面、Web 界面,与交互设计师、 视觉设计师协作,根据设计图,依据相关编程语言进行界面内容实现,把界面更好地呈现给用户

三、大数据环境搭建
大数据环境的搭建涉及多个步骤和组件的配置,包括但不限于网络设置、主机名配置、防火墙管理、JDK安装、Hadoop集群配置、Zookeeper、Kafka、Flume、Sqoop等组件的安装与配置。

创建 Hadoop 用户
创建 Hadoop 用户,输入最开始的密码
打开Ubuntu终端Terminal运行sudo useradd -m hadoop -s /bin/bash用于创建用户,系统需要等待我们输入密码(注意的是Ubuntu终端输入密码是不会显示的)。输入完密码后重新弹出nuyoah@nuyoah-VirtualBox:-$这个才算创建成功。
在Ubuntu终端输入sudo passwd hadoop为Hadoop账号设置账号密码,通过输入和确认密码完成对于Hadoop账号密码的设置。

环境参数配置
重要提醒:window,Linux相互切换
window进入Linux 鼠标左键 单击Linux 进入
Linux退回到window ctrl+alt

vi编辑:
1.按i键 进入insert编辑模式
2.正常内容增加删除修改
3.按ecs键退出 进入命令模式
4.按 shift+: 进入尾行模式 输入 wq 保存退出
5.按 回车键 结束

Tab快捷键使用:
按tab键 1次 自动补全
1次无响应——就按2次——会输出相关的所有匹配
(1)修改CentOS 主机名
A: vi /etc/sysconfig/network 编辑完 需重启后生效
B: hostname XXX 直接命名立即生效重开一个界面就能看到
C: vi /etc/hosts 进入编辑后输入外网IP和需修改的机器名,然后退出保存

配置 core-site.xml
输入命令:cd $HADOOP_HOME/etc/hadoop 进入hadoop的配置目录
输入命令:vim core-site 配置 core-site 文件
添加如下的配置
<configuration>
        <!-- 指定 NameNode 的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:8020</value>
</property>
<!-- 指定 hadoop 数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>aex</value>
</property>
</configuration>


四、大数据平台部署
平台部署包括环境准备、软件安装、配置调试和测试验收等方面。
1. 环境准备:准备满足需求的硬件资源和软件环境。
2. 软件安装:安装选定的软件和技术组件。
3. 配置调试:根据设计文档配置相关参数并进行调试。
4. 测试验收:进行系统测试和验收,确保平台符合设计要求。

五、大数据平台优化
平台优化包括性能优化、功能优化、可靠性和安全性等方面的优化。
1. 性能优化:通过调整系统参数、优化数据存储和处理方式等手段,提高系统性能。
2. 功能优化:根据业务需求,不断优化平台的功能,提高用户体验和业务处理效率。
3. 可靠性优化:通过增加冗余、实现自动备份和恢复等手段,提高系统的可靠性。
4. 安全性优化:通过加强身份认证、加密传输等手段,提高系统的安全性。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-9-19 15:53:42
最新版38周地址
https://pan.baidu.com/s/1pXx325owZ4EfgEGPJ7-9OA 提取码:pmxh
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-10-5 17:52:13
感谢楼主分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群