首页 > 电脑 > 大数据需要什么基础?

大数据需要什么基础?

电脑 2023-07-17

学大数据需要什么基础?

其实笼统地说大数据原理和基础都在数学这边,当然有很多偏应用和软件使用的技术,例如“深度学习调参”等,这些报个培训速成班就能学会的技术含量不那么高的东西,不在讨论范围内。


这里要讨论的,是如何系统的学习,然后自己能编出这机器学习或深度学习的程序或软件。我想,这才能称为一个合格的机器学习、数据科学家。

所以您准备好了吗?

大数据入门基础


1, 微积分(求导,极限,极值)和线性代数(矩阵表示、矩阵运算、特征根、特征向量)是基础中的基础,某篇图像分割1w+引用的神文核心思想便就求解构造矩阵的特征向量;

2, 数据处理当然需要编程了,因此C/C++/Python任选一门(推荐Python,因为目前很多库和Library都是用python封装),数据结构可以学学,让你编程更顺手更高效,但是编程不是数据处理的核心。

当然了,楼主所在的图像处理界,熟练使用matlab或者Python调用opencv库是必要条件,但是again他们只是工具,业余时间自学,多练练就没问题。有同学问用R行不行,补充一点,用什么编程语言很大部分取决于你的核心算法会调用什么已有的库函数,比如楼主的科研里面核心算法往往是MIP(混合整数规划)问题需要调用Cplex或Gurobi库函数,因此C/C++/Python/Java这些和Cplex接口良好的语言都可以拿来用,这时候R就别想了。(更新:最新Gurobi版本支持R)

另外虽然图像处理界一些open-source的code都用C++写的,但是鉴于使用方便都会提供Python的接口,因此需要用到这些code的话,用Python调用比较方便;但是,如果是高阶骨灰级玩家,需要修改甚至自己写源代码,那么还是推荐C/C++,因为他们的速度最快。


3,算法

通常高校都会有算法类的课程,会概述各类算法的基础和应用,其中包括:精确算法、近似算法、启发式算法、演化算法、递归算法、贪婪算法等待,还有各类优化算法。

算法非常核心,想必大家都听说过算法工程师这个职位。所以,我就不多赘述啦!

中级教程



1,概率论+统计(很多数据分析建模基于统计模型)、统计推断、随机过程等

2,线性规划+凸优化(或者只学一门叫numerical optimization,统计、机器学习到最后就是求解一个优化问题)、非线性规划等

3,数值计算、数值线代等

当年我是在数学系学的这门课,主要是偏微分方程的数值解。

但我觉得其开篇讲的数值计算的一些numerical issue更为重要,会颠覆一个数学系出身小朋友的三观。(原来理论和现实差距可以这么大!)

Conditional number, ill-conditioned problem,会让你以后的编程多留个心眼。

恭喜你,到这里,你就可以无压力地学习Machine Learning这门课了(其实机器学习,通篇都是在讲用一些统计和优化来做clustering 和 classification这俩个人工智能最常见的应用)。并且你就会发现,ML课中间会穿插着很多其他课的内容。恩,知识总是相通的嘛,特别是这些跨专业的新兴学科,都是在以往学科的基础上由社会需求发展而来。

到这里,其实你已经能看懂并且自己可以编写机器学习里面很多经典案例的算法了,比如regression,clustering,outlier detection。

学到Mid-level,就已经具备绝大部分理论基础了。然后做几个实际项目,就能上手然后就可以“骄傲”的说自己是搞机器学习的人啦,然后就能找到一份工作了。

但是要读Phd搞机器学习的科研,那么高阶课程真的是必不可少的,而且同一个topic你需要学好掌握好几门课,有时候很可能只是一本书中一个章节里面一小节里讲的算法,你都需要去用心改进他。

高阶课程

再高阶的课程,就是比较specific的课程了,可以看你做的项目或者以后的concentration再选择选修,比如:Probabilistic Graphical Models(概率图模型), Integer Programming(整数规划) ,计算机视觉,模式识别,视频追踪,医学图像处理,增强学习,深度学习, 神经网络,自然语言处理,网络信息安全,等等等等。


深度学习:目前非常火,打败了非常多几十年积累起来的经典方法。

增强学习:也很火,游戏AI、自动驾驶、机器人等等,它都是核心。

概率图模型:深度学习之前非常popular的“学习”方法,有严格的数学模型和优美的算法,虽然目前被前俩者盖过了风头,但是依然有它的立足之处。

再比如有用偏微分方程做图像处理的(比较小众),那么这时候你肯定要去学一下偏微分方程了,大都是以科研为主导的。

大数据分析的基础是什么?

1、可视化分析


大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。


2、数据挖掘算法


大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。


3、预测性分析能力


大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。


4、语义引擎


大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。


5、数据质量和数据管理


大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

学习大数据需要什么基础?

1)java SE,EE(SSM)
因为90%的大数据框架都是java写的
2)SQL
特别是sql语句中的查询语句,因为对数据库的操作最多的是查询
使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要
3)Linux
大数据的框架安装在Linux操作系统上
总的来说,大数据处理技术怎么学习呢?在做大数据开发之前,因为Hadoop是高层次的语言开发,需要懂得Java或者Python,很快的就能上手。所有的大数据生态架构都是基于linux系统的基础上的,所以你要有Linux系统的基本知识。如果你不懂Java或者Python还有Linux系统,那么这都是你必学的知识(Java或者Python可二选其一)。

学习大数据需要什么基础?

学习大数据需要的基础:

学习大数据开发技术相关的开发技术知识体系是比较庞大的,对于大数据的学习来说学,确实逻辑思维能力是更重要的。基础知识是可以通过学习进行弥补的,大数据培训则成为小伙伴比较靠谱的学习方式。在大数据培训班第一阶段就是基础内容的学习。

不同的大数据培训机构在课程内容上侧重点可能会有所不同,所以在培训周期上也会有所差异。硅谷大数据培训班,学习课程内容除了第一阶段学习Java语言基础之外,还要学习HTML、CSS、Java、JavaWeb和数据库、Linux基础、Hadoop生态体系、Spark生态体系等课程内容。

项目实战对学习大数据的同学来说是一个必须经过的过程。学习大数据的同学只有经过项目实战训练,才能在面试和后期工作中从容应对,这是一个很重要的过程。

当然了,项目实战训练时间与项目的难度、项目的数量相关,项目难度较大、项目较多,当然学习的时间会更长。

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据的基础是什么

学习大数据需要的基础: javaSE,EE(SSM) 90%的大数据框架都是java写的 如:MongoDB--最受欢迎的,跨平台的,面向文档的数据库。 Hadoop--用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理。 Spark --Apache Software Foundation中最活跃的项目,是一个开源集群计算框架。 Hbase--开放源代码,非关系型,分布式数据库,采用Google的BigTable建模,用Java编写,并在HDFS上运行。 MySQL(必须需要掌握的) SQLon Hadoop又分: batch SQL(Hive):一般用于复杂的

标签:大数据 信息技术 数据 学习 数据挖掘

大明白知识网 Copyright © 2020-2022 www.wangpan131.com. Some Rights Reserved. 京ICP备11019930号-18