【大数据导论】大数据序言

2024-07-04 1951阅读
【大数据导论】大数据序言 各位大佬好 ,这里是阿川的博客,祝您变得更强

【大数据导论】大数据序言 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力【大数据导论】大数据序言

阿川水平有限,如有错误,欢迎大佬指正【大数据导论】大数据序言

【大数据导论】大数据序言

【大数据导论】大数据序言

目录

  • 数据概念及类型及可用及组织形式
    • 数据概念
    • 数据类型
    • 数据的可用
    • 数据组织形式
    • 大数据的时代
      • 大数据技术
      • 中国大数据未来

        数据概念及类型及可用及组织形式

        数据概念

        数据

        • 对客观事件进行记录并可以鉴别的符号
        • 是构成信息的基本单位

          【大数据导论】大数据序言

          数据类型

          数据类型

          • 文本(字符型数据)

            【大数据导论】大数据序言

            文本文件常见格式:

            【大数据导论】大数据序言

            • 图片

              【大数据导论】大数据序言

              图片常见格式:

              【大数据导论】大数据序言

              • 音频

                【大数据导论】大数据序言

                音频常见格式:

                【大数据导论】大数据序言

                • 视频

                  【大数据导论】大数据序言

                  视频常见格式:

                  【大数据导论】大数据序言

                  数据的可用

                  step1.数据清洗

                  将脏乱数据进行清洗;将数据缺失和语义模糊等数据进行处理;数据类型不符合可进行转换及解析

                  其中转换及解析常用工具和脚本语言:

                  【大数据导论】大数据序言

                  step2.数据管理

                  • 将第1步后的数据放入数据库系统中进行管理和使用

                    step3.数据分析

                    • 将第2步后的数据利用数据挖掘和机器学习算法和构建统计模型(其中首选R语言及它的CRAN综合类库)及大数据处理技术(主要为谷歌的分布式编程模型MapReduce,Hadoop对其进行开源实现)进行分析

                      补充环节

                      step3.1 数据可视化

                      • 用图像等可视化,帮助人们进行直观理解数据

                        数据组织形式

                        文件

                        【大数据导论】大数据序言

                        文件由文件系统进行管理

                        数据库(软件开发的基础与核心)

                        【大数据导论】大数据序言

                        其中,关系数据库是之前主流的数据库,具有三种特性:

                        • 提供SQL语句进行各种查询操作
                        • 支持事务一致性功能
                        • 满足各种商业应用需求

                          【大数据导论】大数据序言

                          其中,NoSQL数据库主要处理非结构化数据,而目前海量数据中90%都属于非结构化数据。

                          在现在及未来的时代中,NoSQL数据库的使用将是大势所趋

                          大数据的时代

                          在如今的时代,数据的产生正处于爆炸式的增长

                          如今不管是移动端还是PC端、Mac端,甚至传感器、摄像头亦或是各种设备(家用电器电视汽车等等)无时无刻不在产生着大量的数据

                          大数据的时代已经来临,随着时代的发展越加迅猛

                          与此同时,对数据的储存、处理与分析提出了更高的要求

                          与之所对应的 物联网、云计算和大数据孕育而生。

                          大数据的四个特性

                          • 数据量大 (PB级别甚至到EP、ZP级别)

                            【大数据导论】大数据序言

                            • 数据类型繁多 (可以是文本、图片、视频、音频等非结构化类型)
                            • 处理速度快 (每秒钟处理GB数据甚至更高)
                            • 价值密度低 (海量数据中,符合条件的单点数据价值密度高)

                              【大数据导论】大数据序言

                              大数据技术

                              大数据技术的 前提要求

                              • 储存设备的容量需要强
                              • CPU处理能力需要强
                              • 网络宽带传输需要强

                                (抖个包袱:所以说搞大数据的电脑设备还是要有要求的)

                                大数据技术 四个流程

                                • 数据采集与预处理
                                • 数据储存与管理
                                • 数据处理与分析
                                • 数据可视化

                                  中国大数据未来

                                  大数据它是 赋能型专业 (可从大量的已知数据中进行计算,推出未知的理论)

                                  可以为各行业进行深度融合(可与制造业、金融业、交通行业、互联网行业、餐饮行业、能源行业、城市管理行业等等进行融合)

                                  也可以推动新技术和新应用的不断涌现(其中大数据产业是一条相当庞大的产业链 [其中包含数据的贩卖、数据的储存与管理、数据的平台、数据的应用软件等产业] )

                                  国家政策:

                                  2015年8月31日国务院发布了 《促进大数据发展行动纲要》

                                  2021年11月30日工业和信息化部发布了《“十四五”大数据产业发展规划》

                                  2022年12月19日 国务院发布了 《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》

                                  地方政策:

                                  《河南省大数据产业发展行动计划(2022-2025)》

                                  《黑龙江省大数据产业发展规划(2021—2025年)》

                                  顺便说说:

                                  我抽时间把一些地方的产业集群详细地了解了一遍,如果要从事大数据、人工智能等高创新方向的人才,建议首选但残酷的北京,其次选积极向未来布局的广东和江苏。

                                  夹带一个私货,由于阿川是四川的,所以说这里贴一个四川的产业集群

                                  【大数据导论】大数据序言

                                  再加一个重庆的哈

                                  【大数据导论】大数据序言

                                  大数据 专业

                                  从2016年开始,国内由北京大学、中南大学、对外经济贸易大学这三所大学,首个建立了"数据科学与大数据技术"的新工科专业。截至2023年,国内已有654所学校开展相关专业。

                                  培养目标:

                                  掌握大数据相关技术 并具有较好的 数据、数理、编程、大数据的基础知识与技能,且能够运用大数据思维解决实际问题的高级复合型人才。

                                  在学习中,与 数学、统计、计算机 三大领域密不可分。

                                  (至少应该掌握:概率论数理统计、线性代数、高等数学、离散数学、应用数学、统计学、程序设计、软件工程、计算机系统基础及组成原理、计算机网络、计算机操作系统、算法与数据结构、机器学习、深度学习、模式识别、云计算、网络爬虫、数据安全、数据清洗、数据挖掘、数据库系统、数据仓库、数据可视化、分布式并行编程、系统架构设计等,编程语言建议选择Python、Java和R、Scala(尽量都学,如果实在没有时间,建议看下列图))

                                  【大数据导论】大数据序言

                                  主要工作场所:

                                  互联网企业、金融机构、医疗机构、科研院所、高等院校、科技公司、传统企业

                                  主要职位有:

                                  【大数据导论】大数据序言

                                  好的,到此为止啦,祝您变得更强

                                  【大数据导论】大数据序言

                                  想说的话

                                  阿川的本篇博客,学习来源厦门大学林子雨老师的《大数据导论》(我反反复复学习了4遍哈并且做了相应的练习 然后才进行的这篇博客的书写)很累,希望大佬支持一下

                                  【大数据导论】大数据序言

                                  道阻且长 行则将至

                                  个人主页:在线OJ的阿川【大数据导论】大数据序言大佬的支持和鼓励,将是我成长路上最大的动力 【大数据导论】大数据序言

VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]