大数据的关键技术之——大数据采集
大数据的关键技术之——大数据采集
本文目录:
一、写在前面的话
二、大数据采集概念
三、大数据采集步骤
3.1、大数据采集步骤(总体角度)
3.2、大数据采集步骤(数据集角度)
3.3、大数据采集步骤(数据集角度)
四、数据源与数据类型的关系
4.1、大数据体系数据
4.2、数据源与数据类型的关系
五、大数据体系中数据类型
5.1、结构化数据
5.2、半结构化数据
5.3、非结构化数据
六、大数据采集技术
6.1、web数据采集
6.2、系统日志采集
6.3、数据库采集
6.4、其他数据(感知设备等数据采集)
七、大数据采集方式
八、大数据采集特点
一、写在前面的话
科幻故事里,当失控的AI把攻击目标盯向人类,人类大多数一败涂地。当失控的某些人类携带高科技把攻击目标盯向普通人时,我们同样一败涂地,这已经真实发生的事情了。例如挑拨是非,故意让双方误会然后互相憎恨,它们的方式除了普通级别的断章取义或者各种造假,甚者是直接高科技脑部情感操控,让你情绪处于崩溃状态,然后故意让别人来看,说这个人就是这个样子的。。。各种黑化你的方式层出不穷。。。
在这种特殊环境下,无助的我们只能依靠自我调节能力。前段时间,在某位前辈的博客中我发过一些个人看法,记录如下:
个人觉得,新环境下,或许添加一个 ”韧“ 会更好一点。即无论世事如何变迁(人、物、事),都能抗得住打击,保持内心的平静和自我调节能力,冷静妥善地处理各种意外,保证所有事情的正常推进。。。
我不知道怎么解释“韧”,“韧”是我最近在异常打击和被攻击下自己总结出来的经验,就是无论我遇到什么打击和困难,我都想办法恢复到自己原来的状态,不因变故而改变自己原来的性格,不因变故而心烦,不因变故而迁怒别人,不因变故而放弃自己想要做的事。。。。
“韧”,不是要违背自然规律,刻意去伤害自己,而是,怎么说呢?类似个人抗打击能力吧。安全感有时不是我们能控制的,特殊情况下某些安全感就只能靠我刚才提到的“韧”字来处理,这种“韧”是打不死的“韧”,无论经历什么,都能靠自我调节能力恢复到原来的状态,忽略困难,自己给自己安全感。
例如,
1、今天有人无缘无故找你麻烦,说一些很难听的话刺激你,你需要学会调节自己,不管他说什么都要调节自己心情不生气,做好该做的事情;
2、你经历了很多困难的事情,有些还是超出你原本接受能力的事情,疲惫不堪几乎要崩溃时,身边却找不到一个可以理解你的人,所有的伤痛需要自己自愈。
3、当原本以为计划完善十拿九稳的事情,突遇毫无理由莫名其妙的意外,导致。。。如何调节自己在最短时间内收拾残局
4、当家人朋友出现各种问题(纠纷、生病,甚至无理取闹),你自己的项目时间赶又进行得不顺利,身体疲惫好像有很多问题。。。前景迷茫不知所措,如何擦干泪微笑着面对生活?
。。。
反反复复在崩溃和自我自愈中磨练。。。很难,我也还在不断努力学习当中,但,归来仍会是当初那个少年。
淋雨一直走。在下一秒钟,命运如何转动,没有人会晓得。背后尖酸的耳语,是给长大的洗礼。无法复制的自己,让我连受伤也有型。这不是脾气,是志气与勇气。你能推我下悬崖,我能学会飞行。从不听,谁的命令,很独立,耳朵用来听自己的心灵!
PS:
To 那些关心我的朋友:
我还好,不用担心,注意看穿各种虚假流言,不要被迷惑。我还是最初的那个我,没有改变过,我还是原来的那个奶奶级别的老。。。老。。老姐姐。
不要因我而被别人要挟做任何事情,如果你们因我而妥协,哪怕只是一点点,我都会更难过更伤心。
我有很多话想说,却又无从说起,只能化作一句话:请照顾好你们自己,我还在等天晴后某一天,你们自己来告诉我当时发生的一切。
逆境清醒
2023.9.5
2023.9.7更
二、大数据采集概念
根据涉及领域的不同,大数据的关键技术可以分为大数据采集、大数据预处理、大数据存储及管理、大数据处理、大数据分析及挖掘、大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)等几大方面。
大数据采集处于大数据生命周期中第一个环节,是大数据产业的基石。
大数据采集是大数据分析的入口,是大数据分析至关重要的一个环节。
大数据采集
大数据采集是指通过各种技术手段,收集和整理大量数据的过程。采集的数据可以来自不同的数据源,包括结构化数据和非结构化数据,如网站数据、社交媒体数据、电子邮件、日志文件、传感器、企业应用程序等。
采集过程通常需要使用各种技术工具和技术平台,例如网络爬虫、数据挖掘、自然语言处理等。
在大数据应用领域,采集是整个数据处理流程中非常重要的一环。大数据中采集出有用的信息已经是大数据发展的关键因素之一。
三、大数据采集步骤
(3.1)、大数据采集步骤(总体角度)
大数据采集通常包括以下步骤:
- 确定采集数据的范围和目的:确定采集数据的时间、地点、数据类型、数据格式、数据量等。
- 针对不同的数据来源采用适当的技术:例如,从传感器采集数据可能需要使用物联网技术,从社交媒体采集数据可能需要使用API。
- 设计数据采集和处理流程:包括数据的抽取、转换和加载(Extract, Transform, Load,简称ETL)。
- 确保数据的准确性和完整性:通过对数据进行清洗、去重、格式化等操作来确保数据的质量。
- 存储数据:将采集到的数据存储到适当的数据库或数据仓库中,以便进行后续的数据分析和应用。
(3.2)、大数据采集步骤(数据集角度)
(3.3)、大数据采集步骤(数据集角度)
大数据采集步骤(数据集角度):
采集需求、规则配置、任务调度、任务监控、数据整理、数据发布、数据交易、数据交付
在大数据采集过程中,需要考虑隐私和数据安全等方面的问题,确保采集的数据不会被盗用或滥用。
四、数据源与数据类型的关系
4.1、大数据体系数据
在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源包括内容数据、线上行为数据和线下行为数据 3 大类。
新数据源包括:
▷ 线上行为数据:页面数据、交互数据、表单数据、会话数据等。
▷ 线下行为数据:比如收集生物特征的人脸识别、指纹识别技术,再到收集设备特征的WiFi探针、iBeacon识别技术,这些技术都在尝试采集及分析线下的大数据。
▷ 内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。
不同识别技术在不同的领域有着各自的作用,这些识别技术可以作为单独的系统存在,同时也可以进行多样的融合。
4.2、数据源与数据类型的关系
对于大数据的处理,需要对不同类型的数据进行不同的处理方法和技术,如对结构化数据进行分布式处理使用Hadoop和Spark,对非结构化数据进行分类和标记使用机器学习算法等。因此,在大数据处理过程中,了解数据源和数据类型的关系非常重要。
大数据体系中,数据源与数据类型的关系如下图所示:
大数据体系中,数据源和数据类型有密切的关系。
数据源通常是指大数据存储和处理的起点,数据源可以包括传感器、网站、社交媒体、物联网设备、移动应用程序、云存储、数据库等各种类型的数据来源。
不同的数据源可能包含不同类型的数据,例如传感器数据通常是结构化数据,而社交媒体中的帖子和评论则属于半结构化数据,而照片和视频则是非结构化数据。
五、大数据体系中数据类型
大数据体系中数据类型是指数据的种类和格式,主要涉及结构化数据、半结构化数据和非结构化数据三种类型。
5.1、结构化数据
结构化数据:
结构化数据是指以特定格式和规则组织的数据,其数据元素之间存在明确的关系和层次结构,易于存储、处理和分析。数据元素按照固定格式进行组织,它们可以被轻松地组织、分类、索引、搜索和查询。通常是以表格形式、关系型数据库或者XML等形式呈现的数据,例如关系型数据库中的表格数据、电子表格和CSV(逗号分隔值)文件中的数据。这种数据类型通常是容易处理和分析的,而且其格式也非常规范化,易于存储、管理和查询。
这些数据结构集中于数字、日期、文本、金额、时间戳货币、比率、证书、地址、电话号码、电子邮件等等类型的数据,并具有明确的数据类型和字段名称。结构化数据易于处理和管理,可以通过SQL查询和其他数据分析工具对其进行分析和处理。结构化数据的清晰结构化和组织形式,使其在数据分析、机器学习、人工智能应用等领域得到广泛应用。例如企业数据管理系统、业务报告等。
结构化数据是指以表格形式存储的数据,其特点包括:
1. 数据按照固定的结构组织,每个数据项都有明确定义的数据类型和属性;
2. 数据存储方式简单明了,通常以关系型数据库的形式存储,方便进行查询和分析;
3. 数据的处理和管理较为容易,可以使用SQL等标准化的语言进行操作;
4. 数据的准确性和一致性较高,有利于数据质量的维护和管理;
5. 结构化数据的处理方式相对固定,可以利用常见的统计学和机器学习算法进行分析和挖掘等。
5.2、半结构化数据
半结构化数据:
半结构化数据是指不符合传统关系型数据库数据模型要求的数据,通常指没有规定结构,介于结构化数据和非结构化数据之间的数据类型,其结构相对于结构化数据不太规范化。但有标识和描述的数据,如XML、JSON和 YAML 等格式表示;
半结构化数据主要应用于Web应用、文本处理、语义分析等领域中,能够很好地满足数据处理的灵活性要求。常见的半结构化数据源包括日志文件、社交媒体数据、传感器数据等。
半结构化数据通常具有以下特点:
1. 数据具有一定的结构,但不是严格的表格形式,可以包含多个层次的嵌套结构。
2. 数据中的字段可以根据需要动态添加或删除,不需要事先定义表结构。
3. 数据可以非常灵活地适应不同的应用场景和需求。
4. 数据通常以XML、JSON等格式存储和传输。
5.3、非结构化数据
非结构化数据:
非结构化数据是指没有明确结构的数据,例如文本文档、音频、视频、图像等数据类型。这些数据通常具有高度的复杂性和多样性,不能被轻易地转化成表格或二维矩阵形式。难以使用传统的结构化数据存储和管理方法进行处理。因此需要采用特殊的技术和工具来分析和处理这些数据。
这种数据类型通常需要使用文本分析、自然语言处理和图像处理等技术进行处理和分析。目前,非结构化数据的使用越来越多,且在人工智能、机器学习等领域具有广泛的应用价值。
因此,数据源的不同类型往往会对数据的类型产生影响,而不同类型的数据也需要使用不同的技术和方法进行处理和分析。
六、大数据采集技术
大数据的采集从数据源上可以分为四类:
6.1、web数据采集
(此图来源于网络www.yisu.com/news/id_335.html)
网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息的过程。
网络爬虫会从一个或若干初始网页的 URL 开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列,直到满足设置的停止条件为止。
这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式存储在本地的存储系统中。
6.2、系统日志采集
(此图来源于网络developer.aliyun.com/article/594990)
系统日志采集
系统日志采集是指收集计算机系统内部生成的日志信息,如操作系统、应用程序、网络设备等产生的日志。采集这些日志信息有助于安全管理人员或系统管理员实时监控系统运行状态,发现系统故障或异常,及时采取措施保障系统安全稳定运行。
系统日志采集通常通过安装日志采集代理或软件,将日志信息收集到中央日志服务器或集中式日志管理平台进行存储和管理,以便后续查询、分析和报告。采集的系统日志信息可用于故障排查、安全审计、合规性监管等方面。
高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百 MB 的日志数据采集和传输需求。
6.3、数据库采集
数据库大数据采集
数据库大数据采集通常是指将大量的数据从不同的数据源中采集到一个集中的数据库中,以便进行分析和应用。这些数据源可以包括传感器、网站、社交网络、移动设备等各种数据来源。数据采集的目的是为了收集足够的数据,以便进行深入的分析和挖掘,从而揭示出潜在的趋势和模式,做出更明智的商业决策。
在进行大数据采集时,需要考虑以下几个方面:
1. 采集的数据类型:数据类型可以是结构化、半结构化或非结构化数据。这些数据类型的采集方法和采集工具都有所不同,需要根据不同的数据类型来选择采集工具。
2. 数据源:采集数据的数据源通常有多种,包括传感器、数据库、网站、社交网络等。需要根据数据源的特点来选择采集的方法和工具。
3. 数据采集技术:数据采集的技术包括爬虫、ETL等,需要根据采集的数据类型和数据源来选择合适的采集技术。
4. 数据采集的频率:根据不同的数据源和数据类型来确定数据采集的频率,以保证数据的时效性和准确性。
5. 数据采集的存储和处理:采集到的数据需要进行存储和处理,以便后续的分析和应用。需要选择合适的存储和处理技术来满足需求。
传统企业会使用传统的关系型数据库 MySQL 和 Oracle 等来存储数据。
6.4、其他数据(感知设备等数据采集)
(此图来源于网络)
感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。
七、大数据采集方式
大数据采集方式:
▷ 1.批量采集:指对某个网站或系统进行大量数据的采集,将采集到的数据进行分析和处理。
▷ 2.实时采集:指对数据进行实时采集,以便实时处理和分析。
▷ 3.增量采集:指对已有数据进行定期的增量采集,以获得最新的数据。
▷ 4.自动化采集:采用自动化程序实现数据采集,减少人工干预,提高采集效率。
▷ 5.合作采集:通过与其他机构或组织合作,获取共享数据,进行大数据分析。
八、大数据采集特点
与传统的数据采集技术相比,大数据采集技术具有以下特点:
▷ 1.规模更大:大数据采集技术可以处理更大规模的数据,包括结构化、半结构化和非结构化的数据。
▷ 2.速度更快:大数据采集技术可以快速获取数据,并且可以实时或几乎实时地处理数据,从而更快地做出决策。
▷ 3.多样性更强:大数据采集技术可以采集来自不同来源的数据,包括社交媒体、传感器、日志、视频等各类数据。
▷ 4.准确性更高:大数据采集技术可以处理更准确、更精细的数据,并对数据进行归纳、分类等操作,提高数据质量。
▷ 5.自动化程度更高:大数据采集技术可以自动化地获取和处理数据,减少人工干预和错误。
▷ 6.成本更低:大数据采集技术的成本通常比传统的数据采集技术更低,包括硬件和软件的成本。
大数据文章:
- 大数据(一)定义、特性
- 大数据(二)大数据行业相关统计数据
- 大数据(三)大数据相关的职位
- 基于Echarts构建大数据可视化大屏
- 大数据(四)主流大数据技术
- 大数据的关键技术之——大数据采集
推荐阅读:
[你找到牵手一辈子的人了吗?] 七夕情人节特辑 数字技术能让古籍“活过来”吗? 心情不好时,帮自己训练个AI情绪鼓励师吧(基于PALM 2.0 finetune) 深度学习框架TensorFlow 人工智能开发人员工作流程、看法、工具统计数据 2023 年6月开发者调查统计结果——最流行的技术(2) 2023 年6月开发者调查统计结果——最流行的技术(1) 让Ai帮我们画个粽子,它会画成什么样呢? 给照片换底色(python+opencv) 猫十二分类 基于大模型的虚拟数字人__虚拟主播实例 计算机视觉__基本图像操作(显示、读取、保存) 直方图(颜色直方图、灰度直方图) 直方图均衡化(调节图像亮度、对比度) 语音识别实战(python代码)(一)
人工智能基础篇
计算机视觉基础__图像特征
matplotlib 自带绘图样式效果展示速查(28种,全)
Three.js实例详解___旋转的精灵女孩(附完整代码和资源)(一) 立体多层玫瑰绘图源码__玫瑰花python 绘图源码集锦 Python 3D可视化(一)
让你的作品更出色——词云Word Cloud的制作方法(基于python,WordCloud,stylecloud)
python Format()函数的用法___实例详解(一)(全,例多)___各种格式化替换,format对齐打印
用代码写出浪漫__合集(python、matplotlib、Matlab、java绘制爱心、玫瑰花、前端特效玫瑰、爱心)
python爱心源代码集锦(18款) Python中Print()函数的用法___实例详解(全,例多)
Python函数方法实例详解全集(更新中...)
《 Python List 列表全实例详解系列(一)》__系列总目录、列表概念
用代码过中秋,python海龟月饼你要不要尝一口? python练习题目录
草莓熊python turtle绘图(风车版)附源代码 草莓熊python turtle绘图代码(玫瑰花版)附源代码
草莓熊python绘图(春节版,圣诞倒数雪花版)附源代码
巴斯光年python turtle绘图__附源代码
皮卡丘python turtle海龟绘图(电力球版)附源代码 Node.js (v19.1.0npm 8.19.3) vue.js安装配置教程(超详细)
色彩颜色对照表(一)(16进制、RGB、CMYK、HSV、中英文名)
2023年4月多家权威机构____编程语言排行榜__薪酬状况 手机屏幕坏了____怎么把里面的资料导出(18种方法)
【CSDN云IDE】个人使用体验和建议(含超详细操作教程)(python、webGL方向) 查看jdk安装路径,在windows上实现多个java jdk的共存解决办法,安装java19后终端乱码的解决
vue3 项目搭建教程(基于create-vue,vite,Vite + Vue) 2023年春节祝福第二弹——送你一只守护兔,让它温暖每一个你【html5 css3】画会动的小兔子,炫酷充电,字体特 别具一格,原创唯美浪漫情人节表白专辑,(复制就可用)(html5,css3,svg)表白爱心代码(4套)
SVG实例详解系列(一)(svg概述、位图和矢量图区别(图解)、SVG应用实例) 【程序人生】卡塔尔世界杯元素python海龟绘图(附源代码),世界杯主题前端特效5个(附源码) HTML+CSS+svg绘制精美彩色闪灯圣诞树,HTML+CSS+Js实时新年时间倒数倒计时(附源代码) 2023春节祝福系列第一弹(上)(放飞祈福孔明灯,祝福大家身体健康)(附完整源代码及资源免费下载)
tomcat11、tomcat10 安装配置(Windows环境)(详细图文)
Tomcat端口配置(详细)
Tomcat 启动闪退问题解决集(八大类详细)