查看原文
其他

手把手教你用ChatGPT4 完美复刻Kaggle金牌大佬的 Python数据挖掘框架,附案例“泰坦尼克生存率分析”

清风徐来 AI变现研习社 2024-06-01

这是《ChatGPT ,从入门到精通》 系列篇文章。

欢迎转载,请注明出处。

欢迎加入学习群,加入方式见文末

随着GPTs商店的推出,ChatGPT4持续火爆

抛开各种花式玩法,ChatGPT 最让人觉得物超所值的还是数据分析功能。

曾经有朋友说,这个功能太巴适了,简直就是 GPT4.5。

用起来就好像吃着火锅,唱着歌,巴适!开通Plus会员,每个月少吃一顿串串,就当请了个全栈程序员+数据分析师

前两天,介绍了智谱的GLM4,也有数据分析,不少同学留言让我也系统评测下智谱的可视化分析功能

没问题,为了方便对照,我们今天下回顾一下GPT4的分析泰坦尼克案例

下面,将用最经典的《泰坦尼克号生存因素分析》数据集,向您详细介绍,如何用ChatGPT4的完美复刻Kaggle金牌大佬的 Python数据挖掘框架,完成经典数据集泰坦尼克的数据分析+可视化功能。

一、项目背景

泰坦尼克号沉没是历史上有名的沉船事件之一。1912 年 4 月 15 日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使 2224 名乘客和机组人员中的 1502 人丧生。这一耸人听闻的悲剧震惊了国际社会。

沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存。

什么决定了他们的存活?

头等舱的所谓上层地位?身强力壮的个体素质?还是尊老爱幼的社会良俗?

kaggle,全球最大的数据科学和机器学习竞赛平台,曾将这个问题纳入比赛选题。

大神 Kernel,凭借分析泰坦尼克号存活因素一举获得 kaggle 金牌。

这个项目涉及到很多数据分析和机器学习的基本步骤,例如数据导入、数据清洗、数据探索、特征工程、模型训练、模型评估等。

大神 Kernel 获得金牌的时候,还没有 ChatGPT,他用的是传统 python 程序分析,他的分析全过程点这里。

现在,ChatGPT4  的出现,让完全不懂技术的人,也可以迅速地完成数据分析,撰写一份图文并茂的分析报告。

不需要懂编程,只需要输入几句自然语言,就可以让 ChatGPT4 为你生成相应的文字分析、可视化图表!

你可以将其用在你工作、生活的各个方面!

下面我就来为你演示这个过程。

10 分钟,只要 10 分钟。

二、登录 ChatGPT

1、进入官网 openai.com

登录 openai 主页面,点击“login in”,输入账户、密码,进入 chat.openai.com

如果你没有 openai 账号,点这里看如何注册

目前,高级数据分析功能仅GPT-4使用,需要开通 PLus会员

开通方式如下:

《保姆级教程!手把手教你用支付宝开通 ChatGPT plus!》

2、新建一个 “GPT-4”对话



三、数据分析与可视化

1、数据读取与检查

(1)取得数据

你需要准备泰坦尼克的数据集。

所谓数据集就是一个 EXCEL 表或者.CSV 文件,有很多基础信息,比如员工信息表、财务台账、贷款人信息表等。泰坦尼克这个案例就是乘客信息表。

本文提到的所有数据集、字体,公众号回复 “泰坦” 取得

你也可以让 AI 帮你找,我用的乘客信息表数据集下载地址就是 GPT4 告诉我的。

提示语1:您能自行寻找一份原始的泰坦尼克数据集,或者提供一个下载链接吗

(2)上传数据

(3)给 GPT 一个角色

假设你是一个数据小白,你可以用大白话告知 AI:

“提示语2:我上传了一份文件给你。假设你是一个世界一流的专业数据分析师,请你按照最专业的方式、方法,帮我一步一步分析这份文件。”

注意:“一步一步”这个词很重要


2、数据预处理

数据预处理由 GPT-4 自行完成,但是它会将分析过程呈现出来:

(1)先预览数据

接到了你前面的提示语 2 后,AI 回答:


(2)数据清洗

GPT4 提供预览后,大部分时间下,无须你的提示,AI 会自动开展下一步工作。根据不同的缺失值,GPT4采取了不同的处理方式

GPT4 还是按照数据清洗 4c 原则:校正(Correcting)、填充(Completing)、创建(Creating)、转换(Converting)。

对缺失值,用中位值或者平均值代替

(3)探索性数据分析

注意,提示语 2 中,你并没有告知GPT4你的分析目的,GPT4可能会自动判断,它也可能再次和你明确分析目的(这就是智能所在)。


如果它询问你分析目的,你可以这样告诉它:

提示3:“分析每个因素对乘客的存活率的影响”

3、可视化图形

收到这条提示后,GPT4 开始绘图,比如下面这个密度图

GPT4 给的是一个英文界面,而我们想用中文,看起来更习惯

但是 ChatGPT 默认没有中文字体,这时候你可以上传一个中文字体给GPT4,上传方式和前面上传数据集一样。(不是每种中文字体都能用哈,公众号回复 “泰坦” 取得 泰坦尼克数据集+可用中文字体)

配套提示语如下:

提示语4:“请用中文显示图表的标题和标签,谢谢”

收到新的中文字体后,GPT4 会自动安装,并开始重新分析,将图形的题目和标签更换为中文。

  •  GPT4分析“年龄与生存率”:在年龄的密度图中,我们可以看到,生存下来的乘客中,儿童(年龄小于 10 岁)的比例较高。而在未生存下来的乘客中,年龄在 20 到 30 岁之间的乘客比例较高。
  • GPT4 分析:”性别与生存率“,图表显示,女性的生存率明显高于男性。这可能反映了当时的救援行动中,“妇女和儿童优先”的原则。
  • GPT4分析“舱位等级与生存率”:图表显示,一等舱的乘客的生存率最高,其次是二等舱,三等舱的乘客生存率最低。这可能反映了社会经济地位对生存概率的影响。
  • GPT4 分析“登船港口与生存率”:图表显示,从 Cherbourg (C) 登船的乘客的生存率最高,其次是 Queenstown (Q),而从 Southampton (S) 登船的乘客生存率最低。这可能反映了不同登船港口的乘客在社会经济地位、舱位等级等方面的差异。
  • GPT4分析“票价与生存率”:在票价的密度图中,我们可以看到,生存下来的乘客中,票价较高的乘客比例较高。而在未生存下来的乘客中,票价较低的乘客比例较高。

  • GPT4分析“单身与否与生存率”:这个图表显示了单身与否的乘客的存活率。从图中可以看出,非单身的乘客的存活率似乎更高。

GPT4 继续分析:以上只是初步的观察,为了得出更确切的结论,我们可能需要进行更深入的统计分析或者使用机器学习模型来找出影响生存率的最重要因素。

GPT4 完成预处理后,你一方面可以让 AI 根据你的要求修改,一方面可以鼓励 AI 自行探索。

GPT4 在完成绘图的同时,还会给出配套的文字说明。

我先提出如下要求:

提示词5:”请增加家庭规模、家庭身份(父亲、母亲、子女、其他)的存活率分析

  • AI 分析“家庭规模与存活率”:这个图表显示了不同家庭规模的乘客的存活率。从图中可以看出,家庭规模为 2 到 4 的乘客的存活率较高,而单身乘客和家庭规模较大(5 以上)的乘客的存活率较低。

这可能是因为家庭规模适中的乘客在灾难中可以互相帮助,从而提高生存的机会,而单身乘客和家庭规模较大的乘客可能在灾难中面临更多的困难。

  • GPT4 分析“家庭身份与存活率”

这个图表显示了不同家庭身份的乘客的存活率。从图中可以看出,被称为 "小姐"(可能是未婚女性或女孩)和 "夫人"(可能是已婚女性)的乘客的存活率较高,而被称为 "先生"(可能是男性)的乘客的存活率较低。"少爷"(通常用于年轻的男孩)的存活率也相对较高。

  • GPT4 分析“IsAlone”与存活率:此标签表示乘客是否独自一人。从图中可以看出,独自出行的乘客的生存率较低。

`

  • GPT4 分析票价“HighFare”与存活率:此标签表示乘客的票价是否高于中位数。从图中可以看出,票价高的乘客的生存率较高:

-GPT4 分析家庭角色与存活率:此标签表示乘客在家庭中的角色。从图中可以看出,被标记为 "Child" 和 "Mother" 的乘客的生存率较高。

GPT4 继续分析说:这些分析结果提供了一些有趣的洞见。例如,票价高可能意味着乘客在船上的社会地位较高,因此在发生灾难时有更多的机会获救。同样,孩子和母亲的生存率高可能是因为在撤离过程中优先照顾了妇女和儿童。

我继续提问

提示词6:“请用船舱等级+家庭身份 进行分组,进行生存率可视化分析”

AI 答复:

AI 还分析说:我已经按照你提供的图例生成了类似的图形,该图形展示了不同舱位等级和家庭角色中的乘客生存率。从这个图中,我们可以看到一些有趣的模式:

在所有的家庭角色中,儿童在各个舱位等级的生存率都比较高。这可能是因为在撤离过程中优先照顾了儿童。

对于母亲和父亲,一等舱和二等舱的生存率明显高于三等舱。这可能是因为舱位等级高的乘客在船上的社会地位较高,因此在发生灾难时有更多的机会获救。

对于其他角色的乘客,一等舱的生存率也明显高于二等舱和三等舱。

这个图为我们提供了关于乘客生存率如何受舱位等级和家庭角色影响的直观理解。然而,这些观察结果都是基于现有数据的,如果要深入了解这些特征和生存率之间的关系,可能需要进行更复杂的统计分析或建立预测模型。

我觉得不够直观,所以我继续与 AI 沟通

提示词7:“非常好!能否 “船舱等级+家庭身份" 就是1根柱子,这种图来表示?”

AI 完善后,得到如下图形

这张图排列有问题,还有乱码,我再次与 AI 沟通:

提示词8:“谢谢。再完善下,请按升序排列,标题和标签都用中文。另外每个柱子增加一个数字,折线图可以去掉”

AI 继续完善,得到以下图形:

  • GPT4 还并继续分析:

这个图形展示了按照舱位等级和家庭身份(即 'Pclass_FamilyRole')划分的乘客的生存率。例如,“1_Mother”代表一等舱的母亲,"3_Child"代表三等舱的儿童。

从这个图中,我们可以看到一些模式:

在所有的乘客类型中,二等舱的儿童("2_Child")的生存率最高,几乎接近 100%。

一等舱和二等舱的母亲("1_Mother" 和 "2_Mother")的生存率也很高,超过了 90%。

三等舱的父亲("3_Father")和二等舱的父亲("2_Father")的生存率最低,几乎接近 0%。

对于其他乘客("1_Other", "2_Other", "3_Other"),一等舱的乘客的生存率最高,其次是二等舱,三等舱的生存率最低。

这个图为我们提供了关于乘客生存率如何受舱位等级和家庭角色影响的详细视角。然而,这些结果都是基于现有数据的观察,并不能确定其中的因果关系。如果要深入了解这些特征和生存率之间的关系,可能需要进行更复杂的统计分析或建立预测模型。

以下是笔者的分析,非 AI 分析:

这张图揭示了很多真相。我看了很久,通过这些数字你可以看到

那些勇敢的二等、三等仓父亲,那些生死离别的家庭。

(四)扩展

想让 GPT4 多展示一些图,我就问

提示9:“能用热图表示存活率么?并做概述”

GPT4 做出了热图,并分析说:

“这是一个热图,展示了船舱等级和家庭身份与存活率的关系。颜色越深的区域代表存活率越高。

我们可以从热图中看出:

在所有的船舱等级与家庭身份组合中,一等舱的母亲和二等舱的母亲有最高的存活率。被认定为 "Father" 的乘客的存活率普遍较低,无论是在哪个船舱等级中。对于被认定为 "Other" 的乘客,一等舱的存活率显著高于二等舱和三等舱。这个热图提供了一个直观的方式来比较不同船舱等级和家庭身份组合的存活率。”

  • 如果你觉得不满意,可以让 AI 换个色系

提示10:"换个色系吧,红色系"

GPT4 更换红色系如下图:

注意:如果你不知道怎么改,就把感觉告诉给 AI,让它自行做主来改,你再评价。

提示11:"请再绘制幸存者性别年龄等直方图"

年龄与生存率的直方图:

性别与生存率的直方图

  • 我们也可以用开放式问题,让 AI 自己做,例如:

提示词12:"谢谢。你能用这些数据,做出一个你认为最有趣、最复杂的分析吗?请用图形表示并做出说明"

GPT4 说:

“当然可以。我想我可以通过研究不同等级舱位(Pclass)、性别(Sex)和年龄(Age)对生存率的影响,来创建一个比较复杂的可视化。我的假设是,这三个因素可能都对乘客的生存率有所影响,并且他们之间可能存在相互作用。

让我们首先创建一个新的年龄组列(AgeGroup),将年龄分为"儿童"(< 18 岁)、"成年人"(18-59 岁)和"老年人"(60 岁以上)。然后,我们将创建一个分面网格(facet grid),在网格中的每个面板都显示一个特定的舱位等级,然后绘制生存率与性别和年龄组的关系。”

GPT4 还继续分析说:

“这个图表显示了性别、年龄和舱位等级如何共同影响生存率。每个面板都表示一个特定的舱位等级(1、2 或 3),每个面板中的点则表示在该舱位等级中,不同性别和年龄组的乘客的生存率。

以下是对图表的一些观察:

在所有舱位等级中,女性的生存率都高于男性。这可能是因为在救生艇的分配上,"妇女和儿童优先"的原则被采用了。在一等舱和二等舱中,儿童(无论性别)的生存率都较高。然而,对于三等舱,男孩的生存率似乎较低。在一等舱和二等舱中,成年男性的生存率较低。在三等舱中,所有年龄组的男性生存率都较低。对于女性乘客,舱位等级似乎对生存率影响不大,尤其是对于儿童和成年人。”

提示词13:"请你对乘客的存活率影响因素,做一个概述,并推断出当时社会的价值观"

GPT4 回答:

“我们对泰坦尼克号上的乘客数据进行了深入的探索和分析,发现以下特征对乘客的生存率有显著影响:

性别:在所有年龄组和票价组中,女性乘客的生存率普遍高于男性。这可能反映了在这种灾难情况下,人们通常会优先考虑妇女和儿童的安全。

年龄:儿童(尤其是 16 岁以下的)的生存率相对较高,这同样可能反映了灾难情况下的救援原则,即“妇女和儿童优先”。然而,在三等舱中,男孩的生存率并不高,这可能是因为资源的不足或混乱的疏散过程。

票价和舱位等级:票价更高(一般来说,票价与舱位等级正相关)的乘客,以及一等舱和二等舱的乘客的生存率更高。这可能反映了社会经济地位在生存率中的作用,更高的票价可能意味着更好的舱位和更容易接近救生设施。

家庭角色:我们发现,在同等舱位级别下,儿童和母亲的生存率通常更高,而父亲和其他家庭成员的生存率较低。这可能表明在灾难发生时,家庭的年轻成员和母亲被赋予了更高的优先级。

这些发现揭示了 1912 年泰坦尼克号沉没时的社会价值观和生存原则。在那个时期,妇女和儿童优先的救援原则被广泛接受并实施,而且社会经济地位也在某种程度上影响了人们的生存机会。尽管这些观察结果都是基于现有数据,并不能确定其中的因果关系,但它们确实提供了一种理解当时社会环境和价值观的方式。

综上所述,我们可以推断出,尽管泰坦尼克号的灾难是一个极端的情况,但当时的社会价值观和阶级结构在乘客的生存率中起着重要作用。特别是社会阶级、性别和年龄对生存率的影响,揭示了一个深刻的社会现象:在灾难面前,资源的分配并不平等,社会的弱势群体(如三等舱的乘客、男性和成年人)往往处于不利的地位。这些发现提醒我们,在我们的社会中,公平和公正的资源分配,以及对所有人生命的尊重,仍然是我们需要努力追求的目标。“

四、报告撰写

既然 AI 这么专业,我们就让它写报告:

提示词14:"这样,你能根据上面你的分析,汇总撰写一份有逻辑的的《关于泰坦尼克乘客生存率因素分析报告》,要求文字+图片,图片由你根据内容绘制"

GPT4:当然可以,以下是一份《关于泰坦尼克乘客生存率因素分析报告》的概述:


# 关于泰坦尼克乘客生存率因素分析报告

## 1. 引言

泰坦尼克号的沉没是历史上最著名的海难之一,该事件在全球引起了广泛关注。在这次灾难中,乘客的生存率受到了多个因素的影响。本报告通过对泰坦尼克号数据集的分析,旨在理解这些因素和生存率之间的关系,并探讨其反映的社会价值观。

## 2. 数据概览

我们的数据集包含了891名泰坦尼克号的乘客,记录了他们的年龄、性别、舱位等级(Pclass)、票价(Fare)、同行的家庭成员数量(SibSp, Parch)以及他们是否幸存下来(Survived)等信息。

## 3. 数据分析

我们首先对数据进行了初步的探索和描述性统计分析,发现有一些特征可能与生存率有关。

### 3.1 性别与生存率

通过计数图,我们发现女性的生存率明显高于男性,这可能反映了当时社会的"女士优先""妇女和儿童优先"的救生原则。

![性别与生存情况](sex_survived.png)

### 3.2 年龄与生存率

通过年龄分布的直方图,我们观察到年龄较小(儿童)的乘客似乎有更高的生存率。

![年龄与生存情况](age_survived.png)

### 3.3 舱位等级、性别和年龄与生存率

我们进一步分析了舱位等级、性别和年龄如何共同影响生存率。结果显示,一等舱的乘客生存率最高,二等舱次之,三等舱最低。在所有舱位等级中,女性的生存率都高于男性。在一等舱和二等舱中,儿童(无论性别)的生存率都较高。然而,对于三等舱,男孩的生存率似乎较低。

![性别、年龄与舱位等级对生存率的影响](pclass_sex_age_survived.png)

## 4. 结论

泰坦尼克号的乘客生存率受到性别、年龄和舱位等级的影响。这些因素反映了当时的社会价值观和阶级结构。尤其是在灾难面前,资源的分配并不平等,社会的弱势群体(如三等舱的乘客、男性和成年人)往往处于不利的地位。这些发现提醒我们,在我们的社会中,公平和公正的资源分配,以及对所有人生命的尊重,仍然是我们需要努力追求的目标。

---

*注:此报告中的图表为示意图,由于环境限制并非实际分析结果。*

我们完全可以继续提示,让GPT4制作一个更完整的分析报告,配上GPT4 给出的文字和可视化图表。在效率方面,它绝对能够超越传统的 Python 数据分析。

五、特征工程和机器学习

1.特征工程

请进行特征工程分析

在进行机器学习模型的训练之前,特征工程是一项至关重要的工作,它可以极大地影响模型的性能。特征工程主要包括以下几个步骤:特征选择、特征提取、特征构造和特征转换。

在我们的泰坦尼克号数据集中,我们可以考虑以下的特征工程步骤:

1. **特征选择**:我们首先需要决定哪些特征是对我们的目标(预测乘客是否存活)有用的。在这个数据集中,我们已经发现性别、年龄、票价、舱位等级和家庭角色是影响存活率的重要因素,所以我们应该包括这些特征。

2. **处理缺失值**:在泰坦尼克号数据集中,年龄和舱位等级有一些缺失值。我们需要决定如何处理这些缺失值。一种常见的方法是使用均值或中位数填充这些缺失值。

3. **特征提取和构造**:我们可以通过组合现有的特征或者从现有的特征中提取信息来创建新的特征。在这个数据集中,我们已经创建了一个新的特征“FamilyRole”,这个特征是根据年龄和性别信息创建的。这种方法可以帮助我们挖掘数据中的隐藏模式。

4. **特征转换**:我们可能需要将一些特征进行转换以使其更适合模型的训练。例如,一些模型可能要求特征是正态分布的,或者所有的特征都在同一范围内。在这个数据集中,票价特征的范围比其他特征要大很多,我们可以通过对其进行对数转换来减小其范围。

以上就是针对泰坦尼克号数据集的特征工程的一些基本步骤和建议。在实际操作中,特征工程的过程可能需要多次迭代和试验,以找到最适合模型的特征集合。

2、数据建模

请进行数据模型建模

在我们的数据集上进行模型建模通常涉及以下步骤:数据预处理、模型选择、模型训练、模型评估以及模型优化。以下是一个简单的例子,使用逻辑回归模型对乘客的生存率进行预测:

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# 数据预处理
# 填充年龄的缺失值
data['Age'].fillna(data['Age'].mean(), inplace=True)

# 对性别进行编码
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})

# 创建家庭大小特征
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1

# 选择特征和标签
features = data[['Pclass''Sex''Age''Fare''FamilySize']]
target = data['Survived']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 模型选择和训练
model = LogisticRegression()
model.fit(X_train, y_train)

# 模型评估
predictions = model.predict(X_test)
print('Accuracy:', accuracy_score(y_test, predictions))

在这个例子中,我们首先进行了一些简单的数据预处理操作,包括填充年龄的缺失值,对性别进行编码,以及创建一个新的特征`FamilySize`。然后,我们选择了`Pclass`、`Sex`、`Age`、`Fare`和`FamilySize`作为特征,`Survived`作为标签。接着,我们将数据划分为训练集和测试集,并对数据进行了标准化。最后,我们选择了逻辑回归模型进行训练,并使用准确率对模型的性能进行了评估。

请注意,这只是一个简单的例子。在实际操作中,可能需要进行更复杂的数据预处理操作,选择不同的模型,以及进行模型的参数调优等步骤。

3、结果解释

请进行“结果解释”:解释我们的发现和模型结果

当我们完成了模型的建立和训练后,下一步就是解释我们的发现和模型结果。解释模型结果的目标是为了理解模型的预测是如何工作的,以及哪些特征对预测结果有重要影响。对于我们的泰坦尼克号生存率预测模型,以下是可能的结果解释:

1. **模型性能**:我们使用准确率来评估模型的性能。准确率是模型正确预测的样本数占总样本数的比例。一个高准确率的模型表明我们的模型在测试集上的预测效果较好。

2. **特征重要性**:在逻辑回归模型中,每个特征的系数代表了该特征对预测结果的影响。系数的绝对值越大,该特征的影响力越大。例如,如果性别特征的系数较高,这意味着性别对乘客的生存率有较大的影响。

3. **模型解释**:逻辑回归模型是一个线性模型,其结果可以通过一个线性方程进行解释。例如,模型可能会得到一个类似于这样的方程:生存率 = 0.3*性别 + 0.2*年龄 - 0.1*票价。在这个方程中,性别和年龄的系数为正,说明这两个特征增加了生存的可能性;而票价的系数为负,说明票价增加会降低生存的可能性。

4. **模型的局限性**:虽然我们的模型达到了较高的准确率,但它仍然有一些局限性。例如,我们的模型可能会对一些特定的情况预测不准,如老年人或儿童的生存率。此外,我们的模型也可能受到数据质量和数据量的影响。

以上就是对我们模型结果的一种解释方式。请注意,实际的解释可能会根据所使用的模型和数据集的具体情况进行调整。

4、模拟分析

假设有一个25岁的三等仓单身女青年。用你的模型分析她的存活率

GPT4 预测她的生存概率是在 30%-50%之间,具体如下:

由于我们无法运行预测模型,我将根据我们之前的数据分析和可视化来大致估计这位25岁的三等舱单身女性的生存概率。

我们注意到:

1. **性别**:在所有年龄组和票价组中,女性乘客的生存率普遍高于男性。这对这位女性乘客来说是一个积极的因素。
2. **舱位等级**:尽管女性的生存率普遍较高,但三等舱的乘客生存率相对较低。这可能对她的生存概率产生负面影响。
3. **年龄**:在三等舱的女性乘客中,年轻的乘客(如25岁)的生存率可能会稍高一些。

综合上述因素,我们可以大致推断,这位25岁的三等舱单身女性的生存概率可能会高于三等舱乘客的平均生存率,但低于女性乘客的平均生存率。考虑到所有的因素,我估计她的生存概率可能在30%-50%之间。


实话实说,写到这里我不禁为那些只擅长数据处理等单一技术的初级数据分析师捏了把汗。GPT4 可能在专业领域上无法与高级分析师相媲美,但在数据处理效率、数据洞察力和图表制作能力方面,远远超过人类分析师。

再加上建模能力和机器学习、预测分析,估计综合能力已经超过大部分人类数据分析师了。

随着GPT5的推出,想象一下未来GPT 可能变得多么强大,简直让人不敢想象。

好啦,今天的分享就到这里。今天我们以泰坦尼克数据集为例,向您展示了 GPT4 数据分析方面的强大功力!

别忘了公众号回复“泰坦”,取得泰坦尼克数据集和中文字体。

接下来,我们将继续结合案例、实际数据,深入分析、分享更多 AI 的应用案例!

欢迎阅读、点赞、转发、分享

您可以加入免费新人群,跟着大家,每天分享最新 ChatGPT 实用干货!

或者一步到位,加入VIP群。加入知识星球“浩瀚的 AI 苍穹”,即可取得 VIP 学习群加入方式!《VIP群入群及价值说明》

加入星球每隔 1-2 周适当上调,希望大家尽早入群,懂的都懂!

以下是新年新人优惠券

不懂就问,言多必得!

智谱GML4,国产 AI 之岩柱!平替GP4+ GPTs 商店?
非Plus用户国内直联官方GPTs
绘画新时代:AI绘图工具全指南
平替GPT?谷歌Gemini 本地化部署教程,轻松实现国内直联!
Esheep,一站式 SD 在线绘图神器,平替 C 站!
今年最炸裂视频AI“Pika”已对所有人开放!附:保姆级教程
万物皆可穿!阿里换衣AI上线
开源!免费!可商用!超过 LLAMA2,媲美 GPT3.5,Mixtral-8x7B 横空出世!附:三个使用平台
好用到哭!学会这个技巧,让 ChatGPT 问答质量直线飙升
翻译危险了!国内直联 GPT 新增“科技翻译大师”角色,新增GPT-3.5 16k 长文模型
ChatGPT4 最新开通+ API 白嫖大法:免费使用,无需手机验证,无需等待,国内直联
一周白嫖2万元显卡T4 30 小时!
免费使用ChatGPT4 的五个方法!亲测有效!
5分钟搞定!AI 写工作总结+ 自动生成 PPT
月之暗面 AI ,1秒搞定20 万字贵州茅台年报
通义听悟:免费!语音视频转文字 AI 利器
保姆级教程!手把手教你支付宝开通 ChatGPT plus!
可视化!用 GPT4 十分钟内完成泰坦尼克号生存分析




继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存