【Python】基于KMeans的航空公司客户数据聚类分析

2024-07-06 1591阅读

💐大家好！我是码银~，欢迎关注💐：

CSDN：码银

公众号：码银学编程

实验目的和要求

会用Python创建Kmeans聚类分析模型
使用KMeans模型对航空公司客户价值进行聚类分析
会对聚类结果进行分析评价
实验环境
- pycharm2020
- Win11
- Python3.7
- Anaconda2019
  KMeans聚类算法简介
  
  KMeans聚类算法是一种基于中心点的聚类方法，其目标是将数据点划分为K个簇，使得每个簇内的数据点与簇中心的距离之和最小。算法的基本步骤包括：
  1. 初始化：随机选择K个数据点作为初始簇中心。
  2. 分配：将每个数据点分配到最近的簇中心，形成K个簇。
  3. 更新：重新计算每个簇的中心点。
  4. 迭代：重复步骤2和3，直到簇中心不再变化或达到最大迭代次数。
  数据的加载和分析
  
  数据集的获取：搜索微信公众号“码银学编程”。回复：航空数据集
  
  ZL：入会至当前时长，反映客户的活跃时间。
  ZR：最近消费时间间隔，反映客户的最近活跃程度。
  ZF：消费频次，反映客户的忠诚度。
  ZM：消费里程总额，反映客户对航空公司服务的依赖程度。
  ZC：舱位等级对应折扣系数，通常舱位等级越高，折扣系数越大。
  
  首先，使用Pandas库加载CSV格式的环境监测数据文件。
```
def load_data(filepath):
    """加载CSV数据文件"""
    return pd.read_csv(filepath, header=0)
```
  聚类分析
  
  接着，使用Scikit-learn库中的KMeans模型对数据进行聚类分析。通过设置不同的参数，如最大迭代次数、簇的数量等，可以对模型进行调整以适应不同的数据集。
```
def perform_kmeans(data, n_clusters):
    """执行KMeans聚类分析"""
    model = KMeans(max_iter=300, n_clusters=n_clusters, random_state=None, tol=0.0001)
    model.fit(data)
    return model
```
  结果可视化
  
  为了直观展示聚类结果，使用Matplotlib库绘制聚类图。通过将数据点和簇中心在二维平面上表示，可以清晰地观察到数据的分布和簇的划分情况。
```
def plot_clusters(model, data):
    """绘制聚类结果"""
    plt.figure(figsize=(10, 6))  # 设置图表大小
    plt.xlabel("ZL-ZR-ZF-ZM-ZC")  # 假设环境指标
    plt.ylabel("Cluster-center-value")
    plt.title("聚类分析结果图")
    colors = ['r', 'g', 'y', 'b', 'k']
    for i in range(model.n_clusters):
        plt.plot(data.columns, model.cluster_centers_[i], label=f'Cluster {i}', color=colors[i], marker='o')
    plt.legend()
    plt.grid(True)
    plt.show()
```
  主函数
```
def main():
    # 加载数据
    data = load_data("air_data.csv")
    print("数据形状：", data.shape)
    print("数据前五行：")
    print(data.head())
    # 聚类分析
    kmodel = perform_kmeans(data, 5)
    print("聚类类别数目统计：")
    print(pd.Series(kmodel.labels_).value_counts())
    # 聚类中心
    cluster_centers = pd.DataFrame(kmodel.cluster_centers_)
    print("聚类中心：")
    print(cluster_centers)
    # 聚类中心与类别数目
    cluster_info = pd.concat([cluster_centers, pd.Series(kmodel.labels_).value_counts()], axis=1)
    cluster_info.columns = list(data.columns) + ['Cluster Count']
    print("聚类中心与类别数目：")
    print(cluster_info)
    # 绘制聚类结果图
    plot_clusters(kmodel, data)
if __name__ == "__main__":
    main()
```
  分析与讨论
  
  这个结果展示了使用K-Means聚类算法对航空公司客户数据进行分析后得到的聚类中心和每个聚类的样本数量。每一列（ZL、ZR、ZF、ZM、ZC）代表数据集中的一个特征，这些特征分别表示：
  - ZL：入会至当前时长，反映客户的活跃时间。
  - ZR：最近消费时间间隔，反映客户的最近活跃程度。
  - ZF：消费频次，反映客户的忠诚度。
  - ZM：消费里程总额，反映客户对航空公司服务的依赖程度。
  - ZC：舱位等级对应折扣系数，通常舱位等级越高，折扣系数越大。
    聚类中心（Cluster Centers）是每个聚类中所有点的均值，可以看作是该聚类的“代表”或“典型”客户。在这个例子中，我们有5个聚类中心和它们的统计数据：
    1. 第一个聚类中心（Cluster 0）的ZL值较低，ZR值较高，ZF和ZM值较低，ZC值也较低。这可能代表一群活跃时间较短、最近消费间隔较长、消费频次和里程较低的客户，他们可能对航空公司的忠诚度和依赖程度不高。
    2. 第二个聚类中心（Cluster 1）的ZL值较高，ZR值较低，ZF值较低，ZM值较低，ZC值较低。这可能代表一群活跃时间较长但最近不太活跃的客户，他们的消费频次和里程也较低。
    3. 第三个聚类中心（Cluster 2）的ZL和ZR值都较低，ZF值较低，ZM值较低，ZC值较高。这可能代表一群活跃时间较短且最近消费间隔较长的客户，他们的消费频次和里程较低，但可能购买了较高舱位等级的机票。
    4. 第四个聚类中心（Cluster 3）的ZL和ZR值都较高，ZF和ZM值较高，ZC值也较高。这可能代表一群活跃时间较长、最近消费频繁、消费里程高且购买了较高舱位等级机票的客户，他们对航空公司的忠诚度和依赖程度很高。
    5. 第五个聚类中心（Cluster 4）的ZL值较低，ZR值较低，ZF值较低，ZM值较低，ZC值较高。这可能代表一群最近活跃且购买了较高舱位等级机票的客户，但他们的总体消费频次和里程较低。
    完整代码
```
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.cluster import KMeans
def load_data(filepath):
    """加载CSV数据文件"""
    return pd.read_csv(filepath, header=0)
def perform_kmeans(data, n_clusters):
    """执行KMeans聚类分析"""
    model = KMeans(max_iter=300, n_clusters=n_clusters, random_state=None, tol=0.0001)
    model.fit(data)
    return model
def plot_clusters(model, data):
    """绘制聚类结果"""
    plt.figure(figsize=(10, 6))  # 设置图表大小
    plt.xlabel("ZL-ZR-ZF-ZM-ZC")
    plt.ylabel("Cluster-center-value")
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 确保中文标签正常显示
    plt.title("聚类分析结果图")
    cluster_centers = model.cluster_centers_
    colors = ['r', 'g', 'y', 'b', 'k']
    for i in range(len(cluster_centers)):
        plt.plot(data.columns, cluster_centers[i], label=f'Cluster {i}', color=colors[i], marker='o')
    plt.legend()
    plt.grid(True)  # 添加网格线
    plt.show()
def main():
    # 加载数据
    data = load_data("air_data.csv")
    print("数据形状：", data.shape)
    print("数据前五行：")
    print(data.head())
    # 聚类分析
    kmodel = perform_kmeans(data, 5)
    print("聚类类别数目统计：")
    print(pd.Series(kmodel.labels_).value_counts())
    # 聚类中心
    cluster_centers = pd.DataFrame(kmodel.cluster_centers_)
    print("聚类中心：")
    print(cluster_centers)
    # 聚类中心与类别数目
    cluster_info = pd.concat([cluster_centers, pd.Series(kmodel.labels_).value_counts()], axis=1)
    cluster_info.columns = list(data.columns) + ['Cluster Count']
    print("聚类中心与类别数目：")
    print(cluster_info)
    # 绘制聚类结果图
    plot_clusters(kmodel, data)
if __name__ == "__main__":
    main()
```

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

【Python】基于KMeans的航空公司客户数据聚类分析

实验目的和要求

实验环境

KMeans聚类算法简介

数据的加载和分析

聚类分析

结果可视化

主函数

分析与讨论

完整代码

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]