哈尔滨网站建设价位,做网站开发需要的笔记本配置,网站做什么推广好,海珠网站建设报价描述性统计分析#xff08;Descriptive Statistics#xff09; 使用场景#xff1a;用来总结数据的基本特征#xff0c;如平均值、中位数、标准差等。 优势#xff1a;简单易懂#xff0c;快速总结数据。 劣势#xff1a;无法深入挖掘数据的潜在关系。 模拟数据及示例… 描述性统计分析Descriptive Statistics 使用场景用来总结数据的基本特征如平均值、中位数、标准差等。 优势简单易懂快速总结数据。 劣势无法深入挖掘数据的潜在关系。 模拟数据及示例代码 import pandas as pd
import numpy as np# 生成模拟数据
data {user_log_acct: [linfbi007, 13601089905_p, jd_UbSjKwFGOfbv] * 100,parent_sale_ord_id: np.random.randint(100000000000, 200000000000, size300),sale_ord_id: np.random.randint(100000000000, 200000000000, size300),sale_ord_tm: pd.date_range(start2023-01-01, periods300, freqH).tolist(),item_sku_id: np.random.randint(100000000, 200000000, size300),item_name: [冰箱, 洗衣机, 电视] * 100,brandname: [新飞, 海尔, 小米] * 100,sale_qtty: np.random.randint(1, 5, size300),item_first_cate_name: [家用电器] * 300,item_second_cate_name: [大家电] * 300,item_third_cate_name: [冰箱, 洗衣机, 电视] * 100,before_prefr_unit_price: np.random.uniform(1000, 2000, size300),after_prefr_unit_price: np.random.uniform(800, 1500, size300),user_actual_pay_amount: np.random.uniform(700, 1400, size300),sale_ord_valid_flag: [1] * 300,cancel_flag: [0] * 300,check_account_tm: pd.date_range(start2023-01-01, periods300, freqH).tolist(),total_offer_amount: np.random.uniform(100, 500, size300),self_ord_flag: [1, 0] * 150,user_site_city_id: np.random.randint(1, 100, size300),user_site_province_id: np.random.randint(1, 30, size300),user_lv_cd: [0, 1, 2] * 100
}df pd.DataFrame(data)# 描述性统计分析
desc_stats df.describe()
print(desc_stats) 结果 描述性统计结果包括每个数值字段的计数、平均值、标准差、最小值、25%分位数、50%分位数、75%分位数和最大值。通过这些数据可以初步了解数据的分布情况。 判断识别出用户实际支付金额的均值和标准差帮助定价策略。了解各个商品类别的销量分布情况便于库存管理。 数据可视化Data Visualization 使用场景通过图表展示数据发现趋势和模式。优势直观易懂便于发现数据中的规律。劣势图表的准确性和美观度受数据和设计影响。模拟数据及示例代码 import matplotlib.pyplot as plt# 销售数量分布图
plt.figure(figsize(10, 6))
df[sale_qtty].hist(bins20)
plt.title(Sales Quantity Distribution)
plt.xlabel(Quantity)
plt.ylabel(Frequency)
plt.show()结果 通过绘制销售数量的直方图可以看到不同销售数量的频率分布判断出哪些销售量区间是最常见的。 判断确定销售数量的常见区间便于营销策略的制定。识别异常销售量分析其原因。 相关性分析Correlation Analysis 使用场景分析两个或多个变量之间的线性关系。优势揭示变量间的关系便于进一步建模。劣势仅限于线性关系无法捕捉非线性关系。模拟数据及示例代码 # 相关性分析
correlation_matrix df.corr()
print(correlation_matrix)结果 生成变量之间的相关系数矩阵了解每对变量之间的相关程度。 判断 确定价格和销量之间的关系优化定价策略。识别促销活动对实际支付金额的影响调整促销方案。 假设检验Hypothesis Testing 使用场景验证假设判断样本数据是否支持某个假设。优势提供统计依据支持决策。劣势需要设定显著性水平结果受样本量影响。模拟数据及示例代码 from scipy import stats# 检验用户实际支付金额的均值是否为1000
t_stat, p_value stats.ttest_1samp(df[user_actual_pay_amount], 1000)
print(fT-statistic: {t_stat}, P-value: {p_value})结果 计算T统计量和P值通过P值判断是否拒绝原假设。 判断 如果P值小于显著性水平如0.05则拒绝原假设说明用户实际支付金额显著不同于1000。帮助优化定价策略。 回归分析Regression Analysis 使用场景预测变量之间的关系用于预测和因果分析。优势能量化多个因素的影响进行预测。劣势需要满足一定假设复杂模型需要更多计算资源。模拟数据及示例代码 import statsmodels.api as sm# 线性回归分析
X df[[before_prefr_unit_price, total_offer_amount, sale_qtty]]
y df[user_actual_pay_amount]
X sm.add_constant(X)
model sm.OLS(y, X).fit()
print(model.summary())结果 生成回归分析的详细报告包括系数、标准误、P值等。 判断 识别主要影响用户支付金额的因素优化营销策略。通过模型进行销售预测改进库存管理。 聚类分析Clustering Analysis 使用场景将数据分组发现数据中的自然分类。优势便于发现潜在的用户群体或商品类别。劣势需要确定聚类数结果解释较为复杂。模拟数据及示例代码 from sklearn.cluster import KMeans# 聚类分析
kmeans KMeans(n_clusters3)
df[cluster] kmeans.fit_predict(df[[before_prefr_unit_price, total_offer_amount, sale_qtty]])
print(df[cluster].value_counts())结果 每个聚类的样本数量分布了解数据的聚类情况。 判断 识别不同用户群体进行精准营销。分类商品优化推荐系统。 时间序列分析Time Series Analysis 使用场景分析时间序列数据的趋势和季节性变化。优势预测未来趋势进行库存和资源规划。劣势模型复杂需要较长时间序列数据。模拟数据及示例代码 from statsmodels.tsa.seasonal import seasonal_decompose# 时间序列分析
df.set_index(sale_ord_tm, inplaceTrue)
result seasonal_decompose(df[user_actual_pay_amount], modeladditive, period24)
result.plot()
plt.show()结果 分解时间序列得到趋势、季节性和残差成分。 判断 识别销售趋势调整营销策略。预测季节性变化优化库存管理。 频繁项集和关联规则挖掘Association Rule Mining 使用场景发现商品之间的购买关联提高交叉销售。优势揭示商品间的潜在关系提升销售额。劣势规则数量庞大需筛选有意义的规则。模拟数据及示例代码 from mlxtend.frequent_patterns import apriori, association_rules# 生成模拟购物篮数据
basket df.groupby([sale_ord_id, item_name]).size().unstack().reset_index().fillna(0).set_index(sale_ord_id)# 频繁项集
frequent_itemsets apriori(basket, min_support0.1, use_colnamesTrue)
rules association_rules(frequent_itemsets, metriclift, min_threshold1)
print(rules.head())结果 生成关联规则包括支持度、置信度和提升度。 判断 识别经常一起购买的商品优化商品组合。提升交叉销售策略提高销售额。 分类分析Classification Analysis 使用场景对用户或商品进行分类用于精准营销或风险评估。优势便于预测新样本的类别优化策略。劣势需大量标记数据复杂模型需更多计算资源。模拟数据及示例代码 from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report# 分类分析
X df[[before_prefr_unit_price, total_offer_amount, sale_qtty]]
y df[user_lv_cd]
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42)
clf RandomForestClassifier()
clf.fit(X_train, y_train)
y_pred clf.predict(X_test)
print(classification_report(y_test, y_pred))结果 生成分类报告包括精确度、召回率和F1分数。 判断 识别用户等级进行精准营销。评估商品风险优化库存策略。 异常检测Anomaly Detection 使用场景检测异常交易或行为防范风险。优势发现异常情况防止损失。劣势模型复杂需调整参数。模拟数据及示例代码 from sklearn.ensemble import IsolationForest# 异常检测
iso_forest IsolationForest(contamination0.1)
df[anomaly] iso_forest.fit_predict(df[[user_actual_pay_amount, sale_qtty]])
print(df[anomaly].value_counts())结果 识别出异常样本的数量和分布。 判断 发现异常交易防范欺诈行为。识别异常用户行为进行风险控制。