Seal's Whisky

指标异动检验与归因分析

1、背景描述在某业务场景中，需要每天观测收入这个指标，并根据实际业务动作、各个维度的变动情况、数据变化趋势等信息来判断当日的数据是否属于异常。如果数据异常，那么相应的，需要找到造成异常的主要因素。 2、数据介绍与指标拆解当前可用的收入指标数据仅可回溯两年半，约870条，业务人员依据人工规则为最近半年的数据打上了标签，即打标数据约140条，其中异常标签数据11个。如果判定了当天的收入指标属于

2024-05-31

机器学习 > 技能 > 统计学

#时间序列 #异动归因 #gini系数 #解释度 #二分类 #指标拆解

数据倾斜及其一般解决方法

在使用分布式计算框架如Apache Hadoop和Apache Spark处理海量数据集进行高效计算时，经常会面临数据倾斜的问题，严重影响分布式计算的性能和效率。什么是数据倾斜？数据倾斜指的是在分布式数据处理中，数据在集群中的不均匀分配。导致部分计算节点处理的数据远多于其他节点，从而造成部分节点过载，延长整体的处理时间，降低计算效率。例如：在分析用户对商品的点击行为时，少数热点商品的点击数据

2024-04-11

技能

#spark #数据倾斜 #分布式计算

Transformer解读

Transformer 原文《Attention is All You Need》 Transformer 整体结构 1 模型输入表示 1.1 单词编码对于给定的语料库，将其进行分词，统计词频，按照词频进行降序排序，给每一个词分配一个索引，也就是说词频越大的单词，其索引值越小，词频最大的单词索引为0。然后将每一个单词映射为一个向量，这个向量就是单词的编码，向量可以使用one-hot编码(也可

2024-04-03

技能

#深度学习 #注意力机制 #Transformer

uplift建模之元学习器

1. 辛普森悖论辛普森悖论描述的是，当我们尝试探究两种变量（比如新生录取率与性别）是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。我们以新生录取率与性别的关系研究为例，美国一所大学在招生时进行了一项统计，结果如下学院女生申请人数女生录取人数女生录取率男生申请人数男生录取人数男生录取率合计申请合计录取合计录取

2024-03-06

机器学习

#uplift #元学习器 #因果推断 #辛普森悖论 #倾向性得分

使用Python的 globals(), locals() 和 exec() 动态创建变量

使用Python的 globals(), locals() 和 exec() 动态创建变量问题描述我们有一个值的列表，需要为每个值创建一个独立的变量。例如，我们有一个包含100个元素的列表，我们想要创建100个变量，每个变量的名称为v1, v2, …, v100，并且每个变量的值对应列表中的一个元素。使用globals()函数 globals()函数返回一个全局命名空间的字典。我们可以使用这

2024-01-30

技能

#python

Github拒绝连接

问题描述当以ssh方式clone/push一个项目时，出现拒绝连接的提示。 $ git clone git@github.com:name/project.git Cloning into 'project'... ssh: connect to host github.com port 22: Connection refused fatal: Could not rea

2024-01-29

技能

#Github #port 22

大模型入门

使用预训练大模型推理 1 安装必要的库 pip install torch torchvision transformers 2 导入必要的库，并且加载预训练模型和相应的分词器 from transformers import GPT2LMHeadModel, GPT2Tokenizer # 初始化模型和分词器 tokenizer = GPT2Tokenizer.from_pretrain

2024-01-26

机器学习

#python #大模型 #GPT2 #预训练 #pytorch #transformers

Spark中groupByKey和reduceByKey的区别

在Spark中，groupByKey和reduceByKey都是用于对RDD中的键值对进行操作的转换操作。这两个操作都可以用于按键对数据进行分组和聚合，但它们在执行方式和结果上有一些重要的区别。 groupByKey：操作方式：groupByKey操作将RDD中的键值对按键进行分组，将具有相同键的值放置在同一个组中。执行过程：在执行过程中，Spark会将所有具有相同键的值通过网络进行混洗

2024-01-15

技能

#面试 #Spark

LightGBM中常见的几种损失策略

LightGBM的几种损失策略 LightGBM支持多种损失策略用于回归、分类和排序任务。下面介绍每种损失策略的计算公式、应用场景和特点。平方损失（Squared Loss）：计算公式：L(y^,y)=(y^−y)2L(\hat{y}, y) = (\hat{y} - y)^2 L(y^,y)=(y^−y)2 应用场景：主要用于回归任务，对于预测连续数值的问题，如房价预测、销售预测

2024-01-15

技能

#LightGBM #损失 #排序 #树模型 #面试

CentOS 中通过 Docker 部署MySQL镜像

CentOS 中通过 Docker 部署MySQL镜像 0.启动docker服务 sudo systemctl start docker 1.构建镜像从远程公共仓库拉取最新版mysql镜像 docker pull mysql:latest 或编写dockerfile文件，构建镜像 # 使用最新版本的mysql作为基础镜像 FROM mysql:latest # 设置mysql的环境

2024-01-15

技能

#docker #MySQL #CentOS7