指标异动检验与归因分析 1、背景描述 在某业务场景中,需要每天观测收入这个指标,并根据实际业务动作、各个维度的变动情况、数据变化趋势等信息来判断当日的数据是否属于异常。如果数据异常,那么相应的,需要找到造成异常的主要因素。 2、数据介绍与指标拆解 当前可用的收入指标数据仅可回溯两年半,约870条,业务人员依据人工规则为最近半年的数据打上了标签,即打标数据约140条,其中异常标签数据11个。 如果判定了当天的收入指标属于 2024-05-31 机器学习 > 技能 > 统计学 #时间序列 #异动归因 #gini系数 #解释度 #二分类 #指标拆解
数据倾斜及其一般解决方法 在使用分布式计算框架如Apache Hadoop和Apache Spark处理海量数据集进行高效计算时,经常会面临数据倾斜的问题,严重影响分布式计算的性能和效率。 什么是数据倾斜? 数据倾斜指的是在分布式数据处理中,数据在集群中的不均匀分配。导致部分计算节点处理的数据远多于其他节点,从而造成部分节点过载,延长整体的处理时间,降低计算效率。 例如:在分析用户对商品的点击行为时,少数热点商品的点击数据 2024-04-11 技能 #spark #数据倾斜 #分布式计算
Transformer解读 Transformer 原文 《Attention is All You Need》 Transformer 整体结构 1 模型输入表示 1.1 单词编码 对于给定的语料库,将其进行分词,统计词频,按照词频进行降序排序,给每一个词分配一个索引,也就是说词频越大的单词,其索引值越小,词频最大的单词索引为0。 然后将每一个单词映射为一个向量,这个向量就是单词的编码,向量可以使用one-hot编码(也可 2024-04-03 技能 #深度学习 #注意力机制 #Transformer
uplift建模之元学习器 1. 辛普森悖论 辛普森悖论描述的是,当我们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。 我们以新生录取率与性别的关系研究为例,美国一所大学在招生时进行了一项统计,结果如下 学院 女生申请人数 女生录取人数 女生录取率 男生申请人数 男生录取人数 男生录取率 合计申请 合计录取 合计录取 2024-03-06 机器学习 #uplift #元学习器 #因果推断 #辛普森悖论 #倾向性得分
使用Python的 globals(), locals() 和 exec() 动态创建变量 使用Python的 globals(), locals() 和 exec() 动态创建变量 问题描述 我们有一个值的列表,需要为每个值创建一个独立的变量。例如,我们有一个包含100个元素的列表,我们想要创建100个变量,每个变量的名称为v1, v2, …, v100,并且每个变量的值对应列表中的一个元素。 使用globals()函数 globals()函数返回一个全局命名空间的字典。我们可以使用这 2024-01-30 技能 #python
Github拒绝连接 问题描述 当以ssh方式clone/push一个项目时,出现拒绝连接的提示。 $ git clone git@github.com:name/project.git Cloning into 'project'... ssh: connect to host github.com port 22: Connection refused fatal: Could not rea 2024-01-29 技能 #Github #port 22
大模型入门 使用预训练大模型推理 1 安装必要的库 pip install torch torchvision transformers 2 导入必要的库,并且加载预训练模型和相应的分词器 from transformers import GPT2LMHeadModel, GPT2Tokenizer # 初始化模型和分词器 tokenizer = GPT2Tokenizer.from_pretrain 2024-01-26 机器学习 #python #大模型 #GPT2 #预训练 #pytorch #transformers
Spark中groupByKey和reduceByKey的区别 在Spark中,groupByKey和reduceByKey都是用于对RDD中的键值对进行操作的转换操作。这两个操作都可以用于按键对数据进行分组和聚合,但它们在执行方式和结果上有一些重要的区别。 groupByKey: 操作方式:groupByKey操作将RDD中的键值对按键进行分组,将具有相同键的值放置在同一个组中。 执行过程:在执行过程中,Spark会将所有具有相同键的值通过网络进行混洗 2024-01-15 技能 #面试 #Spark
LightGBM中常见的几种损失策略 LightGBM的几种损失策略 LightGBM支持多种损失策略用于回归、分类和排序任务。下面介绍每种损失策略的计算公式、应用场景和特点。 平方损失(Squared Loss): 计算公式:L(y^,y)=(y^−y)2L(\hat{y}, y) = (\hat{y} - y)^2 L(y^,y)=(y^−y)2 应用场景:主要用于回归任务,对于预测连续数值的问题,如房价预测、销售预测 2024-01-15 技能 #LightGBM #损失 #排序 #树模型 #面试
CentOS 中通过 Docker 部署MySQL镜像 CentOS 中通过 Docker 部署MySQL镜像 0.启动docker服务 sudo systemctl start docker 1.构建镜像 从远程公共仓库拉取最新版mysql镜像 docker pull mysql:latest 或编写dockerfile文件,构建镜像 # 使用最新版本的mysql作为基础镜像 FROM mysql:latest # 设置mysql的环境 2024-01-15 技能 #docker #MySQL #CentOS7