数据倾斜及其一般解决方法 在使用分布式计算框架如Apache Hadoop和Apache Spark处理海量数据集进行高效计算时,经常会面临数据倾斜的问题,严重影响分布式计算的性能和效率。 什么是数据倾斜? 数据倾斜指的是在分布式数据处理中,数据在集群中的不均匀分配。导致部分计算节点处理的数据远多于其他节点,从而造成部分节点过载,延长整体的处理时间,降低计算效率。 例如:在分析用户对商品的点击行为时,少数热点商品的点击数据 2024-04-11 技能 #spark #数据倾斜 #分布式计算
Transformer解读 Transformer 原文 《Attention is All You Need》 Transformer 整体结构 1 模型输入表示 1.1 单词编码 对于给定的语料库,将其进行分词,统计词频,按照词频进行降序排序,给每一个词分配一个索引,也就是说词频越大的单词,其索引值越小,词频最大的单词索引为0。 然后将每一个单词映射为一个向量,这个向量就是单词的编码,向量可以使用one-hot编码(也可 2024-04-03 技能 #深度学习 #注意力机制 #Transformer
uplift建模之元学习器 1. 辛普森悖论 辛普森悖论描述的是,当我们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。 我们以新生录取率与性别的关系研究为例,美国一所大学在招生时进行了一项统计,结果如下 学院 女生申请人数 女生录取人数 女生录取率 男生申请人数 男生录取人数 男生录取率 合计申请 合计录取 合计录取 2024-03-06 机器学习 #uplift #元学习器 #因果推断 #辛普森悖论 #倾向性得分
使用Python的 globals(), locals() 和 exec() 动态创建变量 使用Python的 globals(), locals() 和 exec() 动态创建变量 问题描述 我们有一个值的列表,需要为每个值创建一个独立的变量。例如,我们有一个包含100个元素的列表,我们想要创建100个变量,每个变量的名称为v1, v2, …, v100,并且每个变量的值对应列表中的一个元素。 使用globals()函数 globals()函数返回一个全局命名空间的字典。我们可以使用这 2024-01-30 技能 #python
Github拒绝连接 问题描述 当以ssh方式clone/push一个项目时,出现拒绝连接的提示。 $ git clone git@github.com:name/project.git Cloning into 'project'... ssh: connect to host github.com port 22: Connection refused fatal: Could not rea 2024-01-29 技能 #Github #port 22
大模型入门 使用预训练大模型推理 1 安装必要的库 pip install torch torchvision transformers 2 导入必要的库,并且加载预训练模型和相应的分词器 from transformers import GPT2LMHeadModel, GPT2Tokenizer # 初始化模型和分词器 tokenizer = GPT2Tokenizer.from_pretrain 2024-01-26 机器学习 #python #大模型 #GPT2 #预训练 #pytorch #transformers
Spark中groupByKey和reduceByKey的区别 在Spark中,groupByKey和reduceByKey都是用于对RDD中的键值对进行操作的转换操作。这两个操作都可以用于按键对数据进行分组和聚合,但它们在执行方式和结果上有一些重要的区别。 groupByKey: 操作方式:groupByKey操作将RDD中的键值对按键进行分组,将具有相同键的值放置在同一个组中。 执行过程:在执行过程中,Spark会将所有具有相同键的值通过网络进行混洗 2024-01-15 技能 #面试 #Spark
LightGBM中常见的几种损失策略 LightGBM的几种损失策略 LightGBM支持多种损失策略用于回归、分类和排序任务。下面介绍每种损失策略的计算公式、应用场景和特点。 平方损失(Squared Loss): 计算公式:L(y^,y)=(y^−y)2L(\hat{y}, y) = (\hat{y} - y)^2 L(y^,y)=(y^−y)2 应用场景:主要用于回归任务,对于预测连续数值的问题,如房价预测、销售预测 2024-01-15 技能 #LightGBM #损失 #排序 #树模型 #面试
CentOS 中通过 Docker 部署MySQL镜像 CentOS 中通过 Docker 部署MySQL镜像 0.启动docker服务 sudo systemctl start docker 1.构建镜像 从远程公共仓库拉取最新版mysql镜像 docker pull mysql:latest 或编写dockerfile文件,构建镜像 # 使用最新版本的mysql作为基础镜像 FROM mysql:latest # 设置mysql的环境 2024-01-15 技能 #docker #MySQL #CentOS7
2024青岛元旦 岁月折叠成册 往事研磨成墨 思绪飘逸成笔 相聚点缀成色 时间总有化腐朽为神奇的力量,那些年再平凡不过的事情,如今看起来都充满了传奇的色彩,总也忍不住想要记录些什么,给未来留下一些回忆! 情怀大概是本次聚会的中心词,每个落脚点都会勾起一坨子的陈年往事。你背着它们行进,细数着其中的桩桩件件,当你走出这片区域,再次理清思绪时,后背上的回忆之重也便随之消逝而去。 小麦岛早已失去了原有的面貌,我再也不能 2024-01-01 随笔 #小麦岛 #青岛 #青岛大学 #石老人 #元旦 #跨年