朴素贝叶斯常见问题 1. 什么是朴素贝叶斯 朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定理和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。以前的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。 原理:朴素贝叶斯是基于贝叶斯定理与特征条件独立假设 2022-10-08 机器学习 #朴素贝叶斯 #后验概率
沈阳故宫-大帅府游记 沈阳秋天的雨,不疾不徐。它打湿着我的外衣,却无法熄灭我内心的火。 驱车(当然是单车)仅需半小时,也并非拒人于千里,更显得亲和力十足,这就是沈阳故宫–蕴含着清史的瑰宝。 从大清门到大政殿,再从大政殿到文溯阁……这便完成了一次观赏。陶俑、玉雕、诗词……透露着满清的风韵。若非涌动的人流,定会驻足多滞留片刻;若非关闭的窗壁,定要握在手上细细品玩。 张氏帅府,为中国抗战做出巨大贡献的张学良,肃穆沉重的 2022-10-01 随笔 #生活 #游记
搜广推业务常用简写释义 UGC(User Generated Content):用户生成内容,指的是由普通用户创建并分享的内容,例如社交媒体上的帖子、评论、图片等。 PGC(Professionally Generated Content):专业生成内容,指的是由专业人士或组织创建的内容,例如新闻、电影、音乐、书籍等。 PUGC(Professional User Generated Content):专业用户生成内容, 2022-09-05 技能 #简写
采样方法与集成策略 1 BootStrapping 采样 Bootstrapping 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: (1) 采用重抽样技术从原始样本中抽取一定数量的样本,此过程允许重复抽样。 (2) 根据抽出的样本计 2022-05-05 机器学习 #采样 #集成 #boosting #bagging
决策树 1 基础知识 1.1 熵 在物理学中表示一个系统的混乱程度,在信息论里面表示随机变量的不确定性的度量,熵越大,不确定性越大。 H(p)=−∑i=1npilog(pi)\begin{align*} H(p) = -\sum\limits_{i=1}^{n}p_{i}log ( p_{i} ) \end{align*} H(p)=−i=1∑npilog(pi) 显然0≤H(p)≤log(n)0 2022-05-04 机器学习 #决策树 #熵
常见分布函数及其性质 1、正态分布 1、数字特征 若 X∼N(μ,σ2)X\sim N(\mu,\sigma^{2})X∼N(μ,σ2),则 期望:$E(X) = \mu $; 方差:Var(X)=σ2Var(X) = \sigma^{2}Var(X)=σ2。 注:标准正态分布记为 X∼N(0,1)X \sim N(0,1)X∼N(0,1) 2、性质 每一个特定正态分布均可通过其均值μ、标准差σ来区分。他们分别确 2022-04-28 统计学 #分布函数 #期望 #方差
显著性检验 1、显著性检验 只对犯第Ⅰ类错误的概率加以控制,而不考虑犯第二类错误的概率的检验称为显著性检验。 2、假设检验原理 小概率事件在一次实验中几乎是不可能发生的。 如果一个小概率实验在一次随机试验中发生了,那么我们有理由拒绝原假设! 3、两类错误的定义 第Ⅰ类错误是原假设 H0H_0H0为真却被我们拒绝了,犯这种错误的概率用 ααα 表示,所以也称 ααα 错误或弃真错误; 第Ⅱ类错误是原假设为伪 2022-04-28 统计学 #显著性检验
显著性水平α与p值 1、显著性水平 α\alphaα 的含义 在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是假设检验中犯弃真错误的概率。 2、α\alphaα 的取值 一般选择0.1,0.05,0.01。 3、ppp 值 假设检验问题的p值是由检验统计量的样本观测值得出的原假设可被拒绝的最小显著性水平; P值是当原假设为真时,样本观察结果或更极端结果出现的概率。 P值越小,拒绝原假设的理由越 2022-04-26 统计学 #p值 #显著性水平α
快手实习小结 工作岗位 快手数据算法工程师实习 工作内容简述 负责快影APP“一键出片”功能的开发,依需求确定所需的数据,建立合理的特征体系,进行相关数据清洗,负信号的选择,模型的选择与调优(二分类问题AUC值为:83%),召回策略的开发,线上部署与性能优化,AB测试; 内容详述 1、背景介绍 快影APP是一款视频制作软件,日活用户量级600w+,模板量级100w+,它的功能特点是,每个用户都可以制作视频模板上 2022-04-14 技能 #实习 #快手 #推荐
摇曳的秋风 梦的空间紧紧封闭 金色的思绪 在寒风中游弋 卷起的叶浪 变成了沉默的秘密 银杏子守着谜底 埋葬在落叶堆砌的坟墓 脚步踩碎了梦境 秋风也带走了秘密 银杏子便发着腐臭的气息 轻轻的一片叶 压碎了满江的月 似彩色的梦 撞上萧瑟的风 散成了满天荒唐的雪 南国的柔 遇着北国的烈 是 $ arctanx=\frac{\pi}{2} $得不到的解 注:继《东大秋天的梦》下篇 2021-10-21 随笔 #东北大学 #秋天 #诗词