Categories

算法

Post List

367 words 1 mins.

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$...
3.5k words 3 mins.

最近在做文本向量化的工作,正好写点记录一下 文本向量化的历史 文本向量化技术的发展大致可以分为基于统计的方法和基于神经网络的方法两个阶段。 1. 基于统计的方法1.1 词袋模型(Bag of Words, BOW) BOW 是文本向量化的最早形式,通过统计文本中每个词出现的次数来构造向量。 特点: 简单直观,容易实现。 不足: 无法捕获词语间的语序和上下文关系。 随着词汇量增长,向量维度迅速增大,产生稀疏矩阵。 1.2 TF-IDF 为了弥补 BOW 对常见词(如“的”、“是”)权重分配不合理的缺陷,TF-IDF...
3.9k words 4 mins.

学习一下uplift model,听组内大佬说过但是没搞明白 因果推断基础两大框架因果推断最著名的两大流派:Structural Causal Model以及Potential Outcome Framework Structural Causal Model: 基于因果图,本质是处理各个变量间的因果关系,干预是重要概念,对应do算子 Potential Outcome Framework:相对来说不注重因果关系,关注因果效,应控制变量,对原因做调整 几个基本假设 单位处理变量稳定性假设(Stable Unit Treatment Value...