笔记 | 什么是TSNE
TSNE是由T和SNE组成,也就是T分布和随机近邻嵌入(Stochastic neighbour Embedding )。学金融、学管理和学小语种的朋友都开始学Python做数据分析了,但很多时间大家只是想知道某个东西是什么、怎么用,今天有小伙伴问我什么是TSNE,我就简单讲讲这是什么。
提示:本文为初学笔记,仅为提供相关的讨论,谢谢。
简单来说,TSNE就是一种数据可视化的工具,能够将高维数据降到2-3维(降维),然后画成图。现在也有蛮多可以直接使用的套件,如sklearn.manifold(具体可看: Sklearn TSNE官网)。
大概啥原理呢?我来根据一个教程视频来讲讲,视频我放在文章的最后啦。
假设你有一个二维空间的数据,想要转换到一维空间,图示如下:
你可能会说,那我直接将数据映射到y坐标不就行啦,直接映射的话,就成了一下的样子:
我们知道自然条件下,数据一般都会服从某种分布,那能不能将数据根据某种规则来映射到这个分布上呢?来看下图:
上图是说,我先选出某个点,然后计算这个点到所有点的距离,因为同一类的距离小嘛,所以映射到对应的分布上就成了以下的样子啦。
而TSNE所对应的分布就是t分布,bingo,以上就是大致的原理啦。
当然,以上的讨论就是最基本和简单的,也没法涵盖所有的内容,如果想要更深入了解,可以看看这篇文章: t-SNE完整笔记。
相关的视频我也放上来啦,作者语速非常适合练习听力。
什么是TSNEhttps://www.zhihu.com/video/1044271142529409024参考资料:
[1] 详解可视化利器 t-SNE 算法:数无形时少直觉
[2] TSNE--目前最好的降维方法 - bonelee - 博客园
[3] 理解TSNE算法
[4] 数据降维与可视化--t-SNE - hustqb的博客 - CSDN博客