Pandas - Kaggle 官方课程
来源:Kaggle 官方课程 Pandas
2024-08-30@isSeymour
Pandas - Kaggle
1. Creating, Reading and Writing
12import pandas as pdpd.set_option('display.max_rows', 5)
123fruits = pd.DataFrame({'Apples': [30], 'Bananas': [21]})fruits
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
...
INTRO to ML - Kaggle 官方课程
INTRO to Machine Learning
来源:Introduction to Machine Learning
2024-08-29@isSeymour
1. 训练与验证
12345# Set up filepathsimport osif not os.path.exists("../input/train.csv"): os.symlink("../input/home-data-for-ml-course/train.csv", "../input/train.csv") os.symlink("../input/home-data-for-ml-course/test.csv", "../input/test.csv")
12345678910111213141516171819202122232425262728# Import helpful librariesimport pandas as pdfrom sklearn.ensemble ...
Markdown 表情包
Markdown 表情包
0x00 官方全集
markdown-templates官方markdown-emojis
下文部分选集来源:markdown表情大全
0x01 人物 (180个)
syntax
preview
syntax
preview
syntax
preview
\
\
:smile:
😄
:laughing:
😆
:blush:
😊
:smiley:
😃
\
\
:smirk:
😏
:heart_eyes:
😍
:kissing_heart:
😘
:kissing_closed_eyes:
😚
:flushed:
😳
:relieved:
😌
:satisfied:
😆
:grin:
😁
:wink:
😉
:stuck_out_tongue_winking_eye:
😜
:stuck_out_tongue_closed_eyes:
😝
:grinning:
😀
:kissing:
😗
:kissing_smiling_eyes:
😙
:stuck_out_tongue:
😛
:sle ...
《NTL库》使用教程(C++ 现代密码学)
《NTL库》使用教程(C++ 现代密码学)
2024年暑假,第一次使用NTL。
作为中文母语者,习惯性地搜索网络上的中文教程,但发现教程已经很脱离时代了。
在自己盲目探索过后,总结如下,希望对后续学者有所帮助!
下面使用 Visual Studio 2022 进行介绍。
2024-07-21@Seymour
[TOC]
一、官网下载开源代码
NTL官网
NTL开源代码 下载
NTL官方文书
点击Windows: WinNTL-11_5_1.zip下载得到安装包。
放在自己的一个合适位置,解压。
二、编译生成静态库
打开Visual Studio 2022 新建空项目。
自行选择项目名称、文件夹位置(可任意位置,这里项目只是用来生成静态库lib的,后续甚至可以丢弃)。
我的命名是NTL_lib
添加现有项
找到NTL的src目录,全选,添加。
F:\Data\TEST\WinNTL-11_5_1\src
右键项目 NTL_lib,点击属性,打开。
更改“配置类型”为“静态库(.lib)”。
注意:配置的模式要一 ...
《数据库系统原理》知识点梳理
《数据库系统原理》知识点梳理
来源:同济大学《数据库系统原理》李文根老师课件
仅包含硬性知识点(背、记、看),不含理解性或实操性知识点(如SQL)。
2024-06-23@isSeymour
CH1 - 数据库系统概述
1.1 数据库系统
传统文件处理系统的缺点
数据的冗余和不一致性 (data redundancy and inconsistency)
数据访问困难(difficulty in accessing data)
数据孤立(data isolation)
完整性问题(integrity problems)
原子性问题(atomicity problem)
并发访问异常(concurrent-access anomaly)
安全性问题(security problems)
数据库(Database, DB)
什么是数据库?
一组相互有关联的数据集合
长期储存在计算机中的有组织的、可管理和可共享的数据集合
数据库的基本特征
数据按一定的数据模型组织、描述和储存
支持数据的增删改查
支持并发查询处理
什么是数据库系统?
数据库系统是指由数 ...
CVDL - Transformer
十一、Transformer
11.1 架构
RNN困境
Transformer 提出
架构
11.2 输入输出
输入输出
嵌入 PE 位置编码
位置编码
输入还需要经过一个PE(检测位置信息)
如“我爱中国”和“爱我中国”不应该一样,但是若没有PE层,则会使得输入变得一样效果。
编码解码
11.3 多头注意力
编码器
注意力计算
计算方法
下图为计算一个 x1得到 z1 的过程。
矩阵合并表示
多头
并行地计算多个 Z ,最后使用 W 综合效果即可。
计算过程:
头数推导:
11.4 ADD&Norm
区分不同的Norm:
11.5 前馈网络
11.6 解码器
11.7 图像领域
自监督学习
使用无标注数据用自我监督的方式学习特征表示的方法。
其通过构造一个代理任务(pretext task)来实现特征表示学习。
代理任务
预测类任务
生成式任务
对比学习任务
…
代理任务的监督信息来源是从数据本身获得的。
举例
完型填空(BERT)、预测下 ...
CVDL - 循环神经网络
十、循环神经网络
10.1 RNN
引入
几种形式
基本形式
更深
两种网络设计
Elman Network
Jordan Network
双向设计
Bidirectional RNN
10.2 LSTM
定义
函数示意图:
工作流程
单个神经元工作流程:
RNN工作流程:
训练问题
很不幸,往往RNN训练过程中,反向传播的梯度是并不平滑的,很任意梯度消失或者梯度爆炸。
为什么会这样?
太多的连乘!
控制方法:学习率的控制(太大则设置只能为xx,太小为xxx)
LSTM优势
LSTM本身可以解决上述的训练问题。
10.3 更多应用
Many to One
Many to Many (Output is shorter)
Many to Many (No Limitation)
10.4 注意力机制
定义
示例1:机器翻译
示例2:图像捕获
CVDL - 生成网络
九、生成网络
主题:
无监督学习
产生式模型
PixelRNN and PixelCNN
Variational Autoencoders(VAE)
Generative Adversarial Networks(GAN)
9.1 无监督学习
有监督学习
数据: (x, y) ,其中x表示样本, y表示标签
目标: 学习 x -> y的映射
例子:分类,回归,目标检测,语义分割等等
无监督学习
数据: x ,其中x为数据
目标: 找出隐含在数据里的模式或者结构
例子:聚类,降维,特征学习,密度估计等
9.2 产生式模型
定义
训练数据服从 pmodel(x)p_{model}(x)pmodel(x),产生样本服从 pdata(x)p_{data}(x)pdata(x)
给定训练集,产生与训练集同分布的新样本,希望学到一个模型pmodel(x)p_{model}(x)pmodel(x) ,其与训练样本的分布 pdata(x)p_{data}(x)pdata(x)相近。
无监督学习里的一个核心问题——密度估计问题
几 ...
CVDL - 可视化
八、可视化
8.1 第一层
可以看到就是一些基元信息。
8.2 更高层
更高层,直接可视化看不到太多有意义的信息。
8.3 最后一层
最终分类器的前一层:
图像的4096维特征向量
把这些特征向量收集下来,进行可视化。
可视化的3种方法:
Activations 激活
Gradients 降维
Fun 函数(梯度上升)
8.4 梯度上升
8.4 梦境图
8.5 风格迁移
Gram Matrix
8.6 多风格
8.7 总结
理解CNN的方法:
Activations
Nearest neighbors, Dimensionality reduction, maximal patches, occlusion
Gradients
Saliency maps, class visualization, fooling images, feature inversion
Fun
DeepDream, Style Transfer.
CVDL - 视觉识别
七、视觉识别
7.1 分类
前面讲的都是
从
线性分类器
全连接神经网络
卷积神经网络
7.2 语义分割
给每个像素分配类别标签不区分实例,只考虑像素类别
滑动窗口
问题
效率太低!重叠区域的特征反复被计算。
全卷积
解决方案
让整个网络只包含卷积层,一次性输出所有像素的类别预测。
问题
处理过程中一直保持原始分辨率,对于显存的需求会非常庞大。
解决方案
让整个网络只包含卷积层,并在网络中嵌入下采样与上采样过程。
反池化操作
转置卷积
可学习的上采样
转置卷积(Transpose Convolution)
操作
7.3 目标检测
单目标
单目标(分类+定位)
将定位任务建模为回归问题!
采用多任务损失。
前面 常使用在ImageNet上预训练的模型 (迁移学习)
多目标
困境
每张图像期望输出的维度都不一样!
寻找区域
利用CNN对图像中的区域进行多分类,以确定当前区域是背景还是哪个类别的目标。
困境:
CNN需要对图像中所有可能的区域(不同位置 ...