isSeymour

发表于2024-09-01|更新于2024-09-01|机器学习|ML

来源：Kaggle 官方课程 Data Visualization 2024-09-01@isSeymour Data Visualization 总览：展现内容： Trends 趋势代码功能 lineplot 折线图用于展示数据随时间或其他连续变量的变化趋势 Relationship 关系代码功能 barplot 柱状图用于展示不同类别或分组数据的数量或频率 heatmap 热图用于显示数据的密度或强度，通过颜色的深浅来表示数值的大小 scatterplot 散点图用于展示两个变量之间关系 swarmplot 蜂群图用于显示数据分布的可视化图表，通过将数据点以散点的方式展示在类别上，并避免数据点重叠。它适用于展示单变量或多变量的离散数据分布，特别是当数据量较小或希望看到每个数据点的具体位置时 regplot 回归图用于展示回归分析结果的数据可视化工具。它通常包括一个散点图和一条回归线，帮助直观地展示两个变量之间的关系及其回归模型的拟合效果 lmplot 线性回归图用于展示线性回归分析结果的 ...

Intermediate ML - Kaggle 官方课程

发表于2024-08-31|更新于2024-08-31|机器学习|ML

来源：Kaggle 官方课程 | Intermediate Machine Learning 2024-08-31@isSeymour Intermediate Machine Learning 1. Missing Value 缺失值 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.metrics import mean_absolute_errorfrom sklearn.impute import SimpleImputer# 数据准备X_full = pd.read_csv('../input/train. ...

Pandas - Kaggle 官方课程

发表于2024-08-30|更新于2024-08-30|机器学习|Pandas

来源：Kaggle 官方课程 Pandas 2024-08-30@isSeymour Pandas - Kaggle 1. Creating, Reading and Writing 12import pandas as pdpd.set_option('display.max_rows', 5) 123fruits = pd.DataFrame({'Apples': [30], 'Bananas': [21]})fruits .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } ...

INTRO to ML - Kaggle 官方课程

发表于2024-08-29|更新于2024-08-29|机器学习|ML

INTRO to Machine Learning 来源：Introduction to Machine Learning 2024-08-29@isSeymour 1. 训练与验证 12345# Set up filepathsimport osif not os.path.exists("../input/train.csv"): os.symlink("../input/home-data-for-ml-course/train.csv", "../input/train.csv") os.symlink("../input/home-data-for-ml-course/test.csv", "../input/test.csv") 12345678910111213141516171819202122232425262728# Import helpful librariesimport pandas as pdfrom sklearn.ensemble ...

Markdown 表情包

发表于2024-07-21|更新于2024-07-21|通用知识|Markdwon

Markdown 表情包 0x00 官方全集 markdown-templates官方markdown-emojis 下文部分选集来源：markdown表情大全 0x01 人物 (180个) syntax preview syntax preview syntax preview \ \ :smile: 😄 :laughing: 😆 :blush: 😊 :smiley: 😃 \ \ :smirk: 😏 :heart_eyes: 😍 :kissing_heart: 😘 :kissing_closed_eyes: 😚 :flushed: 😳 :relieved: 😌 :satisfied: 😆 :grin: 😁 :wink: 😉 :stuck_out_tongue_winking_eye: 😜 :stuck_out_tongue_closed_eyes: 😝 :grinning: 😀 :kissing: 😗 :kissing_smiling_eyes: 😙 :stuck_out_tongue: 😛 :sle ...

《NTL库》使用教程（C++ 现代密码学）

发表于2024-07-21|更新于2024-07-21|大学课程|现代密码学

《NTL库》使用教程（C++ 现代密码学） 2024年暑假，第一次使用NTL。作为中文母语者，习惯性地搜索网络上的中文教程，但发现教程已经很脱离时代了。在自己盲目探索过后，总结如下，希望对后续学者有所帮助！下面使用 Visual Studio 2022 进行介绍。 2024-07-21@Seymour [TOC] 一、官网下载开源代码 NTL官网 NTL开源代码下载 NTL官方文书点击Windows: WinNTL-11_5_1.zip下载得到安装包。放在自己的一个合适位置，解压。二、编译生成静态库打开Visual Studio 2022 新建空项目。自行选择项目名称、文件夹位置（可任意位置，这里项目只是用来生成静态库lib的，后续甚至可以丢弃）。我的命名是NTL_lib 添加现有项找到NTL的src目录，全选，添加。 F:\Data\TEST\WinNTL-11_5_1\src 右键项目 NTL_lib，点击属性，打开。更改“配置类型”为“静态库(.lib)”。注意：配置的模式要一 ...

《数据库系统原理》知识点梳理

发表于2024-06-23|更新于2024-06-23|大学课程|数据库系统原理

《数据库系统原理》知识点梳理来源：同济大学《数据库系统原理》李文根老师课件仅包含硬性知识点（背、记、看），不含理解性或实操性知识点（如SQL）。 2024-06-23@isSeymour CH1 - 数据库系统概述 1.1 数据库系统传统文件处理系统的缺点数据的冗余和不一致性（data redundancy and inconsistency）数据访问困难（difficulty in accessing data）数据孤立（data isolation）完整性问题（integrity problems）原子性问题（atomicity problem）并发访问异常（concurrent-access anomaly）安全性问题（security problems）数据库（Database, DB）什么是数据库？一组相互有关联的数据集合长期储存在计算机中的有组织的、可管理和可共享的数据集合数据库的基本特征数据按一定的数据模型组织、描述和储存支持数据的增删改查支持并发查询处理什么是数据库系统？数据库系统是指由数 ...

CVDL - Transformer

发表于2024-06-02|更新于2024-06-02|机器学习|计算机视觉

十一、Transformer 11.1 架构 RNN困境 Transformer 提出架构 11.2 输入输出输入输出嵌入 PE 位置编码位置编码输入还需要经过一个PE（检测位置信息）如“我爱中国”和“爱我中国”不应该一样，但是若没有PE层，则会使得输入变得一样效果。编码解码 11.3 多头注意力编码器注意力计算计算方法下图为计算一个 x1得到 z1 的过程。矩阵合并表示多头并行地计算多个 Z ，最后使用 W 综合效果即可。计算过程：头数推导： 11.4 ADD&Norm 区分不同的Norm： 11.5 前馈网络 11.6 解码器 11.7 图像领域自监督学习使用无标注数据用自我监督的方式学习特征表示的方法。其通过构造一个代理任务(pretext task)来实现特征表示学习。代理任务预测类任务生成式任务对比学习任务 … 代理任务的监督信息来源是从数据本身获得的。举例完型填空(BERT)、预测下 ...

CVDL - 循环神经网络

发表于2024-06-01|更新于2024-06-01|机器学习|计算机视觉

十、循环神经网络 10.1 RNN 引入几种形式基本形式更深两种网络设计 Elman Network Jordan Network 双向设计 Bidirectional RNN 10.2 LSTM 定义函数示意图：工作流程单个神经元工作流程： RNN工作流程：训练问题很不幸，往往RNN训练过程中，反向传播的梯度是并不平滑的，很任意梯度消失或者梯度爆炸。为什么会这样？太多的连乘！控制方法：学习率的控制（太大则设置只能为xx，太小为xxx） LSTM优势 LSTM本身可以解决上述的训练问题。 10.3 更多应用 Many to One Many to Many (Output is shorter) Many to Many (No Limitation) 10.4 注意力机制定义示例1：机器翻译示例2：图像捕获

CVDL - 生成网络

发表于2024-06-01|更新于2024-06-01|机器学习|计算机视觉

九、生成网络主题：无监督学习产生式模型 PixelRNN and PixelCNN Variational Autoencoders(VAE) Generative Adversarial Networks(GAN) 9.1 无监督学习有监督学习数据: (x, y) ，其中x表示样本, y表示标签目标: 学习 x -> y的映射例子：分类，回归，目标检测，语义分割等等无监督学习数据: x ，其中x为数据目标: 找出隐含在数据里的模式或者结构例子：聚类，降维，特征学习，密度估计等 9.2 产生式模型定义训练数据服从 pmodel(x)p_{model}(x)pmodel(x)，产生样本服从 pdata(x)p_{data}(x)pdata(x) 给定训练集，产生与训练集同分布的新样本，希望学到一个模型pmodel(x)p_{model}(x)pmodel(x) ，其与训练样本的分布 pdata(x)p_{data}(x)pdata(x)相近。无监督学习里的一个核心问题——密度估计问题几 ...