scGen 介绍 scGen的PyTorch实现。 scGen是一种生成模型,可预测跨细胞类型,研究和物种的单细胞扰动React 。 尝试 创建VAEArith模型并在示例数据集上对其进行训练。 import scanpy as sc import torch import scgen_torch as scg ## data train_data = sc.read("./scgen_torch/data/train_data.h5ad") # Read and load the training dataset (AnnData object) ## create vaeArith model and train it vaearith = scg.model.VAEARITH(adata = train_data) vaearith.train()
2026-04-27 09:38:42 24.45MB JupyterNotebook
1
该项目“DS_project_MOF_H2_ML”是加州大学伯克利分校DS 100课程的一个实践项目,主要涉及数据科学与机器学习的应用。在这个项目中,学生可能需要运用数据处理、建模和预测技术来解决实际问题,特别是在材料科学领域,特别是关于金属有机骨架(MOFs)对氢气吸附的性能研究。 金属有机骨架(Metal-Organic Frameworks, MOFs)是一类具有高度可调结构和孔隙率的多孔材料,它们在气体储存、分离和催化等方面具有广泛的应用潜力,尤其是氢气存储。在这个项目中,可能涉及到对不同MOF材料的物理性质进行分析,比如比表面积、孔径大小、热稳定性等,以评估其作为氢气储存介质的效能。 利用Jupyter Notebook,学生可以编写Python代码,进行数据预处理、探索性数据分析(EDA)、特征工程和模型构建。Jupyter Notebook是一个交互式环境,它结合了代码、文本、公式、图表和可视化,使得研究过程更加透明和易于分享。 文件“DS_project_MOF_H2_ML-main”可能包含以下内容: 1. 数据集:项目可能使用了实验测定的MOF材料属性和性能数据,如氢吸附量、温度、压力等。 2. 数据清洗:对原始数据进行处理,去除异常值、缺失值,确保数据质量。 3. 特征工程:通过计算新特征或选择关键特征来优化模型性能。 4. 可视化:使用matplotlib或seaborn库创建图表,展示数据分布、相关性以及模型预测结果。 5. 机器学习模型:可能包括线性回归、决策树、随机森林、支持向量机或神经网络等,用于预测MOF的氢吸附能力。 6. 模型评估:使用交叉验证和不同性能指标(如R²分数、均方误差等)评估模型的准确性和可靠性。 7. 结果解释:讨论模型的优缺点,以及对实际应用的启示。 这个项目不仅锻炼了学生的编程技能,还强化了他们理解复杂科学问题并用数据驱动的方法解决这些问题的能力。通过这样的项目,学生能够将理论知识应用于实际挑战,提高他们的数据科学素养和问题解决技巧。
2026-04-14 17:21:08 5.14MB JupyterNotebook
1
在这个名为“Airbnb数据分析:这是我的Coursera项目之一”的项目中,我们可以预期涉及到一系列与数据科学、统计分析和业务洞察相关的技术与方法。这个项目很可能是基于Coursera上的一门课程,通过分析Airbnb的数据,学习者将能够提升其在实际场景中的数据分析能力。以下是一些可能涵盖的知识点: 1. 数据获取与预处理: - 使用Python的pandas库加载CSV文件,了解如何处理缺失值、异常值和重复数据。 - 数据清洗,包括日期格式化、数值类型转换以及字符串操作。 2. 数据探索性分析(EDA): - 使用matplotlib和seaborn库进行数据可视化,比如绘制直方图、散点图、箱线图等,以理解数据分布和关系。 - 计算统计量,如平均值、中位数、标准差,以揭示数据的中心趋势和分散程度。 - 探索不同城市、房源类型的定价模式,找出影响价格的因素。 3. 特征工程: - 创建新特征,例如计算房源距离市中心的距离、房源的评分等级等。 - 处理时间序列数据,如提取月份、周几等信息,以考虑季节性和周期性影响。 4. 数据建模: - 可能会涉及线性回归、决策树、随机森林或梯度提升等机器学习算法,用于预测Airbnb的房价。 - 使用模型评估指标,如R^2分数、均方误差(MSE)或均方根误差(RMSE),来比较不同模型的性能。 5. 特征选择与模型优化: - 应用特征选择技术,如递归特征消除(RFE)、基于树的特征重要性,以确定最有影响力的特征。 - 使用网格搜索或随机搜索调整模型参数,提高预测准确性。 6. Jupyter Notebook的使用: - 学习如何组织代码、文本和图表,创建交互式的工作报告。 - 使用Markdown和LaTeX语法编写文档,增强报告的可读性。 7. 结果解释与呈现: - 学习如何以专业的方式呈现分析结果,包括清晰的图表和简洁的结论。 - 用业务语言解释模型预测,为决策者提供有价值的信息。 该项目不仅涵盖了基础的数据分析流程,还强调了如何将这些技术应用到具体案例中,以解决实际问题。通过这个项目,学习者不仅可以提升其数据分析技能,还能培养解决问题和沟通展示的能力。在实际的Airbnb数据中,可能还会发现各种有趣的模式和趋势,这些都将为深入理解共享经济市场提供宝贵的见解。
2026-04-09 16:28:09 3.5MB JupyterNotebook
1
深度转换 基于卷积和LSTM递归层的可穿戴活动识别的深度学习框架。 在此存储库中,展示了DeepConvLSTM的体系结构:一种基于卷积和LSTM循环单元的可穿戴活动识别的深层框架。 要获取该模型的详细说明,请查看论文“用于多峰可穿戴活动识别的深度卷积和LSTM递归神经网络”,为 DeepConvLSTM笔记本中包含运行模型的说明。
2026-04-08 22:30:11 14.06MB JupyterNotebook
1
在IT行业中,欺诈行为检测是一项至关重要的任务,特别是在金融、电子商务和网络安全等领域。"IEEE-CIS欺诈检测"是一个由IEEE计算机学会(IEEE Computer Society)组织的竞赛,旨在推动欺诈检测技术的发展,通过Kaggle这样的数据科学平台进行。在这个竞赛中,参赛者需要利用机器学习和数据分析技术来识别信用卡交易中的欺诈行为。 该竞赛的数据集通常包含大量的匿名交易记录,包括时间戳、交易金额等特征,以及每笔交易是否为欺诈的标签。这些记录为参赛者提供了构建和训练模型的素材,以区分正常交易与欺诈交易。 在解决此类问题时,常用的工具是Jupyter Notebook,这是一个交互式计算环境,支持Python、R等多语言编程,便于数据预处理、模型构建和结果可视化。利用Jupyter Notebook,参赛者可以清晰地展示他们的分析步骤,便于代码复用和同行评审。 欺诈检测的关键技术包括: 1. **数据预处理**:需要对数据进行清洗,处理缺失值,标准化数值特征,以及编码分类变量。对于时间序列数据,可能还需要提取时间特征如小时、日期等。 2. **特征工程**:创建新的特征来帮助模型捕捉欺诈模式,比如交易频率、连续交易金额的差异等。 3. **不平衡数据处理**:欺诈交易通常远少于正常交易,这导致数据严重不平衡。可以通过过采样、欠采样或合成新样本来调整类比例。 4. **机器学习模型**:常见的模型包括逻辑回归、决策树、随机森林、支持向量机、梯度提升机(如XGBoost、LightGBM)以及神经网络。这些模型需要经过训练、验证和测试,以找到最佳超参数。 5. **模型评估**:使用AUC-ROC曲线、精确率、召回率、F1分数等指标来衡量模型性能。由于欺诈成本高,查漏率(False Negative Rate)通常是关注的重点。 6. **集成学习**:通过结合多个模型的预测结果,可以提高整体预测准确性,如Bagging、Boosting或Stacking。 7. **实时欺诈检测系统**:在实际应用中,需要构建能够快速响应的新交易评分系统,这可能涉及在线学习和流式计算技术。 8. **可解释性**:除了模型性能,理解模型的决策过程也很重要,以便于审计和合规性检查,如使用LIME或SHAP工具。 "ieee-fraud-detection-master"这个文件名可能是该项目的主目录,里面可能包含了上述所有步骤的实现,包括数据加载、预处理脚本、特征工程、模型训练、评估和可视化等不同部分。通过深入研究这些文件,可以学习到欺诈检测的完整流程和最佳实践。
2026-04-01 09:01:56 94KB JupyterNotebook
1
Team-Owls-Shoppee-2021-Data-1
2026-03-04 11:26:44 4KB JupyterNotebook
1
此存储库用于道路,其数据集由东京大学收集并发布在。 该实现基于 更多细节可以参考本文: 并引用本文: @INPROCEEDINGS{8622025, author={L. Ale and N. Zhang and L. Li}, booktitle={2018 IEEE International Conference on Big Data (Big Data)}, title={Road Damage Detection Using RetinaNet}, year={2018}, volume={}, number={}, pages={5197-5200}, doi={10.1109/BigData.2018.8622025}, ISSN={}, month={Dec},} 安装 克隆此存储库。 确保使用pip install numpy --user 在存储库中,执行pi
2026-02-28 10:21:14 8.37MB JupyterNotebook
1
**ETL(提取、转换、加载)是数据处理的核心流程,尤其在大数据分析和商业智能领域中至关重要。在这个“ETL-Project: 来自Kaggle的Art History数据的ETL项目”中,我们将深入探讨如何利用Jupyter Notebook工具处理艺术历史数据,从而揭示隐藏在海量艺术作品背后的洞察力。** **一、提取(Extract)** 1. **数据源获取**:我们需要从Kaggle下载Art History数据集。Kaggle是一个知名的竞赛平台,同时也提供了丰富的公开数据集供研究和学习。 2. **数据预处理**:在Jupyter Notebook中,我们可以导入必要的Python库,如`pandas`和`numpy`,以读取、查看和理解数据的基本结构。这包括检查数据的缺失值、重复项以及数据类型。 3. **数据清洗**:在提取过程中,我们可能需要处理脏数据,例如缺失值的填充、异常值的处理、非结构化数据的标准化等。 **二、转换(Transform)** 1. **数据转换**:根据业务需求,可能需要将原始数据转换为更适合分析的格式。例如,日期字段可能需要解析成日期时间对象,文本数据可能需要进行词干提取或词袋模型转换。 2. **特征工程**:创建新的特征以增强模型的解释性和预测能力,比如计算年龄分布的中位数或计算作品的平均尺寸。 3. **数据规约**:对于大型数据集,通过降维技术(如主成分分析PCA)减少数据的复杂性,同时保持足够的信息。 4. **数据归一化与标准化**:确保不同特征在同一尺度上,提高模型的稳定性和效率。 **三、加载(Load)** 1. **数据库存储**:将处理后的数据加载到关系型数据库(如MySQL、PostgreSQL)或非关系型数据库(如MongoDB)中,以便后续的查询和分析。 2. **数据仓库**:如果项目涉及商业智能,数据可能会被加载到数据仓库(如Redshift、BigQuery),以便进行快速的OLAP(在线分析处理)操作。 3. **云存储**:为了方便协作和备份,可以将数据存储在云服务(如Amazon S3、Google Cloud Storage)上。 **四、Jupyter Notebook的运用** 1. **交互式环境**:Jupyter Notebook提供了一个可视化的编程环境,使得数据探索、代码编写和结果展示得以无缝集成。 2. **Markdown支持**:在Notebook中,可以使用Markdown语法编写文档,清晰地呈现项目步骤和分析思路。 3. **版本控制**:Notebook文件(.ipynb)可以通过Git进行版本控制,便于团队协作和历史追踪。 4. **可重复性**:Jupyter Notebook的代码块可以反复运行,确保结果的可复现性。 5. **数据可视化**:集成如Matplotlib、Seaborn和Plotly等库,用于创建美观且直观的数据图表。 在ETL过程中,数据质量的保障至关重要。通过这个Art History数据集的ETL项目,我们可以学习到如何在实际场景中应用ETL流程,为后续的数据分析和建模打下坚实基础。无论是对艺术历史的研究,还是对其他领域的数据分析,ETL都是一个必不可少的前期准备阶段。
2026-02-15 07:02:29 5.87MB JupyterNotebook
1
可解释的AI 打开机器学习模型的“黑匣子”不仅在理解我们创建的模型,而且还可以将见解传达给其他人方面具有巨大的意义。 当我遇到可解释的AI的不同用例时,我正在将见解提炼成可管理的块并公开共享。 多重回归模型的可解释性 演示一种使用探索多元回归模型的可。 查看ipynb(建议在下载并运行整个笔记本) 将Shapely值应用于多元线性回归模型,以探索特征对多种输出/标签的影响。
2026-02-12 22:43:56 1.02MB JupyterNotebook
1
博弈论与Python 这是一个存储库,旨在使用编程语言(更具体地说是称为的开源软件)来举办关于游戏理论的研讨会。 本讲习班涵盖的主题如下: 安装Python Python有各种发行版。 我建议使用其来包装的各种工具,如Jupyter笔记本电脑。 本教程使用编写。 虚拟环境 该存储库附带一个environment.yml文件。 environment.yml文件将允许您创建Anaconda环境。 为此,请使用终端或anaconda提示,并在导航至存储库后,键入: $ conda env create -f environment.yml 可以通过键入以下内容激活环境: $ conda activate game-python 笔记本也可以在其中运行。 为此,您必须选择(从正在运行的笔记本中)内核,然后在“更改内核”下选择环境game-python。 用法 Game Theor
2026-01-28 16:55:04 33KB python game-theory JupyterNotebook
1