### NCBI SRA数据库使用详解 #### 一、简介 NCBI SRA(Sequence Read Archive)数据库是由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)维护的一个重要资源,主要用于存储高通量测序(Next Generation Sequencing, NGS)产生的原始数据。这些数据来源于多种测序平台,例如454、Illumina、SOLiD、Ion Torrent、Helicos和Complete Genomics等。随着技术的发展,SRA不仅保存原始序列数据,还收录了与参考基因组比对后的原始reads信息。 根据数据的生成特点,SRA数据库中的数据被分为四类: - **Studies**(研究课题):定义了实验的目的。一个study可能包含多个实验。 - **Experiments**(实验设计):包括样本信息、DNA来源、测序平台和技术等细节。每个实验可能包含一个或多个测序结果集。 - **Samples**(样品信息):指特定的研究对象,例如组织样本或细胞系。 - **Runs**(测序结果集):代表测序仪器一次运行所产生的reads集合。 SRA中的数据结构遵循以下层次关系:Studies -> Experiments -> Samples -> Runs。为了便于区分不同类型的数据,SRA使用了不同的前缀: - ERP 或 SRP 表示 Studies; - SRS 表示 Samples; - SRX 表示 Experiments; - SRR 表示 Runs。 #### 二、使用 要使用SRA数据库,可以通过以下步骤进行操作: 1. **搜索相关研究**:在SRA数据库主页,可以输入关键词搜索相关的研究,如特定的疾病或其他感兴趣的主题。选择合适的数据集进入详细信息界面。(见图2) 2. **查看详细信息**: - **Study** 详细信息页面提供了关于研究目的、背景和样本信息等概述性内容。(见图3) - **Experiment** 详细信息页面列出了具体的实验设计细节,包括样本信息、测序方法等。(见图4) - **Run** 详细信息页面提供了关于测序结果集的具体信息,包括读长、质量得分等。(见图4) #### 三、下载数据 要下载SRA数据,需要先安装SRAToolkit软件包。具体步骤如下: 1. **下载SRAToolkit**:访问 [https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software](https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software) 下载适用于自己系统的软件包。例如,在CentOS环境下,可使用以下命令下载并解压工具包: ```bash wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz" tar xzf sratoolkit.current-centos_linux64.tar.gz ``` 2. **运行下载工具**:进入工具包目录并使用 `prefetch` 命令下载所需数据,例如: ```bash cd sratoolkit.2.5.7-centos_linux64/bin ./prefetch SRR2172038 ``` 完成后,会在当前目录下生成一个包含下载数据的 `ncbi` 文件夹。 3. **转换数据格式**: - 转换为FastQ格式: ```bash fastq-dump ./SRR2172038.sra ``` - 转换为FASTA格式: ```bash fastq-dump --fasta ./SRR2172038.sra ``` #### 四、数据提交 要向SRA提交数据,需要按照以下步骤操作: 1. **确认注册**:确保已在NCBI数据中心网站完成注册。 2. **登录账号**:登录账户后,在左侧菜单选择 `mydata`,然后选择已有的项目或创建新项目。 3. **创建批次**:对于已有项目,选择已有批次或创建新批次,并在创建时指定数据类型为 “SRA”。 4. **提交数据**:点击批次下的 `submit data` 按钮,下载离线提交标识文件(subdesc.bch),然后根据SRA的数据格式标准处理生成的数据文件,连同标识文件一起上传至服务器指定目录。 5. **文件要求**:一个完整的SRA study至少包括一个或多个 `study.xml`, `experiment.xml`, `sample.xml` 和 `run.xml` 文件,以及一个或多个数据文件。但一个批次的提交数据不一定要包含所有文件,`run.xml` 和其包含的所有数据文件必须在同一批次中提交。 通过以上介绍,我们可以看到SRA数据库是一个功能强大且易于使用的平台,为研究人员提供了宝贵的高通量测序数据资源。无论是数据检索、下载还是提交,都有明确的操作流程和指南,大大方便了科研人员的工作。
2025-07-04 09:13:20 483KB NCBI
1
windows 环境下载配置NCBI SRA数据简单使用教程
2023-04-07 21:18:25 3KB NCBI SRA 批量下载
1
funannotate是用于基因组注释的管道(专门为真菌构建,但也可用于高级真核生物)。 有关安装,使用和更多信息,请参见 最快启动Docker: 您可以使用funannotate运行funannotate 。 需要注意的是,GeneMark不包含在Docker映像中(请参阅下面的许可,您可以向开发人员投诉,因为它难以分发/使用)。 我还编写了一个bash脚本,该脚本可以运行docker映像并自动检测/包括正确的用户/卷绑定。 该docker映像是基于master中的最新代码构建的,因此它将早于标记的发行版。 该映像还包括所需的数据库,如果您只想在没有数据库的情况下进行注解,则该映像位于nextgenusfs/funannotate-slim hub以及nextgenusfs/funannotate-slim 。 因此,可以通过以下方式实现此路线: # download/pull th
1
NCBI BLAST+
2022-07-16 16:00:51 115.33MB 生物信息学
1
NCBI检索方法.pptx
2022-06-24 14:00:17 1.49MB 互联网
ncbi站点的一般介绍.pptx
2022-06-22 13:00:38 1.46MB 互联网
NCBI检索方法.pptx
2022-06-22 13:00:38 1.49MB 互联网
NCBI及GeneBank介绍(CHENGWEI)-XXXX0327.pptx
2022-06-22 13:00:37 3.47MB 互联网
NCBI所有数据库简介 美国国家生物技术信息中心 (National Center of Biotechnology Information) 唐志立 它的使命包括四项任务: 1. 建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统 2. 实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究 3. 加速生物技术研究者和医药治疗人员对数据库和软件的使用。 NCBI所有数据库简介全文共26页,当前为第1页。4. 全世界范围内的生物技术信息收集的合作努力。 NCBI所有数据库简介全文共26页,当前为第1页。 文献 Literature 书库 Books NCBI的书库不断收集生物医学方面的书籍,提供这些书籍的出版信息,摘要,目录和全文的链接,用户可以直接在检索文本框输入一个观念就可以查询。 医学主题词表 MeSH Medical Subject Headings)是NLM美国国家医学图书馆为PubMed用于索引文章。控制词汇的同义词典http://zhidao.baidu.com/link?url=agQ4kAJ3_2rYUuE02sR5
2022-06-19 09:04:32 59KB 文档资料
ncbi所有数据库简介
2022-06-03 15:03:36 51KB 数据库 文档资料 database