零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）

2024-06-30 1484阅读

零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）

零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）
- 1. 数据集获取
- 2. 数据处理（Rstudio）
- 3. 数据标准化（Rstudio）
- 注：配套资源只要改个路径就能运行，本人已检测过可以跑通，请放心食用，食用过程遇到问题，可先自行百度，实在解决不了可以私信
  GEO数据库全称GENE EXPRESSION OMNIBUS，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年，收录了世界各国研究机构提交的高通量基因表达数据，也就是说只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
  
  并且GEO网站这个网站作为各种高通量实验数据的公共存储库。这些数据包括基于单通道和双通道微阵列的实验，检测mRNA，基因组DNA和蛋白质丰度，以及非阵列技术，如基因表达系列分析（SAGE），质谱蛋白质组学数据和高通量测序数据。可以按照文献数据集编号等众多形式进行检索。但是在这篇教程中仅介绍如何从GEO网站上根据数据集编号下载所需要的GEO数据集，并且下载后在R中对数据集进一步处理成后续分析所要的形式。
```
本项目以妊娠期糖尿病GSE154414数据集(高通量测序数据)作为展示
选用的数据库是GEO。
实验分组：疾病组，对照组。
我这里使用的R版本是4.2.2
要用到的R包：tidyverse，GEOquery
```
  1. 数据集获取
  
  首先进入GEO网站官网（如下图所示），在检索位置输入数据集编号，点击箭头指向的位置进一步运行搜索。
  
  搜索之后会弹出如下界面：首先需要检查物种类型（Homo sapiens），之后查看数据集的类型是否是高通量测序/芯片数据，我这里是高通量测序数据（Expression profiling by high throughput sequencing），页面往下拉。
  
  如下图所示：包含了该数据集对应的注释文件GPL20301，并且还列出来了数据集中包含的样本。
  
  注：但是注释信息可以不用过多的关注，因为后续分析用不到，样本数量可以大致瞅一眼
  
  
  到此对于该数据集已经有了初步了解（实际上就是看是不是高通量测序数据），如果是高通量测序数据就按照下面的操作进行，如果是芯片数据，可以参考之前的教程零基础入门转录组分析——数据处理（GEO数据库——芯片数据）
  
  2. 数据处理（Rstudio）
```
rm(list = ls()) # 删除工作空间中所有的对象
setwd('/XX/XX/XX') # 设置工作路径
if(!dir.exists('./00_rawdata')){
  dir.create('./00_rawdata')
} # 判断该工作路径下是否存在名为00_rawdata的文件夹，如果不存在则创建，如果存在则pass
setwd('./00_rawdata/') # 设置路径到刚才新建的00_rawdata下
```
  加载包：
```
library(GEOquery)
library(tidyverse)
```
  标注一下需要下载的数据集编号，并且在当前00_rawdata文件夹下创建一个名为GSE154414的文件夹（这是为了方便管理，如果不单独创建文件夹，数据集很多的话，就会显得很乱）
```
GEO_data 
  dir.create(paste0(GEO_data))
}
setwd(paste0(GEO_data))

  N  
  expr_fpkm[which(expr_fpkm 
  print("log2 transform not needed")
}
```

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）

零基础入门转录组分析——数据处理（GEO数据库——高通量测序数据）

目录

1. 数据集获取

2. 数据处理（Rstudio）

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]