Month: November 2017

  • GO功能富集

    前几天实验室一个师兄给我一个质谱结果,让帮忙做下go的功能富集,数据格式大概是这样的: 由于之前做go和kegg时都是跑流程,像这种针对性的go富集还没做过,说到底,还是由于自己手上缺少数据,没有属于自己的项目,很多细节性的问题都没有经历过。但这不妨碍咱一颗求知的心,我们都是在学习中成长。由于没事的时候逛论坛逛的比较频繁,知道数据的第二列是UniPro数据库的accession,然后该怎么办呢?作为生信人,Google是少不了的,看到Google结果,瞬间明了。根据Google的指引我从网上下载了UniProt数据库里的idmapping.tb.gz文件(wget -c -t 10000 ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz),大概18G左右,数据结构如下: 一共有22列,依次分别是:UniProtKB accession,UniProtKB ID,EntrezGene,RefSeq,NCBI GI number,PDB,Pfam,GO,PIRSF,IPI,UniRef100,UniRef90,UniRef50,UniParc,PIR-PSD accession,NCBI taxonomy,MIM,UniGene,Ensembl,PubMed ID,EMBL/GenBank/DDBJ,EMBL protein_id;这就有意思了,数据的第八列就是我们想要的go信息。更有意思的是,有了这个数据库信息,我们就可以根据不同数据库的注释信息做go富集啦! 下面要做的是写一个脚本,根据师兄给的结果调出对应的go号,对于会编程的人来说,这点自然不在话下,代码如下: import sys USAGE = “\nusage: python %s idmapping.tb.gz blastout outputfile outputfile2\n” % sys.argv[0] if len(sys.argv) != 5: print USAGE sys.exit() def parseIDmapping(filename): UniProt_GO = {} with open(filename, ‘r’) as f: for line in f: lsplit = line.rstrip().split(“\t”) if lsplit[7]:…

  • sed,awk

    sed工具 sed本身也是一个管道命令,可以分析standard input的,而且sed还可以将数据进行替换、删除、新增、选取特定行等的功能。 用法:sed [-nefr] 动作 参数: -n:使用安静模式。在一般sed的用法中,所有来自stdin的数据一般都会被列出到屏幕上。但如果加上-n参数后,则只有经过sed特殊处理的那一行(或者操作)才会被列出。 -e:直接在命令行模式上进行sed的动作编辑。 -f:直接将sed的动作写在一个文件内,-f filename则可以执行filename内的sed动作。 -r:sed的动作支持的是扩展型正则表达式的语法(默认是基础正则表达式语法)。 -i:直接修改读取的文件内容,而不是屏幕输出。 动作说明:[n1[,n2]]function n1,n2:不见得会存在,一般代表选择进行动作的行数,举例来说,如果我的动作是需要在10到20行之间进行的,则‘10,20[动作行为]’ function有下面这些参数: a:新增,a的后面可以接字符串,而这些字符串会在新的一行出现(目前的下一行); c:替换,c的后面可以接字符串,这些字符串可以替换n1,n2之间的行; d:删除,因为是删除,所以d后面通常不接任何参数; i:插入,i的后面可以接字符串,而这些字符串会在新的一行出现(目前的上一行); p:打印,将某个选择的数据打印出来。通常p会与参数sed -n一起运行; s:替换,可以直接进行替换工作。通常这个s的动作可以搭配正则表达式。 例一:删除第2到5行 注意sed后面接的动作,务必以”两个单引号括住! 如果体型变换一下,删除第三到最后一行,则是‘nl /etc/passwd | sed ‘3,$d’’,这个$代表最后一行。 例二:将第2~5行的内容替换成为‘No 2-5 number’ sed 另一个强大的用法,部分数据的查找并替换:sed ‘s/要被替换的字符串/新的字符串/g’ awk:好用的数据处理工具 相比于sed常常作用于一整行的处理,awk则比较倾向于将一行分成数个‘字段’来处理。因此。awk适合小型的数据处理 用法:awk ‘条件类型 1{动作 1} 条件类型 2{动作 2} …’ filename awk的处理流程: 读入第一行,并将第一行的数据填入$0,$1,$2等变量当中; 依据条件类型的限制,判断是否需要进行后面的动作; 做完所有的动作与条件类型; 若还有后续的‘行’的数据,则重复上面1-3的步骤,直到所有的数据都读完为止。 变量名字及意义: NF:每一行($0)拥有的字段总数 NR:目前awk所处理的是‘第几行’数据…

  • 排序命令:sort,wc,uniq

    sort 用法:sort [-fbMnrtuk] [file or stdin] 参数: -f:忽略大小写 -b:忽略最前面的空格部分 -M:以月份名字来排序,如JAN,DEC等的排序方法 -n:使用‘纯数字’排序(默认是以文字类型来排序的) -r:反向排序 -u:就是uniq,相同的数据中,仅出现一行代表 -t:分隔符,默认是用tab键来分割 -k:以那个区间(field)来进行排序 wc 用法:wc [-lwm] 参数: -l:仅列出行 -w:仅列出多少字 -m:多少字符 uniq 用法:uniq [-ic] 参数: -i:忽略大小写 -c:进行计数 摘自:《鸟哥的私房菜》第三版 基础学习篇

  • 选取命令:cut,grep

    cut cut -d ‘分隔字符’ -f fields cut -c 字符范围

  • 通配符与特殊符号

    通配符是bash操作环境中一个非常有用的功能,利用它我们处理数据就更加方便。 *:代表0个到无穷多个任意字符 ?: 代表一定有一个任意字符 []: 同样代表一定有一个在中括号内的字符(非任意字符) [-]: 若有减号在中括号内时,代表『在编码顺序内的所有字符』。例如 [0-9] 代表 0 到 9 之间的所有数字,因为数字的语系编码是连续的 [^]: 若中括号内的第一个字符为指数符号 (^) ,那表示『反向选择』,例如 [^abc] 代表 一定有一个字符,只要是非 a, b, c 的其他字符就接受的意思 特殊字符 #: 注释,这个最常用在script中,视为说明.其后的数据均不执行 \: 转义符号,将特殊字符或通配符还原成一般字符 |: 分隔两个管线命令的界定 ;: 连续性命令的界定(注意,与管线命令并不相同) ~: 用户的主文件夹 $: 使用变量前导符 &: 将指令变成在背景下工作 !: 逻辑运算中的“非” /: 路径分隔符号 >,>>: 数据流重定向,输出导向,代表替换和累加 <,<<: 数据流重定向,输入导向 ”: 单引号,不具有变量置换的功能 “”: 具有变量置换的功能 “: 两个“`”中间为可以先执行的指令 (): 中间为子shell的起始与结束 {}:…

  • shell的变量功能(二)

    变量键盘读取,数组与声明:read,array,declare 1. read 读取来自键盘输入的变量,常被用在 shell script 的撰写当中。 用法: 2. declare / typeset declare 或 typeset 是一样的功能,就是在声明变量的类型。如果使用 declare 后面并没有接任何参数,那么 bash 就会主动的将所有的变量名称与内容通通叫出来, 就好像使用 set 一样。 用法:declare [-aixr] variable 参数: -a : 将后面名为 variable 的变量定义成为数组 (array) 类型 -i : 将后面名为 variable 的变量定义成为整数数字 (integer) 类型 -x : 用法与 export 一样, 就是将后面的 variable 变成环境变量; -r : 将变量设置成为 readonly 类型, 该变量不可被更改内容,…

  • 我的Python之路

    大概去年六七月份,那时还不懂什么是生物信息学,什么是编程,Python更是听都没听说过,稀里糊涂的就在老师的安排下跟着别的院一个师兄学习生信, 刚见面师兄就跟我讲解了什么是生物信息学,学生信的种种好处,什么不用做实验就能发文章啊,做的好的话读博能去一个不错的实验室啊之类的,当时我是处于懵逼状态,心想“这是一种怎样的操作?”  在师兄的推荐下,我掏了300大洋买了《DNA和蛋白质序列数据分析工具》《鸟哥的私房菜上下》三本书,用来了解和入门什么是生物信息学。说实话,到现在为止这三本书我都没怎么翻过,在我带入门的人里,我也不会推荐《鸟哥的私房菜》这种,这只会让他们望而却步,只要他们想学,我手里也有他们学不完的资源。好的是,师兄手把手的教了我一段时间。记得师兄说过,要想学生信,就必须学会一门编程语言,否则出门千万别说自己是搞生信的,丢人!所以我就又入了编程的坑,在师兄的强烈推荐下,我选择学习Python,师兄也帮我装上Python.2.7和编辑器,并装上Biopython包,然后扔给我一本全英的《Biopython》和一个脚本,说你要是一周之内不能把这个脚本弄懂,就不要学生信了,不适合。当时我差点就一口老血喷出来,心想“老哥,咱先不谈其他,你好歹也给个中文版本的吧,谁跟你这么强,硕士就到英国留学,毕业论文搞个全英的?”无奈,有总比没有强,还好后来我在网上搜到了这本书的中文版。 因此,在我对Python一无所知的情况下,首先学习了biopython,然后买了《python基础教程》《python核心编程》这两本书更进一步的学习。一但入了此坑就很难回头,尽管现在我主要跟着学习生信的老师和一些小伙伴都是Perl大神,也很难把我从这个坑里拉出来。可喜的是,现在python在生信上的应用越来越广,在机器学习方向,python也是处于领先地位,这更加给了我学下去的理由。当然,主学Python之余,R和Perl也是要懂一点的,用来做图和单行操作还是很必要的! 人生接触的第一个脚本: import re import sys, getopt import operator from Bio import SeqIO from Bio.Seq import Seq from Bio.SeqRecord import SeqRecord from Bio.Alphabet import generic_nucleotide import re import sys, getopt import operator opts, args = getopt.getopt(sys.argv[1:], “c:i:o:”) blast_info = “” out_file = “” for op, value in opts: if op ==”-o”: #ARG_pattern_MIN_7030.fasta…

  • shell的变量功能(一)

    什么是变量? 变量是一个存储位置和一个关联的符号名字,这个存储位置包含了一些已知或未知的量或者信息,即值。在C语言里,变量是如下三方面的统一体: 名字(运行时会变成数字化的名字,内存地址) 存储位置(某一位置开始的一定大小的存储空间) 该存储位置里内容的解释方式(即类型,整数、浮点数还是字符串?) 任意一部分单独都不是变量。当我们给一个变量a赋值另一个值时,改变的是a对应的存储位置里的内容,赋值前后是同一个a,因为1、2、3都没有变。 变量的显示 变量的设置规则 变量与变量内容以一个等号“=”来连接; 等号两边不能直接接空格符; shell中所有变量都定义为字符串,且变量名称只能是英文字母与数字,但是数字不能是开头字符; 若有空格符可以使用双引号  ”  或单引号  ‘  来将变量内容结合起来,但须要特别留意, 双引号内的特殊字符可以保有变量特性,但是单引号内的特殊字符则仅为一般字符; 必要时需要以转意字符   \   来将特殊符号 ( 如 Enter, $, \, 空格符, ‘ 等 ) 变成一般符号; 在一串指令中,还需要借由 其它的shell指令 提供的信息,可以使用   ` command`  (特别特别注意,那个 ` 是键盘上方的数字键 1 左边那个按键,而不是单引号!) 或则$(命令) 。 若该变量需要扩增变量内容时,则需以双引号及 $变量名称 如: “$PATH”:/home  继续累加内容; 若该变量需要在其它子程序执行,则需要以  export  来使变量变成环境变量,例如: #export  PATH…