生物分子序列

BioSequence 是具有链式一级结构的生物分子基于字符串的表示. 这类生物分子包括 DNA、RNA、肽和其他序列,其在维持遗传信息和承担细胞工作中起着重要的生物学角色. 此表示由识别、比较、音译和进一步的操作函数所支持. 简并 (Degenerate) 的字母处理也集成在这些操作中. 与实体系统的交互允许分析基因和蛋白序列以及自定义序列和其行为的基本定义. BioSequence 与现存的 String 功能相集成,以实现新颖的生物分子序列处理.

生物序列表示

BioSequence 链生物分子(例如 DNA)的基于字符串的表示

Molecule 生物分子序列的分子表示

BioSequenceQ 测试有效的生物分子序列

生物序列转换

BioSequenceComplement 获取 DNA 序列 (AT, CG) 的互补

BioSequenceReverseComplement 反向和补充 DNA 序列

BioSequenceTranscribe 将 DNA 序列转录为 RNA 或反向

BioSequenceTranslate 将 DNA/RNA 序列翻译为肽

BioSequenceBackTranslateList 将肽反向翻译为 DNA 序列

BioSequenceInstances 生成已解析通配符(例如,S、N)的实例列表

RandomInstance 从带有通配符的序列中生成随机实例的列表

生物序列可视化

BioSequencePlot 带有自动布局的二维示意图

生物序列比较

SequenceAlignment 确定两个序列间的最佳得分比对

Diff 计算两个序列的差

SmithWatermanSimilarity 计算最佳局部比对中的一元匹配

NeedlemanWunschSimilarity 计算最佳全局比对中的一元匹配

EditDistance  ▪  DamerauLevenshteinDistance  ▪  HammingDistance

SimilarityRules 指定对元素对的相似度如何进行评分

生物序列计算

LongestCommonSequence 查找最长的共享毗连或不相交序列

LongestCommonSequencePositions 查找最长公共序列的位置

LongestCommonSubsequence 查找最长共享毗连序列

LongestCommonSubsequencePositions 查找最长公共子序列的位置

Subsequences 生成给定序列的所有子序列

作为字符串的生物序列

StringLength 生物序列字符串中的字母数

StringPart  ▪  StringTake  ▪  StringDrop  ▪  StringInsert

StringReverse 反转生物序列字符串中的字母

StringRotateLeft  ▪  StringRotateRight

StringPadLeft  ▪  StringPadRight

StringPartition  ▪  StringJoin  ▪  StringSplit

StringPosition 生物序列中子字符串(包括通配符)的位置

StringCases 生物序列中字符串模式的所有情况

StringCount 计算生物序列中字符串模式出现的次数

StringContainsQ  ▪  StringFreeQ  ▪  StringMatchQ

StringStartsQ  ▪  StringEndsQ

StringReplace 替换生物序列中子字符串或字符串模式

StringReplacePart 替换生物序列中指定位置的子字符串

StringRepeat  ▪  StringDelete

生物序列修改

BioSequenceModify 以各种方式修改生物序列

生物序列实体

Gene 已知的人类基因和其他基因

Protein 已知的人类蛋白质和其他蛋白质

序列类型和遗传密码

BioSequenceType 生物序列的类型("DNA"、"RNA"、"Peptide"、......)

GeneticTranslationTable 核酸与氨基酸之间的翻译表