徐洲更的第二大脑

为什么M芯片的Mac不应该去装intel版的R

2024-07-03T13:51:33+08:00

在几年前的一期视频中，我在我的M1芯片的Mac上装了intel的R，当时的解释是目bioconductor对M芯片支持的不好。最近，我又出了一期视频，介绍的R语言环境的配置用的是Apple silicon版本的R，因为bioconductor已经支持上了M芯片的Mac。如果现如今，还有人让你在M芯片上装intel的R，这就不太合适了，为什么呢？

必须要说的一点是，intel的R在M芯片上运行，会降低效率。这是因为macOS系统会将x86架构的指令翻译成arm结构的指令，在一些小的任务上，可能没有感觉，但如果一个任务需要长时间运行，那或许可能就是从等一天，变成等两天了。

当然，更为关键的是R包的编译环境相关的不兼容。对于预编译好的软件，无论是intel的R，还是Apple silicon的R，这两者在安装上都区别不大。但是一旦涉及到一些GitHub上包的编译，那么你就得在Mac上配置XCode和gfortran，以及可能的Java环境。我们以XCode为例，它会提供gcc/clang这些编译器，那么问题来了，这些工具编译的R包是对应什么平台呢？如果默认参数编译的R包是用在Apple silicon的R中，你的intel的R还能调用这个R包吗？接着，一些R包需要调用系统的Java。如果你默认装了Apple silicon的Java，那么你的intel R调用Java的时候就可能会因为不兼容而出错。这个时候，你或许还要纳闷，为啥Java都有了，咋还是用不了rJava呢。

时代变了，2020年初次亮相搭载的M芯片的Mac电脑也过去了快4年了，考虑到目前苹果发布的Mac产品都是M芯片的，那么未来R包更可能是去支持M芯片，而不是去支持intel的，咋就不要逆时代潮流了。

使用NextChat在本地使用Claude和ChatGPT

2024-06-30T14:48:07+08:00

Claude和ChatGPT的API，我用的是wildcard提供的第三方转发，省去了注册的繁琐步骤，以及潜在的封号风险。关于wildcard，我写了一篇简单的教程介绍，见WildCard有点野

注册好之后，到“API随心用”中充值，并创建你的token，同时记住这个API基础地址，https://api.gptsapi.net

接着从https://github.com/ChatGPTNextWeb/ChatGPT-Next-Web/releases/ 下载最新的NextChat客户端，我用的是2.12.4，已经支持了Claude 3.5 Sonet。

然后，我们打开NextChat进行配置： Claude和ChatGPT的配置有所不同，请注意区分

如下是ChatGPT的配置

确认下身份

如下是Claude的配置：

我们来确认下身份

Claude最新模型是可以看图片的，所以我们可以让他读图哦

就是如此容易。

Helixer解决了我的基因组结构注释难题

2024-06-29T13:35:16+08:00

在深度学习，尤其是大模型流行的今天，我就一直在想一个问题，为什么基因组注释上没有对应的工具呢？我一开始想的是，或许传统的模型已经表现的足够好了？

但从我的使用体验来看，并非如此，有如下几个痛点

没有良好的并行，这通常需要你自己拆分基因组
可能没有现成的模型，可能需要自己单独训练
在某些区域表现不佳，例如串联重复

另外，我还有一个想法，会不会传统模型表现不佳是因为参数量少呢？深度学习模型动辄百万的参数或许更适合复杂的生物学模型。

最近，我接触到了一个工具Helixer，它一个基于深度神经网络的基因预测工具。从我目前使用来看，这跟当初深度学习网络在手写字识别中秒杀一众传统模型一样，Helixer的出现，让我直接放弃了AUGUSTUS等工具。你可以拿你的基因组到他提供的在线工具 https://plabipd.de/helixer_main.html中进行测试，当然需要排队。

如果不想排队，只需要准备一张24G显存以上的显卡，在本地部署，步骤如下

装docker和nvidia-docker2

# 需要装dockercurl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list |  sudo tee /etc/apt/sources.list.d/nvidia-docker.listsudo apt update# 同时需要装 nvidia-docker2sudo apt-get install nvidia-docker2# 必须运行, 让docker读取配置文件sudo pkill -SIGHUP dockerd

获取镜像

docker pull gglyptodon/helixer-docker:helixer_v0.3.3_cuda_11.8.0-cudnn8

这一步是难的一步，因为处于某些原因，你可能无法访问docker的网站，甚至镜像站点也无法使用，所以我导出了，方便大家加载，链接是 https://pan.baidu.com/s/1peEVW5mQaTnfwZ8p-WWA_A?pwd=zgnh , 提取码：zgnh

docker load helixer-docker.tar

创建分析目录，并启动docker（注意mount）

# additionally, set up a shared directory and mount it, e.g.:# on host:mkdir -p data/out# 必须赋予权限chmod o+w data/out # something the container can write to

把数据移动在data下

mv /path/to/your.fasta data

启动你的docker

# mount directory and run interactively:docker run --runtime=nvidia -it --name helixer_testing_v0.3.3_cuda_11.2.0-cudnn8 --rm --mount type=bind,source="$(pwd)"/data,target=/home/helixer_user/shared gglyptodon/helixer-docker:helixer_v0.3.3_cuda_11.8.0-cudnn8

在Docker内部下载模型

# Download models (models will be saved to ~/.local/share/Helixer/models/ )Helixer/scripts/fetch_helixer_models.py

在~/shared/ 目录下处理数据

cd ~/shared/Helixer.py --fasta-path your.fasta --lineage land_plant --gff-output-path out/helixer.gff3

其中 --lineage land_plant用于设置模型，例如land_plant就是陆地植物，另外还支持 vertebrate, invertebrate和 fungi.

这个速度非常快，一个10多G的基因组，不用一天就行。

给大家举个例子，大基因组通常由非常大的intron，我下载的文章里提供的注释就没有注释对，而Helixer就对了。

参考资料

https://github.com/weberlab-hhu/Helixer

白话统计学习笔记：我们应该使用什么统计模型？

2024-06-27T10:20:47+08:00

物理学一直追求一个大一统理论（Grand Unified Theory, GUT），比如说爱因斯坦最早搞了一个狭义相对论，处理匀速直线运动的惯性参考系中的物理现象，后来他想着非惯性参考系下是什么情况呢？于是他搞出了一个广义相对论。于是，牛顿力学是狭义相对论在低速运动时的特殊情况，狭义相对论是广义相对论在匀速运动时的特殊情况，一切就被统一了。在白话统计的第10章中，我们也可以建立一个思维框架，将常用的统计学方法放在一个体系中。

先以常见的t检验，方差分析和线性回归这三者为例。乍看之下，t检验是两组之间比较，方差分析是多组之间比较，线性回归是自变量对因变量的影响，但实际上，通过引入虚拟变量，可以将它们归于一般线性模型(general linear model)，模型如下

y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon

根据x的类型，是分类变量还是连续变量，以及x的数目，就可以按图索骥，选择合适的模型

自变量个数与类型	一般线性模型的具体方法
1个二分类变量	t 检验
1个多分类变量	方差分析
2个（或多个）分类变量	多因素方差分析（不是多元方差分析）
1个连续变量	单因素线性回归
多个连续变量	多因素线性回归（不是多元线性回归）
1个连续变量, 1个分类变量	协方差分析

一般线性模型统一了不同类型的自变量，但是要求因变量还是连续变量。为了统一不同类型的因变量，则需要广义线性模型（generalized linear model），模型如下

g(\mu) = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_px_p + \epsilon

基于等式左边的连接函数（link function）的形式，我们得到了如下模型

资料类型	分布	g(μ)的具体形式	广义线性模型的具体方法
连续资料	正态分布	μ	线性回归模型
分类资料	二项分布或多项分布	ln(μ / (1 - μ)) 或 logit(μ)	Logistic 回归模型
计数资料	Poisson 分布	ln(μ)	Poisson 回归模型
计数资料	负二项分布	ln(1 - μ)	负二项回归模型

上述模型基本上还是“线性”的，对于真正的非线性数据，就需要广义可加模型

g(\mu) = \beta_0 + f_1x_1 + f_2x_2 + ... + f_px_p + \epsilon

广义可加模型很容易出现过拟合的问题，给出的拟合曲线也难以用一个函数表示，它的作用体现在1）初步探索自变量与因变量的恰当关系；2）只是预测，不提供模型的具体形式。

广义线性模型除了要求“线性”外，还有一个重要前提，那就是“独立性”。例如，你测量了一个区域中所有人在一天中不同时间点的血糖水平，那么同一个人的血糖水平在不同时间点之间肯定是有影响。亦或者，你调查多个地区，不同人的血糖水平，由于一个地区的人大抵是有类似的生活习惯，同一个地区的人的测量也未必是独立的。

不要求“独立性”的广义线性模型就是多水平模型（multilevel model）了，它在不同领域有不同的定义，例如分层线性模型（Hierarchical Linear Model），混合效应模型（mixed effect model），随机效应模型（random effect model），随机系数模型（random coefficient model），方差成分模型（variance component model）等。

上述提到的模型，自变量和因变量都是明确的，同时变量还是已知的。但如果一个变量既可以是自变量也可以是因变量呢？或者说存在难以检测的变量呢？这就需要结构方程模型（Structural Equation Modeling, SEM）。

对于一个变量既可以是自变量也可以是因变量，比如说体重，血压和血糖，血压受到体重的影响，那它是因变量，同时它又影响了血糖，于是它又是自变量。为了描述这种变量，我们就可以使用内生变量（endogenous variable，会受到其他变量影响的变量）和外生变量（exogenous variable，不收任何变量影响，会影响其他变量）。这可以使用路径分析（Path Analysis）

对于难以检测的变量，比如说学习能力，幸福指数等，我们可以定义其为潜变量（latent variable），与之相对就似乎显变量（observed variable）。可以应用验证性因子分析（confirmatory factor analysis）

最后，基于自己的理解，如果要应用一个统计模型，我们需要问自己如下问题

变量是否会相互影响？
是否存在隐藏变量？
自变量和因变量是什么类型？
自变量是否独立？
自变量有多少个？

想清楚了上面问题，使用什么模型也就有了答案了吧？

动物如何准备pyscenic所需的cistarget数据库

2024-06-16T19:36:36+08:00

思路： https://resources.aertslab.org/cistarget/ 提供了全面的非冗余的motif数据库，以及人类、动物和昆虫的TF与motif对应表格，因此，如果研究动物，则基于同源序列相似性，将基因编号与人类基因对应，研究昆虫，则与果蝇对应。

数据库中，Mouse和Chicken就是基于同源基因跟人类基因对应得到。

首先，配置create_cisTarget_databases环境

# Clone git repo.git clone https://github.com/aertslab/create_cisTarget_databases~~~~cd create_cisTarget_databases# Display to which value ${create_cistarget_databases_dir} variable should be set.echo "create_cistarget_databases_dir='""${PWD}""'"# Create conda environment.conda create -n create_cistarget_databases \    'python=3.10' \    'numpy=1.21' \    'pandas>=1.4.1' \    'pyarrow>=7.0.0' \    'numba>=0.55.1' \    'python-flatbuffers'    # Activate conda environment.conda activate create_cistarget_databasescd "${CONDA_PREFIX}/bin"# Download precompiled Cluster-Buster binary.wget https://resources.aertslab.org/cistarget/programs/cbust# Download liftOver.wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver# Download bigWigAverageOverBed.wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/bigWigAverageOverBed# Make downloaded binaries executable.chmod a+x cbust  liftOver bigWigAverageOverBed# 安装一些库pip install pandas==1.3.5 pyranges  pyfaidx

下一步，是启动环境，并配置好create_cistarget_databases_dir的路径，例如我是家目录下，那么路径应该写成

# Activate conda environment.conda activate create_cistarget_databases# Set ${create_cistarget_databases_dir} variable to path where the repo was cloned to.create_cistarget_databases_dir=$HOME/create_cisTarget_databases

我们以Pig为例，创建文件夹，并从ENSEMBLE上下载相关的文件

mkdir -p GRN_DBcd GRN_DB# 下载基因组序列和GTF文件wget https://ftp.ensembl.org/pub/release-112/fasta/sus_scrofa/dna/Sus_scrofa.Sscrofa11.1.dna.toplevel.fa.gzwget https://ftp.ensembl.org/pub/release-112/gtf/sus_scrofa/Sus_scrofa.Sscrofa11.1.112.gtf.gzpigz -d Sus_scrofa.Sscrofa11.1.112.gtf.gz

此外，下载CISTARGET提供的现成的motif数据。

wget https://resources.aertslab.org/cistarget/motif_collections/v10nr_clust_public/v10nr_clust_public.zipunzip v10nr_clust_public.zip

从ENSEMBLE上下载的GTF文件中可能包含gene_name这一记录，一般对应的是人类的同源基因，因而可以得到当前物种的基因与人类基因的对应关系。我编写了一个脚本用于提取，

import redef parse_gtf(gtf_file):    gene_info = {}    with open(gtf_file, 'r') as file:        for line in file:            if line.startswith('#'):                continue  # Skip header lines            fields = line.strip().split('\t')            if fields[2] == 'gene':                attributes = fields[8]                gene_id_match = re.search('gene_id "([^"]+)"', attributes)                gene_name_match = re.search('gene_name "([^"]+)"', attributes)                                if gene_id_match:                    gene_id = gene_id_match.group(1)                    gene_name = gene_name_match.group(1) if gene_name_match else gene_id                    gene_info[gene_id] = gene_name        return gene_infodef save_gene_info(gene_info, output_file):    with open(output_file, 'w') as file:        for gene_id, gene_name in gene_info.items():            file.write(f'{gene_id}\t{gene_name}\n')# Path to your GTF fileimport sysgtf_file_path = sys.argv[1]# Output file pathoutput_file_path = sys.argv[2]# Parse the GTF filegene_info = parse_gtf(gtf_file_path)# Save the gene info to a filesave_gene_info(gene_info, output_file_path)print("Gene ID to Gene Name mapping has been saved to", output_file_path)

将其保存到一个gene2symbol.py 文件中，并运行，得到gene2symbol.txt

python3 gene2symbol.py Sus_scrofa.Sscrofa11.1.112.gtf gene2symbol.txt

然后，基于gene2symbol.txt，对v10nr_clust_public/snapshots/motifs-v10-nr.hgnc-m0.00001-o0.0.tbl 进行过滤，只保留存在同源基因tbl

import pandas as pdimport sys# 路径可能需要根据你的文件系统进行调整motifs_file = sys.argv[1]gene2symbol_file = sys.argv[2]    # 读取 gene2symbol 文件并建立基因名集合gene_names = set()with open(gene2symbol_file, 'r') as file:    for line in file:        parts = line.strip().split()        if len(parts) > 1:  # 确保行有两个以上的部分            gene_names.add(parts[1])  # 假设第二列是基因名# 读取 motifs 文件并直接输出符合条件的行with open(motifs_file, 'r') as file:    headers = next(file).strip()  # 读取头部行    print(headers)  # 输出头部行    for line in file:        if line.startswith('#'):            print(line.strip())        else:          parts = line.strip().split('\t')          if len(parts) > 5 and parts[5] in gene_names:              print(line.strip())  # 输出符合条件的行

存在一个名为filter_tbl.py的脚本中，然后运行

python3 filter_tbl.py gene2symbol.txt v10nr_clust_public/snapshots/motifs-v10-nr.hgnc-m0.00001-o0.0.tbl > motifs-v10-nr.Sus.tbl

然后，我们从 motifs-v10-nr.Sus.tbl提取出所有的motif，并过滤掉，不存在与singletons的motif

grep -v '^#' motifs-v10-nr.Sus.tbl|cut -f 1 |sort -u > motif_all.txtls v10nr_clust_public/singletons | cut -d '.' -f 1 > motif_nr.txtgrep -Ff motif_all.txt motif_nr.txt > motifs_sus.txt

此外，还需要基于基因组序列和注释文件，提取序列

from pyfaidx import Fastaimport pyranges as primport argparsedef read_fasta(filename):    """Read a FASTA file using pyfaidx, which provides efficient access to sequences."""    return Fasta(filename)  # This will index the file if not already indexeddef write_fasta(fasta_dict, output_filename):    """Write a dictionary to a FASTA file."""    with open(output_filename, 'w') as file:        for header, sequence in fasta_dict.items():            file.write(f">" + header + "\n")            file.write(sequence + "\n")def extract_sequence(fasta, chrom, start, end):    """Extract sequence from a FASTA file using pyfaidx."""    sequence = fasta[chrom][start:end].seq    return sequencedef main():    parser = argparse.ArgumentParser(description="Extract sequences around gene start positions considering gene strand orientation.")    parser.add_argument("genomic_fasta_filename", help="Genomic FASTA file.")    parser.add_argument("gtf_filename", help="GTF file containing gene annotations.")    parser.add_argument("output_fasta_filename", help="Output FASTA file for extracted sequences.")    parser.add_argument("upstream_bp", type=int, help="Number of base pairs to extract upstream of each gene start considering strand.")    parser.add_argument("downstream_bp", type=int, help="Number of base pairs to extract downstream of each gene start considering strand.")    parser.add_argument("-n", "--name_field", default="gene_name", help="Field in GTF to use for naming sequences. If not found, an error will be raised.")    args = parser.parse_args()    # Load the FASTA file using pyfaidx    fasta = read_fasta(args.genomic_fasta_filename)    # Load GTF file using PyRanges    gr = pr.read_gtf(args.gtf_filename)    genes = gr[gr.Feature == "gene"]    # Prepare the new FASTA entries    new_fasta = {}    for idx, row in genes.df.iterrows():        chrom, start, end, strand = row['Chromosome'], row['Start'], row['End'], row['Strand']        gene_name = row[args.name_field]        if not isinstance(gene_name, str):            continue        if strand == '+':            upstream_start = max(0, start - args.upstream_bp)            downstream_end = start + args.downstream_bp        else:            upstream_start = end - args.downstream_bp            downstream_end = end + args.upstream_bp        # Ensure downstream end does not exceed chromosome length        chrom_length = len(fasta[chrom])        downstream_end = min(downstream_end, chrom_length)        # Extract and save the sequence        extracted_sequence = extract_sequence(fasta, chrom, upstream_start, downstream_end)        new_fasta[gene_name] = extracted_sequence    # Write the new fasta file    write_fasta(new_fasta, args.output_fasta_filename)if __name__ == "__main__":    main()

提取以gene的起始的上游1kb，下游0bp, 用gene_name作为序列命名

python3 extract_fasta.py -n gene_name Sus_scrofa.Sscrofa11.1.dna.toplevel.fa Sus_scrofa.Sscrofa11.1.112.gtf gene_up1kb_down0kb.fasta 1000 0

最后运行create_cistarget_motif_databases进行构建

# FASTA file with sequences per region IDs / gene IDs.fasta_filename=gene_up1kb_down0kb.fasta# Directory with motifs in Cluster-Buster format.motifs_dir=v10nr_clust_public/singletons# File with motif IDs (base name of motif file in ${motifs_dir}).motifs_list_filename=motifs_sus.txt# cisTarget motif database output prefix.db_prefix=Sus_scrofa_up1kb_down0kbnbr_threads=24"${create_cistarget_databases_dir}/create_cistarget_motif_databases.py" \    -f "${fasta_filename}" \    -M "${motifs_dir}" \    -m "${motifs_list_filename}" \    -o "${db_prefix}" \    -t "${nbr_threads}"

最终，GRN所需要的文件如下

tbl: motifs-v10-nr.Sus.tbl
motif_name: motifs_sus.txt
feather: 有三个，按需使用
- Sus_scrofa_up1kb_down0kb.motifs_vs_regions.scores.feather
- Sus_scrofa_up1kb_down0kb.regions_vs_motifs.rankings.feather
- Sus_scrofa_up1kb_down0kb.regions_vs_motifs.scores.feather

M1/M2/M3芯片的Mac电脑如何配置R语言环境

2024-06-08T17:40:48+08:00

视频地址： https://www.bilibili.com/video/BV1Z1421k7tv/

目标：

安装R语言
安装Rstudio:
1. https://posit.co/download/rstudio-desktop/
安装R包
1. CRAN
  1. tidyverse
  2. BiocManager
2. Bioconductor
  1. DESeq2
3. GitHub
  1. export

配置所需要的一些软件下载：https://pan.baidu.com/s/1f8MTR7mUksXgLpX_WVegaw 提取zgnh

修改镜像的代码

options("repos" = c(CRAN="https://mirror.nju.edu.cn/CRAN/"))options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")

export安装的报错

Error in dyn.load(dynlib <- getDynlib(dir)) :   unable to load shared object '/Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/library/rgl/libs/rgl.so':  dlopen(/Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/library/rgl/libs/rgl.so, 0x0006): Library not loaded: /opt/X11/lib/libGLU.1.dylib  Referenced from:  /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/library/rgl/libs/rgl.so  Reason: tried: '/opt/X11/lib/libGLU.1.dylib' (no such file), '/System/Volumes/Preboot/Cryptexes/OS/opt/X11/lib/libGLU.1.dylib' (no such file), '/opt/X11/lib/libGLU.1.dylib' (no such file), '/Library/Frameworks/R.framework/Resources/lib/libGLU.1.dylib' (no such file), '/Library/Java/JavaVirtualMachines/jdk-11.0.18+10/Contents/Home/lib/server/libGLU.1.dylib' (no such file), '/var/folders/zc/6v0fl8dj657c5cqf3_khprlc0000gn/T/rstudio-fallback-library-path-689470345/libGLU.1.dylib' (no such file)Error: package or namespace load failed for ‘export’: .onLoad failed in loadNamespace() for 'rgl', details:  call: rgl.init(initValue, onlyNULL)  error: OpenGL is not available in this buildIn addition: Warning messages:1:   Loading rgl's DLL failed.   This build of rgl depends on XQuartz, which failed to load. See the discussion in https://stackoverflow.com/a/66127391/2554330 2: Trying without OpenGL...

解决方法：需要下载https://www.xquartz.org/ 安装以来环境。

Rstudio打开出现如下错误

Error in python_config_impl(python) :   Error 1 occurred running /usr/bin/python3: Error in python_config_impl(python) :   Error 1 occurred running /usr/bin/python3:

安装的 reticulate，这个工具依赖于python3. mac没有默认安装python3，所以就需要配置X-Code环境

在打开Rstudio的时候，弹出的一个安装提示
在终端里面输入

xcode-select --install

安装rJava后，无法正常使用rJava.

解决方法: 下载mac的Java环境就可以了

gfortran相关问题（我发现Big Sur版本也可以用我百度网盘的gfortran）

安装gfortran，但是还是不能用

ld: warning: search path '/opt/gfortran/lib/gcc/aarch64-apple-darwin20.0/12.2.0' not foundld: warning: search path '/opt/gfortran/lib' not foundld: library 'gfortran' not foundclang: error: linker command failed with exit code 1 (use -v to see invocation)make: *** [harmony.so] Error 1ERROR: compilation failed for package ‘harmony’* removing ‘/Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/library/harmony’Warning message:In i.p(...) :  installation of package ‘/var/folders/zc/6v0fl8dj657c5cqf3_khprlc0000gn/T//RtmpTKc22n/file11bf5ee9caa5/harmony_1.2.0.tar.gz’ had non-zero exit status

通过检索，我们碰巧发现gfotran在 /usr/local/gfortran目录下
编辑配置文件，让R能够识别

编辑配置文件: ~/.R/Makevars

FC      = /usr/local/gfortran/bin/gfortranF77     = /usr/local/gfortran/bin/gfortranFLIBS   = -L/usr/local/gfortran/lib

CentOS8如何重设root密码

2024-05-31T16:45:15+08:00

继ubuntu忘记密码后，我的CentOS 8系统的root密码也被我忘了，所以记录下如何重置。

在系统启动时，我们需要在加载操作系统之前进入GRUB引导加载程序，一般来说，出现下面这个页面就是了。

接着，我们赶紧使然后按e键进入编辑模式。

于是我们就可以修改启动指令了，找到以linux开头的行，这行通常包含有关内核启动参数的信息。在这一行的末尾添加 rd.break 。rd.break会在系统初始RAM磁盘阶段打断，让我们进入单用户模式国。改完之后，我们按Ctrl + x启动系统。

一旦系统以单用户模式启动，就可以重置root密码了，具体的命令如下：

需要先重新挂载根文件系统为读写模式：

mount -o remount,rw /sysrootchroot /sysroot

然后，使用passwd命令更改root密码：

passwd root

按提示输入新的root密码并确认。

完成这些后，使用以下命令退出并重启系统：

exitreboot

PS：如果发现修改密码不能生效，可能是系统使用了SELinux，为了确保SELinux的上下文不会阻碍新密码的使用，需要执行：

touch /.autorelabel

写在Cell上线时

2024-05-29T13:52:28+08:00

在2024年5月28日，《Reciprocal conversion between annual and polycarpic perennial flowering behavior in the Brassicaceae》总算是正式上线了，文章是open access，可以在 https://www.cell.com/cell/fulltext/S0092-8674(24)00473-2 阅读。

这个工作，从我来到王老师课题组时，就已经开展了，倒是可以认为是“十年磨一剑”了。最早是凌子师姐负责的，课题组从SENDAI Arabidopsis Seed Stock Center (SASSC) 订购了不少的种子，进行杂交，折腾了不少的组合，最后发现了一对须弥芥，喜马拉须弥芥（Crucihimalaya himalaica）和卵叶如须弥芥（C. wallichii），明明长得不像，却能够杂交得到后代，并能自交得到F2，也算是运气很不错了。

拿到这对组合后，我们就想着去定位目标基因了，然而这两个物种并没有参考基因组，于是，当时的我就开始学习三代基因组组装。我们一开始只是测了两个物种的PacBio，用Canu 组装到了contig水平。同时期，我们还测了F2的GBS群体，从省钱的角度出发，我决定自己搞一个遗传图谱，毕竟contig的N50已经> 5Mb了，那遗传图谱随便挂载个contig，应该不成问题。

结果，真成问题了！我原以为遗传图谱搭建很容易的，没想到，并没有那么完善的流程。首先是GBS测序，这玩意本身就不适合常规的变异检测流程，普通的流程要去除PCR重复，但是GBS测序特性决定了它不能去重，另外variant calling会根据一些阈值进行筛选，但是显然也不适合GBS，就比如说位置偏好性，显然，突变只会出现在一个位置上。当然，经过一波努力和探索，我还是解决了上述的问题，拿到了snp.vcf文件。但是，问题又来了，那个时候并没有把VCF文件换进去，就能得完美图谱的工具。那个时候，我找到了一些工具，一个是MapMaker，不过它也就支持不到1万个标记吧，但是初步过滤得到的VCF动辄十几万。另外一个是ASMap，我还写一个文章，叫做《使用ASMap构建高密度遗传图谱》，他可以构建非常高密度的遗传图谱。当然，后续我发现，无论是哪个工具，都需要高质量的分子标记，直接用SNP肯定是不靠谱的，于是乎，我搞了一个工具叫做，binmapr，用来完成这个工作。

在我折腾的同时，王老师拉着我们中间还听了一个报告，报告人提到了，他们可以无参构建一个遗传图谱，于是我们把数据给他们，让他们搭建了图谱。不过，当我知道这个服务费用后，我大吃一惊，这个费用都够我搞Hi-C了，我要这个遗传图谱干嘛，更何况，这个图谱还不是特别的完整。主要是因为群体不是特别大，也就是不到300，按照一个染色体可能1-2个交换事件，也就可能是3000个交换吧。有些地方还是因为跨物种杂交，导致不容易分离，最后这个数据也没用到文章上，不过倒是证明我的流程的是对的。

有了遗传图谱后，我们立刻定位到了一个基因，FLM，以及其他几个候选区间，当时很兴奋，感觉基因都拿到了，是不是文章离上线不远了。然而我果然太年轻，我们课题组实在是太严谨了，我们发现这个喜马拉须弥芥的多年生的习性并不是特别的严格，于是，这个时候师弟上场了，他哐哐一顿操作，搞出了另外一对组合，也就是糖芥组合，这两个是真的严格多年生和一年生，只不过不太好做遗传转化，不如须弥芥。同时，在糖芥这个组合帮助下，我们找到了另外两个基因，FLC和MAF。当然，这三个基因到底对不对呢，糖芥不太好做遗传转换，于是，我们就对拟南芥和须弥芥下手了，一波转基因操作下，我们在遗传学上真的确定了，同时也测了不少组学数据，从表观角度角度上做了一些探索。虽然短短几句，但实际上确实好几年的工作量。

后来，我把这部分工作里的基因组组装部分给拎出来，在加上一些系统发育树上的工作，作为我的博士毕业论文的内容，也算是顺利毕业了。

使用auto-coder进行源代码学习

2024-05-20T12:53:16+08:00

首先安装autocoder

conda create --name autocoder python=3.10.11conda activate autocoderpip install -U auto-coder## if you want to use private/open-source models, uncomment this line.pip install -U vllmray start --head

接下里部署moonshoot提供的模型，为啥选择moonshoot，主要是因为我申请了他们家的API，用的顺手了。

byzerllm deploy --pretrained_model_type saas/official_openai \--infer_params saas.api_key={你的API}  saas.model=moonshot-v1-128k saas.base_url=https://api.moonshot.cn/v1 \--model kimi_chat_128k

然后去下载我们的想要学习的源代码

git clone https://github.com/ablab/rnaquast.git

接着，我们写一个配置文件，叫做read_code.yml，内容如下

source_dir: /home/xzg/project/target_file: /home/xzg/project/output.txtmodel: kimi_chat_128k model_max_length: 2000model_max_input_length: 100000anti_quota_limit: 5project_type: pyskip_build_index: falsequery: >  阅读rnaquast源码，找到sqlite3_db_gene相关的函数

需要修改的相关参数是

source_dir: rnaquast的所在目录
target_file: 运行结果的输出文件，
skip_build_index: 设置为false, 那么在运行前就会建立索引
query: 填写的就是我们需要让auto-coder处理的问题

接着运行代码

auto-coder --file read_code.yml

运行时，会需要一段时间的索引构建过程，主要目标就是从代码中提取一些关键信息，如函数，类，变量，导入语句，对应的prompt如下。

       你的目标是从给定的代码中获取代码里的符号，需要获取的符号类型包括：              1. 函数       2. 类         3. 变量       4. 所有导入语句                   如果没有任何符号,返回空字符串就行。       如果有符号，按如下格式返回:                  ```       {符号类型}: {符号名称}, {符号名称}, ...       ```

这一步结束后，会在对应的项目录下生成一个.autocoder的文件夹，保存索引。

索引结束后，会有一个绿屏提示，给出那些是最有可能的文件，让你选择

你可以用tab直接跳转到OK，然后回车。

最后你可以查看output.txt，查看相关的源代码，格式如下，用##File来区分不同的文件来源。

##File: /home/xzg/project/plant-sc-rnaseq-atlas-viewer/project/rnaquast/general/UtilsPipeline.py__author__ = 'lenk'import argparseimport sysimport subprocess...

如果想要进一步的对代码解释，可以把output.txt的内容上传给ChatGPT, Claude3，让他们进行解答，比如说我选择了kimi，

R会自动配置LD_LIBRARY_PATH

2024-05-19T00:17:13+08:00

事情是这样子的，单细胞课程中有一个构建图谱的代码，其中有一个函数FindOptimalK（Jarning写的）在我负责的服务器运行的时候出现了如下问题。

然后这个问题困扰了学员半个月了，还是没解决，他已经将scipy库降级到很低的版本了，还是无法运行，查的这个方法需要sudo权限，尝试了拷贝别人的相关文件，但是没有权限，于是求助我。

如果你向GPT求助，它会建议你升级，但是作为系统管理员，我知道这玩意可不能随便拷贝，而且也不能随便升级，可能会牵一发动全身，导致其他软件无法正常运行（我之前升级过glibc，导致服务器连ls都用不了）

我尝试去定位了问题，发现在导入cnmf的时候，会出现如下报错，实际上就是scipy依赖于的libstdc的版本比较高。

> reticulate::import("cnmf")Error in py_module_import(module, convert = convert) :   ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found   (required by /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/_ckdtree.cpython-39-x86_64-linux-gnu.so)Run `reticulate::py_last_error()` for details.

然而，启动对应环境，然后导入的时候，并没有问题

conda activate ~/.local/share/r-miniconda/envs/r-reticulatepython -c "import cnmf"

因为我检查了对应了动态库的依赖情况，确实能够对应到conda中的libstdc

ldd /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/_ckdtree.cpython-39-x86_64-linux-gnu.so        linux-vdso.so.1 (0x00007ffd4d5d4000)        libstdc++.so.6 => /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/../../../../libstdc++.so.6 (0x00007fc050e29000)        libm.so.6 => /lib/x86_64-linux-gnu/libm.so.6 (0x00007fc050cb9000)        libgcc_s.so.1 => /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/../../../../libgcc_s.so.1 (0x00007fc050c9e000)        libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007fc050aac000)        librt.so.1 => /lib/x86_64-linux-gnu/librt.so.1 (0x00007fc050aa2000)        /lib64/ld-linux-x86-64.so.2 (0x00007fc0510b6000)        libpthread.so.0 => /lib/x86_64-linux-gnu/libpthread.so.0 (0x00007fc050a7d000)

这就奇怪了，且用户没有设置LD_LIBRARY_PATH

echo $LD_LIBRARY_PATH# 无显示

但是，我打开R之后，却发现里面有LD_LIBRARY_PATH，并且出现了/usr/lib/x86_64-linux-gnu ，根据我多年的经验，肯定是R优先用了/usr/lib/x86_64-linux-gnu的libstd，而不是conda的

> Sys.getenv("LD_LIBRARY_PATH")[1] "/opt/R/4.3.2/lib/R/lib:/usr/local/lib:/usr/lib/x86_64-linux-gnu:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server"

可我已经检查过了，用户没有设置LD_LIBRARY_PATH啊，所以，我就手动配置环境

echo 'LD_LIBRARY_PATH=/opt/R/4.3.2/lib/R/lib:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server:/home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib' >> ~/.Renviron

路径对了，但是结果还是出错了（我甚至都在R里面设置环境变量了）

> Sys.getenv("LD_LIBRARY_PATH")[1] "/opt/R/4.3.2/lib/R/lib:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server:/home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib"> reticulate::import("cnmf")Error in py_module_import(module, convert = convert) :   ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (required by /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/_ckdtree.cpython-39-x86_64-linux-gnu.so)Run `reticulate::py_last_error()` for details.> Sys.setenv("LD_LIBRARY_PATH"="/opt/R/4.3.2/lib/R/lib:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server:/home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib")> reticulate::import("cnmf")Error in py_module_import(module, convert = convert) :   ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (required by /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/_ckdtree.cpython-39-x86_64-linux-gnu.so)Run `reticulate::py_last_error()` for details.

我就非常纳闷了，到底咋回事啊，通过R调用python，然后查看LD_LIBRARY_PATH，里面也没有发现/usr/lib/x86_64-linux-gnu啊，为啥还是出错啊！

# 加载reticulate包library(reticulate)# 使用Python的os模块获取环境变量os <- import("os")ld_library_path <- os$getenv('LD_LIBRARY_PATH')print(ld_library_path)[1] "/opt/R/4.3.2/lib/R/lib:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server:/home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib"

GPT4给了我一些建议，让我检查如下的文件，是不是里面设置了LD_LIBRARY_PATH，可是我发了个遍，都没有找到

ls /etc/profile.d/cat /etc/profile.d/*cat /etc/environmentcat ~/.bashrccat ~/.bash_profilecat ~/.profilecat ~/.zshrccat ~/.Rprofilecat /opt/R/4.3.2/lib/R/etc/Rprofile.site

正当我一筹莫展的时候，我在/opt/R/4.3.2/lib/R/etc里ls了一下，发现一个ldpaths，

: ${JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre}: ${R_JAVA_LD_LIBRARY_PATH=${JAVA_HOME}/lib/amd64/server}if test -n "/usr/local/lib:/usr/lib/x86_64-linux-gnu"; then: ${R_LD_LIBRARY_PATH=${R_HOME}/lib:/usr/local/lib:/usr/lib/x86_64-linux-gnu}else: ${R_LD_LIBRARY_PATH=${R_HOME}/lib}fiif test -n "${R_JAVA_LD_LIBRARY_PATH}"; then  R_LD_LIBRARY_PATH="${R_LD_LIBRARY_PATH}:${R_JAVA_LD_LIBRARY_PATH}"fi## This is DYLD_FALLBACK_LIBRARY_PATH on Darwin (macOS) and## LD_LIBRARY_PATH elsewhere.## However, on macOS >=10.11 (if SIP is enabled, the default), the## environment value will not be passed to a script such as R.sh, so## would not seen here.if test -z "${LD_LIBRARY_PATH}"; then  LD_LIBRARY_PATH="${R_LD_LIBRARY_PATH}"else  LD_LIBRARY_PATH="${R_LD_LIBRARY_PATH}:${LD_LIBRARY_PATH}"fiexport LD_LIBRARY_PATH

好家伙，原来是你啊，于是我注释了其中三行，确保${R_LD_LIBRARY_PATH=${R_HOME}/lib}，避免引入/usr/lib/x86_64-linux-gnu这个害人精

: ${JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre}: ${R_JAVA_LD_LIBRARY_PATH=${JAVA_HOME}/lib/amd64/server}#if test -n "/usr/local/lib:/usr/lib/x86_64-linux-gnu"; then#: ${R_LD_LIBRARY_PATH=${R_HOME}/lib:/usr/local/lib:/usr/lib/x86_64-linux-gnu}#else: ${R_LD_LIBRARY_PATH=${R_HOME}/lib}#fiif test -n "${R_JAVA_LD_LIBRARY_PATH}"; then  R_LD_LIBRARY_PATH="${R_LD_LIBRARY_PATH}:${R_JAVA_LD_LIBRARY_PATH}"fi## This is DYLD_FALLBACK_LIBRARY_PATH on Darwin (macOS) and## LD_LIBRARY_PATH elsewhere.## However, on macOS >=10.11 (if SIP is enabled, the default), the## environment value will not be passed to a script such as R.sh, so## would not seen here.if test -z "${LD_LIBRARY_PATH}"; then  LD_LIBRARY_PATH="${R_LD_LIBRARY_PATH}"else  LD_LIBRARY_PATH="${R_LD_LIBRARY_PATH}:${LD_LIBRARY_PATH}"fiexport LD_LIBRARY_PATH

我原以为没问题了，但是还是出错了！

> Sys.getenv("LD_LIBRARY_PATH")[1] "/opt/R/4.3.2/lib/R/lib:/usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server"> reticulate::import("cnmf")Error in py_module_import(module, convert = convert) :   ImportError: /lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (required by /home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib/python3.9/site-packages/scipy/spatial/_ckdtree.cpython-39-x86_64-linux-gnu.so)Run `reticulate::py_last_error()` for details.

这为啥啊！不应该啊，我不是已经删掉了吗？怎么还是阴魂不散啊！

但是，突然间，我灵机一动，会不会是需要自己加一个LD_LIBRARY_PATH，加上r-reticulate的动态库，如下

export LD_LIBRARY_PATH=/home/data/gz0310/.local/share/r-miniconda/envs/r-reticulate/lib

然后，这个问题就被我解决了。

> reticulate::import("cnmf")Module(cnmf)

这个问题折磨了我快4个小时，好在最后解决了，我是真的没想到，R里面居然会偷偷摸摸给我加LD_LIBRARY_PATH，就算你加了，你好歹把用户的LD_LIBRARY_PATH 放在前面啊！

PS：除了上面我写的一些尝试外，我还做了如下的尝试

例如，设置其他conda路径，但还是出错

library(reticulate)#use_virtualenv("myenv")use_condaenv("/home/data/gz0310/mambaforge/envs/cnmf_env")reticulate::import("cnmf")

我本来是打算删除libapths，但是删了就会导致R无法正常运行。

mv /opt/R/4.3.2/lib/R/etc/ldpaths /opt/R/4.3.2/lib/R/etc/ldpaths.bak

糟糕，我被GitHub copilot包围了

2024-05-18T11:27:23+08:00

我已经使用GitHub copilot一年多了，之所以知道这一点，是因为上上个月，我付了今年的订阅。

一开始，我只能在vscode里面用copilot，毕竟vscode是微软开发的，GitHub被微软收购了，最早在自己家的工具里推出也是非常合理的。那个时候，我发现我只需要定义一个函数，它就唰唰唰的给我出代码，关键代码还是对的，甚至比我自己写的还对，我立刻被吓到了，百思不得其解，这究竟是如何做到的。后来，我知道了，原来是大语言模型（LLM）加持，它基于大量的GitHub上的开源代码进行训练，因此，可能较为可靠的推理出最有可能的代码实现。

后来，我有段时间开始尝试学习Java，下载JetBrain的IntelliJ IDEA，发现这里面也提供了GitHub copilot的插件，一瞬间我就感觉我不慌了，我觉得我也能写Java代码了。当然，实际上，我并不能。当我不了解某个领域的知识的时候，我就无法评估、修改GitHub copilot提供的代码。而我之所以在vscode里被惊艳了，是因为那个时候，我写的是Python代码。

再后来，我发现RStudio也支持Github copilot了，我可以在里面写R代码了！

下面的灰色代码就是GitHub copilot生成的，并且是真的可以用的。

也就是到目前为止，我已经发现我最常用的工具都被GitHub copilot给赋能了，除了命令行，以及我偶尔会用vim编辑代码。然后，我今天忽然发现，原来这两个也被补全了。

对于命令行，我们可以通过GitHub CLI工具调用，他的安装配置如下

conda install gh --channel conda-forge# 登录gh auth login# 安装拓展gh extension install github/gh-copilot# 使用## 解释gh copilot explain "sudo apt-get"## 提示命令gh copilot suggest "Install git"

对于Linux的vim，通过如下方法安装插件（需要注意，Vim 版本不低于 9.0.0185，同时后台安装了nodejs 18以上）

git clone https://github.com/github/copilot.vim \   ~/.vim/pack/github/start/copilot.vim

接着打开vim进行配置，

:Copilot setup# 如果提示 Vim version too old，记得升级vim:Copilot enable

这下子，真的逃不开GitHub copilot了。

修改docker的镜像和容器的存放路径

2024-05-03T21:06:02+08:00

Docker默认将镜像和容器存放在/var/lib/docker下，而通常而言，根目录的空间并不是非常大。一旦用的多了，就会让空间不够，因此，我们需要给Docker搬个家，步骤如下

1. 停止 Docker

首先停止 Docker 服务以防止数据更改：

sudo systemctl stop docker

2. 创建新的存储位置

选择新的位置，例如 /data/docker，并确保目标磁盘具有足够的空间：

sudo mkdir /data/docker

3. 复制数据

将当前的 Docker 数据复制到新的存储位置：

sudo rsync -aP /var/lib/docker/ /data/docker

这一步，数据越多，需要等待时间越久。

4. 配置 Docker 使用新的存储位置

编辑 Docker 的配置文件 daemon.json，如果不存在则创建它：

sudo mkdir -p /etc/dockersudo vim /etc/docker/daemon.json

将以下内容写入文件：

{  { 可能的其他配置信息 },  "data-root": "/data/docker"}

保存并关闭编辑器。

5. 备份并移动原始数据

备份原始数据（可选）并清除原始数据目录：

sudo mv /var/lib/docker /var/lib/docker.bak

6. 创建符号链接

为了防止任何工具直接访问旧的目录位置，将其重定向到新位置：

sudo ln -s /data/docker /var/lib/docker

7. 重启 Docker

重新启动 Docker 服务：

sudo systemctl start docker

8. 检查配置

验证 Docker 是否正确使用新的存储位置：

docker info | grep "Docker Root Dir"

输出应显示新位置 /data/docker。

如果一切工作正常，并且确定不再需要备份，可以删除它：

sudo rm -rf /var/lib/docker.bak

通过这些步骤，Docker 将使用新的存储位置，后续也就不愁空间不够了。

实现anndata的read_10x_h5的逆操作write_10X_h5

2024-04-30T17:24:36+08:00

一个简单的功能，将adata中存放的稀疏的表达量矩阵保存为可以用 Seurat::Read10X_h5读取的H5文件，代码如下

import h5pyimport numpy as npfrom scipy.sparse import csr_matrixfrom pathlib import Pathdef write_10X_h5(adata, file):    """Writes an AnnData object to a 10X Genomics formatted HDF5 file.        This function creates a file compatible with Seurat's Read10X_h5 function.     It writes the sparse matrix data and associated metadata while ensuring correct data types and attributes.        Args:        adata: AnnData object containing the matrix and metadata.        file: Output file path. Appends '.h5' if not present.            Raises:        FileExistsError: If the output file already exists.    """        # Ensure file extension is .h5    file = file if file.endswith('.h5') else f'{file}.h5'        # Check if the file already exists    if Path(file).exists():        raise FileExistsError(f"There already is a file `{file}`.")        # Helper function to calculate max integer size    def int_max(x):        return int(max(np.floor(np.log10(max(x)+1)), 1) * 4)        # Helper function to calculate max string size    def str_max(x):        return max(len(str(i)) for i in x) + 1  # +1 for null termination        # must transpose    X = adata.X.T    # Create file and write data    with h5py.File(file, 'w') as w:        grp = w.create_group("matrix")        #        grp.create_dataset("data", data=X.data, dtype=np.float32)        grp.create_dataset("indices", data=X.indices, dtype=np.int32)        grp.create_dataset("indptr", data=X.indptr, dtype=np.int32)        grp.create_dataset("shape", data=np.array(X.shape, dtype=np.int32))        # Handling barcodes and features        grp.create_dataset("barcodes", data=np.array(adata.obs_names, dtype=f'S{str_max(adata.obs_names)}'))                ftrs = grp.create_group("features")        ftrs.create_dataset("id", data=np.array(adata.var_names, dtype=f'S{str_max(adata.var_names)}'))        ftrs.create_dataset("name", data=np.array(adata.var_names, dtype=f'S{str_max(adata.var_names)}'))        # Optionally add more metadata fields if needed        if 'genome' in adata.var.columns:            ftrs.create_dataset("genome", data=np.array(adata.var['genome'], dtype=f'S{str_max(adata.var["genome"])}'))        # set feature_type        if 'feature_type' in adata.var.columns:            ftrs.create_dataset("feature_type", data=np.array(adata.var['feature_type'], dtype=f'S{str_max(adata.var["feature_type"])}'))        else:            adata.var['feature_type'] = 'Gene Expression'            ftrs.create_dataset("feature_type", data=np.array(adata.var['feature_type'], dtype=f'S{str_max(adata.var["feature_type"])}'))

使用方法如下，

write_10X_h5(adata, "adata.h5")

使用要求：adata必须没有经过特别的数据预处理，也就是说adata.X存放的就是稀疏矩阵

使用场景：当只有adata对象，没有10x输出的h5文件时，可以使用。

ubuntu系统忘记密码如何重置

2024-04-25T15:05:30+08:00

在进行下述步骤之前，先确保服务器是在你伸手可及的地方，同时还需要给这台服务器配置显示器和键盘。

具体步骤如下：

重启计算机并进入Grub菜单：
当计算机启动时，在看到GRUB加载菜单的时候，立即按下Shift键（在某些系统中可能需要按Esc键）。这会显示启动菜单。
修改启动参数：
使用箭头键选中您通常启动的Ubuntu系统，通常是列表的第一个选项，然后按e键进入编辑模式。
找到启动内核行：
在编辑模式中，找到以linux开头的行，这行通常包含quiet splash等词。将光标移动到这行的末尾。
更改启动选项：
在quiet splash词后面添加rw init=/bin/bash。这会指定在启动时运行bash shell而不是正常的系统初始化。
启动修改后的系统：
按F10或Ctrl + X来启动系统。
重置密码：
系统会进入一个根shell提示符。在这里，您可以输入passwd 用户名命令来重置密码，其中“用户名”是您的用户名。例如：
```
passwd user
```
按照提示输入新密码并确认。
重启系统：
完成密码更改后，您可以通过输入以下命令重新启动系统：
```
exec /sbin/init
```

如此一来，就不需要通过重装服务器来重置密码了。

GSEA的算法只考虑排序吗

2024-04-08T10:51:27+08:00

其实这个问题很好回答，只需要运行如下代码，如下的基因列表是顺序是完全相同，并且我们只是做了最基础的变换

library(clusterProfiler)library(org.Hs.eg.db)data(geneList, package="DOSE")ego1 <- gseGO(geneList     = geneList,              OrgDb        = org.Hs.eg.db,              ont          = "CC",              minGSSize    = 100,              maxGSSize    = 500,              pvalueCutoff = 0.05,              verbose      = FALSE)geneList2 <- geneList + 5ego2 <- gseGO(geneList     = geneList2,              OrgDb        = org.Hs.eg.db,              ont          = "CC",              minGSSize    = 100,              maxGSSize    = 500,              pvalueCutoff = 0.05,              verbose      = FALSE)geneList3 <- geneList * 100ego3 <- gseGO(geneList     = geneList3,              OrgDb        = org.Hs.eg.db,              ont          = "CC",              minGSSize    = 100,              maxGSSize    = 500,              pvalueCutoff = 0.05,              verbose      = FALSE)library(ggplot2)p1 <- dotplot(ego1)p2 <- dotplot(ego2)p3 <- dotplot(ego3)p1 + p2 + p3

但是结果中，geneList和geneList3最为接近，geneList2几乎完全不一样。

这说明GSEA肯定是不可能考虑排序的，因为它的算法过程中还有一个ES得分计算，这个计算用到的权重就来自于排序所用的得分。

Step 1: Calculation of an Enrichment Score. We calculate an enrichment score (ES) that reflects the degree to which a set S is overrepresented at the extremes (top or bottom) of the entire ranked list L. The score is calculated by walking down the list L, increasing a running-sum statistic when we encounter a gene in S and decreasing it when we encounter genes not in S. The magnitude of the increment depends on the correlation of the gene with the phenotype. The enrichment score is the maximum deviation from zero encountered in the random walk; it corresponds to a weighted Kolmogorov–Smirnov-like statistic (ref. 7 and Fig. 1B).

在GSEA发表的文章中提到了，这种增加和降低的比例就取决于基因和表型的相关性，也就是说，gene的得分很重要。目前的得分有如下流派

pvalue / qvalue: 只考虑显著性
log2FC: 考虑倍数变化
-log10(pvalue) : 显著性的一种换算方式
sign(log2FC) * -log10(pvalue): 有符号的显著性。
统计检验的值, AUC,… 类似于第一种方法。

问题来了，我们应该选择哪种？

WildCard有点野

2024-04-04T22:15:34+08:00

今天为了支付一个月一次的OpenAI费用的时候又打开了野卡（WildCard）的网站，猛地发现，它居然又多了一项ChatGPT。我心里想，该不会只是个跳转链接吧，谁知打开一看，居然是他们退出了自己的的共享服务。

如此想来，从2023年7月接触，到现在，我已经使用野卡支付快一年了，一开始只是用来解决支付的工具，没想到还被这个团队越做越大。我梳理了下，大概发展过程是

解决海外支付问题: 提供邮箱和验证手机号，海外的家庭网络环境
实现自动化的ChatGPT账号创建，以及Plus会员的付费
提供OpenAI API转发服务
直接提供OpenAI API的服务
提供了Claude3 API的服务
提供ChatGPT Plus随心用

我推测进一步，可能会提供Claude的随心用了吧？

anyway，从目前的使用情况来看，野卡也不太容易跑路，所以，我还是比较推荐这个网站的。可以使用我的邀请码 https://bewildcard.com/i/ZHOUGENG 注册，首次充值减免2美元。

单细胞转录组的线粒体过滤

2024-03-28T11:58:51+08:00

线粒体比例过高可能意味着细胞处于凋亡状态，因此在单细胞数据分析中，通常会有一步过滤。最简单的操作就是，直接看小提琴图，手动选个阈值，过滤即可。

当然，更加高级一点的做法是，找离群的细胞进行过滤，比如说下面这种

Specifically, we fit the expression level of mitochondrial genes by using a median-centered median absolute deviation (MAD)-variance normal distribution, and then removed the cells with significantly higher expression levels than expected (determined by Benjamini-Hochberg corrected p < 0.01, for CD3+ dataset: 11.13%; for CD45+ dataset: 13.33%) (Pijuan-Sala et al., 2019).

Luoma, A.M., Suo, S., Williams, H.L., Sharova, T., Sullivan, K., Manos, M., Bowling, P., Hodi, F.S., Rahma, O., Sullivan, R.J., et al. (2020). Molecular pathways of colon inflammation induced by cancer immunotherapy. Cell 182, 655–671.e22. https://doi.org/10.1016/j.cell.2020.06.001.

Quality control: Cell libraries with low complexity (fewer than 1,000 expressed genes) were excluded. Cells with mitochondrial gene-expression fractions greater than 2.37%, 2.18%, and 3.35% for each of the wild-type atlas, _Tal1_−/− chimaeras, and wild-type chimaeras, respectively, were excluded. The thresholds were determined by considering a median-centred median absolute deviation (MAD)-variance normal distribution; cells with mitochondrial read fraction outside of the upper end of this distribution were excluded (where outside corresponds to P < 0.05; Benjamini–Hochberg-corrected).

Pijuan-Sala, B., Griffiths, J.A., Guibentif, C., Hiscock, T.W., Jawaid, W., Calero-Nieto, F.J., Mulas, C., Ibarra-Soria, X., Tyser, R.C.V., Ho, D.L.L., et al. (2019). A single-cell molecular map of mouse gastrulation and early organogenesis. Nature 566, 490–495. https://doi.org/10.1038/s41586-019-0933-9.

上述过滤分为两个部分，第一个部分是将数据拟合到正态分布中，第二个部分是基于正态分布计算每个值出现的概率（经过多重检验），然后筛选出不太可能出现的细胞。

这里有一个专业术语，“Median-centred median absolute deviation (MAD)-variance normal distribution”，主要在统计学和数据分析中使用，特别是在处理有离群值的数据集时。这个术语可以分解为几个关键组成部分来理解：

中位数中心化（Median-centred）：这意味着数据的中心（或比较的基点）是数据集的中位数，而不是平均值。中位数是将数据集从小到大排序后位于中间的值。如果数据集的数量是偶数，则中位数是中间两个数的平均值。中位数中心化有助于减少极端值对数据分析的影响，因为中位数对离群值不如平均值那么敏感。
中位数绝对偏差（Median Absolute Deviation, MAD）：MAD是一种衡量数据集变异性的方法，它计算的是各数据点与数据集中位数的绝对偏差的中位数。与标准偏差相比，MAD对离群值的影响较小，因此是一种更鲁棒的变异性度量。
MAD-方差正态分布：这部分描述了使用MAD来标准化数据的过程，使得标准化后的数据有着类似于正态分布的性质，即均值为0，方差为1。在实践中，这通常通过从每个数据点中减去中位数，然后除以MAD来实现。为了使得标准化后的数据与标准正态分布的方差对齐，可能还需要乘以一个常数（如1.4826，这个值是在假设原始数据是正态分布的情况下推导出的）。

有了这些基本知识后，我们可以写一个代码进行实现

import numpy as npimport scipy.stats as statsfrom statsmodels.stats.multitest import multipletestsimport scanpy as scdef mad_based_normalization(data, mad_constant =  1.4826):    median = np.median(data)    absolute_deviation = np.abs(data - median)    mad = np.median(absolute_deviation)    normalized_data = (data - median) / (mad * mad_constant)    return normalized_datadef filter_cells_with_mitochondrial_fraction(mitochondrial_fraction, mad_constant = 1.4826, alpha=0.05):    """    根据线粒体读取比例排除细胞, 返回一个Bool列表，记录那些数据应该被保留        :mitochondrial_fraction 线粒体占比    :param alpha: 显著性水平阈值。    :return: of List of Bool for cell to keep    """    # 计算每个细胞的线粒体基因表达比例        # 对线粒体读取比例应用MAD基于中位数的标准化    normalized_mitochondrial_fraction = mad_based_normalization(mitochondrial_fraction, mad_constant)        # 计算z分数    z_scores = normalized_mitochondrial_fraction        # 计算P值    p_values = stats.norm.sf(z_scores)  # 一尾检验        # 应用Benjamini-Hochberg校正    _, corrected_p_values, _, _ = multipletests(p_values, alpha=alpha, method='fdr_bh')        # 保留 >= alpha的结果    filtered_cells = corrected_p_values >= alpha    return filtered_cells

使用方法如下，从adata中提取线粒体比例这一列，然后调用函数获取保留的细胞，并对原始数据进行过滤

percent_mt = adata.obs['pct_counts_mt'].copy()keep_cell = filter_cells_with_mitochondrial_fraction(percent_mt)adata.obs['keep_mito'] = ['keep' if keep else 'filter' for keep in keep_cell]# 可视化ax = sc.pl.violin(adata_sub, ['pct_counts_mt'],  groupby="keep_mito",  jitter=0.4)

类似于下图中这个效果，相当于动态确定了阈值，而不是一个固定阈值过滤。

一条染色体长度不要超过500mb

2024-03-11T11:09:04+08:00

目前一些生信工具，例如samtools，gffread 是用C/C++编写的，他们在编码染色体的坐标时，用的一般是int32，对应数值范围是-2,147,483,648 ~2,147,483,647。在计算机课上，有一个知识点，叫做整型溢出，也就是如果你要编码的数字超过编码范围，那他就会从最小开始，也就是2,147,483,647的下一位数字是-2,147,483,648。

举个例子，如果你的染色体比较长，超过了500mb，那么 samtools index建立索引时，会报错 Region 536761809..536937545 cannot be stored in a bai index. Try using a csi index: Numerical result out of range 。虽然说报错建议你使用csvi，确实能解决了一些问题。然而，如果你的染色体离谱的大，那么csi也救不了你，他还是会报错 Unsorted positions on sequence #1: 2147481987 followed by -2147483162。对于gffread，它就更加离谱了，他不会报错，因为他直接将错就错，也就是你经过gffread转换后的gtf/gff，会在结果中看到负数的坐标。

其他还有一些软件，例如bwa, plink可能都不支持那么长的染色体。 STAR虽然能够建立索引，也能回帖，但是你会发现得到的BAM文件，无人能处理。还有， NCBI上会有染色体的长度限制，超过这一长度需要你进行拆分。

同时，考虑，目前的大基因组，都不可能是T2T基因组，也不可能有一个contig长度会超过500 mb，于是我写了一个脚本，他的逻辑就是把这些scaffolding的基因组，打碎成不那么连续的部分，然后基于这个坐标生成新的GTF或者GFF，代码见 https://github.com/xuzhougeng/myscripts/blob/master/misc/splite_super_big_genome.py

同时，我把代码打包成了一个TBtools的插件，插件和测试数据放在了一起。使用方法非常简单，就是选择你的fasta的路径，你的gff文件路径，设置输出路径就行了，举个例子

测试数据地址: 链接：https://pan.baidu.com/s/15ixljZVarc6udOSS0CCH6w?pwd=zgnh 提取码：zgnh

注意插件的使用，需要安装python环境，可以参考 https://www.yuque.com/cjchen/hirv8i/xpffndywtchwg83z 进行安装。

参考资料

TBtools文档: https://www.yuque.com/cjchen/hirv8i/xq65ml

如何申请claude的API

2024-03-06T19:19:34+08:00

首先，你要知道一点是Claude不是所有地方都可以访问的，因此，你需要保证你打开 https://claude.ai 以及 https://www.anthropic.com/ 是如下界面，而不是服务不可用（前者是使用Anthropic提供的聊天功能，有免费的使用，或者是用来申请API）。如果你需要申请API，请点击后面这个。

接着，可以到 https://bewildcard.com/i/ZHOUGENG 注册一个账号(这里的ZHOUGENG是我的邀请码，使用这个链接首次充值可以有2美元优惠），它可以同时解决邮箱问题，手机短信问题，海外支付问题。

注册完bewildcard后，就可以在页面右侧申请一个邮箱，用于注册Claude。

然后在 https://www.anthropic.com/ 的页面输入你申请的邮箱，然后在bewildcard页面中的收件记录中查收你的邮件，填写验证码。

再之后，你需要填写一个手机号码验证。

在bewildcard页面中提供了海外手机号，新用户有免费额度。

如果遇到如下的问题，就过几天，比如说我等了两天，就有了新的号码池。

注册成功后（如果是claude就可以用了），我们要到后台申请API（有免费5美元额度可以申请），在计划中选择 Build Plan （一个月4000够普通用户了）

在填写的时候，随便写就可以了。我建议将公司填写在美国，因为我们的虚拟卡是美国的，然后再选几个非美国地区的使用地区，我勾选了日本和新加坡。

最后用从bewildcard中申请的卡，就能用来购买初始的额度。

关于API的使用，我们需要先申请key。

至于API怎么用，https://docs.anthropic.com/claude/docs/intro-to-claude 提供了相应的文档。

我使用谷歌邮箱登录，除了申请免费5美元外，没用到手机号。

辛普森悖论和孤证不立

2024-03-01T11:32:55+08:00

在统计学中，有一个非常有名的悖论，即辛普森悖论（Simpson’s Paradox），它得名于英国统计学家爱德华·辛普森（Edward H. Simpson），这是因为他在1951年的一篇论文中首次描述了这一现象（当然，这种统计现象的观察和讨论实际上可以追溯到更早）。

辛普森在他的论文中通过具体的例子展示了如何在不同的条件下，数据的聚合可以颠倒分组分析的结果。这个悖论强调了分析数据时考虑分层（stratification）重要性，以及数据分析中潜在的混杂变量（confounding variables）如何影响结论的可靠性。

一个数学表达是：

不过还是看一个具体的案例吧，假设有两位医生，医生A和医生B，他们分别治疗了两种不同严重程度的病例：轻微和严重。我们来看看他们的治疗成功率。

医生A治疗了100个轻微病例，成功了90个（成功率90%），并且治疗了10个严重病例，成功了1个（成功率10%）。
医生B治疗了10个轻微病例，成功了9个（成功率90%），并且治疗了100个严重病例，成功了20个（成功率20%）。

如果我们仅看总体成功率，不考虑病例的严重程度，我们得到：

医生	总治疗病例数	总成功数	总成功率
A	110	91	82.7%
B	110	29	26.4%

显然医生A的医术非常高明，远远胜过医生B。但是如果我们分组讨论，事情就完全不同了，在轻微病例中，两位医生的成功率都是90%，在严重病例中，医生B的成功率（20%）实际上是医生A成功率（10%）的两倍。

医生	病例类型	治疗总数	成功数	成功率
A	轻微	100	90	90%
A	严重	10	1	10%
B	轻微	10	9	90%
B	严重	100	20	20%

因此，当病例按严重程度分组时，医生B在每一类病例中的表现都不逊于医生A，甚至在严重病例中表现更好。这就是辛普森悖论的一个典型示例：分组分析和整体分析得出完全相反的结论。

为什么要说到这个辛普森悖论呢？主要是引出单细胞在分完大群后，我们都需要细分亚群，然后会在亚群中比较不同组之间的细胞类型的变化。那么此时，我们应该是考虑到所有细胞作为分母，还是亚群本身的细胞总数作为分母呢？

假设有两个组（组1和组2），他们的细胞总数都是1000个，接着我们发现组1中A群细胞是100个，组2中A群细胞200个。对这个A群细胞做亚群聚类后，找到一个小群A1, 在组1中是30个，在组2中是40个。

当我们使用所有细胞作为分母时，组2的A1比例高于组1（4% > 3%）

组1的A1比例 = (30 / 1000 = 3%)
组2的A1比例 = (40 / 1000 = 4%)

仅使用A群细胞作为分母，组1的A1比例实际上高于组2（30% > 20%）。

组1的A1比例 = (30 / 100 = 30%)
组2的A1比例 = (40 / 200 = 20%)

那么此时，你应该解读这个数据呢？毕竟无论你需要什么结果，都有一个数据符合你的需求。无论是使用所有细胞作为分母还是亚群本身的细胞总数作为分母，都有其合理性和局限性。具体选择哪种方法取决于研究的目的和具体的科学问题。例如：

所有细胞作为分母：这种方法可能更适合于评估整体群体中特定亚群的绝对丰度。它能够提供关于在整个样本中，某个亚群相对于所有细胞的比例的信息，这对于理解该亚群在总体中的重要性很有帮助。
亚群细胞总数作为分母：这种方法则更侧重于分析特定亚群内部的细分情况，它能更细致地反映出在特定亚群内部，不同小群之间的相对比例变化。这对于理解亚群内部的细胞类型的分布和动态变化非常关键。

另外，我还想要说一个观点，孤证不立。无论是你从那种角度出发，你都应该还需要额外的证据。比如说，很可能这一次是抽样误差导致的，你再做一次重复，结果或许就不一样了。或者做做空间转录组，免疫组化，bulk去卷积，都可以作为一些补充证据，总之不要过早下结论。

参考资料：

https://zhuanlan.zhihu.com/p/348967975