文件系统管理是存储和组织我们的数据的方法。在数据科学项目中频繁地接触到文件夹和文件管理。如在爬虫项目中,涉及工作路径的设置,文件夹的创建,文件的批量命名,文件的批量导入等操作。因此,高效、科学的文件管理方式将能够大大地提高我们的工作效率。
工作路径管理
-
getwd()
:获得当前工作路径 -
setwd()
:设置工作路径
文件夹管理
-
dir.create()
:创建一个新的目录 -
unlink()
:删除文件和目录 -
dir()
:查看当前目录下的所有文件夹和文件名 -
list.files()
:查看当前目录的子目录和文件,同dir()
-
list.dirs()
:查看当前目录的子目录 -
path.expand()
:扩展路径名 -
normalizePath()
:转换Windows或Linux的路径分割符 -
shortPathName()
:缩短路径的显示长度(Windows中使用)
文件管理
-
file.path()
:拼接目录字符串,创建路径名 -
file.info()
:查看文件完整信息 -
file.exists()
:查看文件是否存在 -
file.access()
:查看文件权限 -
Sys.chmod()
:修改文件权限 -
file.rename()
:修改文件名 -
file.remove()
:删除文件 -
file.append()
:文件内容拼接 -
file.copy()
:复制文件 -
basename()
:获得最低等级的路径名(即文件名) -
dirname()
:获得除文件名外的路径名
压缩/解压文件
-
zip()
:创建一个压缩文件 -
unzip()
:从压缩文件中获得某些文件
扩展包管理
-
R.home()
:查看R软件的相关目录 -
.Library
:查看R核心包的目录 -
.Library.site
:打印核心包的目录和root用户安装包目录(Linux下) -
.libPaths()
:打印所有包的存放目录 -
system.file()
:查看指定包所在的目录
R 操作excel示例:
rm(list=ls())
library(gdata)
library(WriteXLS)
df<-read.xls("geneall.xlsx",sheet=1)
dim(df)
head(df)
genes<-cbind(genes,as.vector(df$GNM))
genes<-c()
for(i in 1:7){
df<-read.xls("geneall.xlsx",sheet=i)
genes<-c(genes,as.vector(df$GNM))
}
gdf<-as.data.frame(table(genes))
oddf<-gdf[order(gdf$Freq,decreasing=T),]
df<-read.xls("geneall.xlsx",sheet=7)
head(df)
head(oddf)
colnames(oddf)<-c("GNM","Freq")
library(dplyr)
MMMM<-oddf%>%filter(GNM %in% df$GNM) %>%merge(df,by="GNM")%>%arrange(desc(as.numeric(Freq)))%>%dplyr::select(GID,GNM,Freq)
dim(MMMM)
shet<-c("MMMM","NNNN","BBBB","VVVV","FFFF","GGGG","HHHHH")
WriteXLS(x=shet, ExcelFileName = "geneshell.xls",
SheetNames = shet, perl = "perl",
verbose = FALSE, Encoding = c("UTF-8", "latin1", "cp1252"),
row.names = FALSE, col.names = TRUE,
AdjWidth = FALSE, AutoFilter = FALSE, BoldHeaderRow = FALSE,
na = "",
FreezeRow = 0, FreezeCol = 0,
envir = parent.frame())