题 循环遍历Bash中的文件内容


如何迭代文本文件的每一行 巴什

使用此脚本:

echo "Start!"
for p in (peptides.txt)
do
    echo "${p}"
done

我在屏幕上看到这个输出:

Start!
./runPep.sh: line 3: syntax error near unexpected token `('
./runPep.sh: line 3: `for p in (peptides.txt)'

(后来我想做一些更复杂的事情 $p 而不仅仅是输出到屏幕。)


环境变量 贝壳 是(来自环境):

SHELL=/bin/bash

/bin/bash --version 输出:

GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu)
Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version 输出:

Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

文件peptides.txt包含:

RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

942
2017-10-05 17:52


起源


哦,我发现这里发生了很多事情:所有的评论都被删除了,问题又被重新打开了。仅供参考,接受的答案 逐行读取文件,将值赋给变量 以规范的方式解决问题,应优先于此处接受的问题。 - fedorqui


答案:


一种方法是:

while read p; do
  echo $p
done <peptides.txt

特殊情况下,如果 循环体可以从标准输入读取,您可以使用不同的文件描述符打开文件:

while read -u 10 p; do
  ...
done 10<peptides.txt

这里,10只是一个任意数字(不同于0,1,2)。


1520
2017-10-05 18:00



我该如何解释最后一行?文件peptides.txt被重定向到标准输入,并以某种方式重定向到整个while块? - Peter Mortensen
“将dops.txt粘贴到while循环中,所以'read'命令有一些东西要消耗掉。”我的“cat”方法类似,将命令的输出发送到while块以供'read'使用,只有它启动另一个程序才能完成工作。 - Warren Young
这可以改进,只留下从输入文件中读取的空格和反斜杠。 read -r p 读取“原始”行。 - Jens
@xastor:文件的最后一行不是换行符;在这种情况下,它不是一个完整的线,并且 read 失败。 - Bruno De Fraine
@xastor:确保最后一行是 总是 读取 - 是否换行 - 使用: while read p || [[ -n $p ]]; do ... - mklement0


cat peptides.txt | while read line
do
   # do something with $line here
done

293
2017-10-05 17:54



一般来说,如果你只使用一个参数使用“cat”,那么你做错了(或次优)。 - JesperE
是的,它不如布鲁诺那么高效,因为它不必要地启动了另一个程序。如果效率很重要,那就按照布鲁诺的方式行事吧。我记得我的方式是因为你可以将它与其他命令一起使用,其中“redirect in from”语法不起作用。 - Warren Young
还有一个更严重的问题:因为while循环是管道的一部分,它在子shell中运行,因此在循环中设置的任何变量在它退出时都会丢失(参见 bash-hackers.org/wiki/doku.php/mirroring/bashfaq/024)。这可能非常烦人(取决于你在循环中尝试做什么)。 - Gordon Davisson
我使用“cat file |”作为我的很多命令的开始纯粹是因为我经常使用“head file |”原型 - mat kelcey
这可能效率不高,但它比其他答案更具可读性。 - Savage Reader


选项1a: while循环:一次一行:输入重定向

#!/bin/bash
filename='peptides.txt'
echo Start
while read p; do 
    echo $p
done < $filename

选项1b: while循环:一次一行:
打开文件,从文件描述符中读取(在本例中为文件描述符#4)。

#!/bin/bash
filename='peptides.txt'
exec 4<$filename
echo Start
while read -u4 p ; do
    echo $p
done

选项2: For循环:将文件读入单个变量并解析。
此语法将根据标记之间的任何空白区域解析“行”。这仍然有效,因为给定的输入文件行是单字标记。如果每行有多个令牌,则此方法不起作用。此外,将整个文件读入单个变量对于大文件来说不是一个好策略。

#!/bin/bash
filename='peptides.txt'
filelines=`cat $filename`
echo Start
for line in $filelines ; do
    echo $line
done

107
2017-10-05 18:18



对于选项1b:文件描述符是否需要再次关闭?例如。循环可以是内循环。 - Peter Mortensen
将使用进程退出清除文件描述符。可以进行显式关闭以重用fd号。要关闭fd,请使用带有& - 语法的另一个exec,如下所示:exec 4 <& - - Stan Graves
感谢选项2.我遇到了选项1的巨大问题,因为我需要从循环中的stdin读取;在这种情况下,选项1将不起作用。 - masgo
你应该更清楚地指出选项2是 强烈气馁。 @masgo选项1b应该在这种情况下工作,并且可以通过替换与选项1a中的输入重定向语法结合使用 done < $filename 同 done 4<$filename (如果您想从命令参数中读取文件名,这很有用,在这种情况下您只需要替换 $filename 通过 $1)。 - Egor Hans


这并不比其他答案好,但是在没有空格的文件中完成工作的另一种方法(参见注释)。我发现我经常需要单行来挖掘文本文件中的列表,而无需使用单独的脚本文件。

for word in $(cat peptides.txt); do echo $word; done

这种格式允许我将它全部放在一个命令行中。将“echo $ word”部分更改为您想要的任何内容,您可以发出由分号分隔的多个命令。以下示例将文件的内容用作您可能编写的其他两个脚本的参数。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者,如果您打算像流编辑器一样使用它(学习sed),您可以将输出转储到另一个文件,如下所示。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我已经使用了上面这些,因为我使用了文本文件,我用它创建了每行一个单词。 (请参阅注释)如果你有空格,你不想拆分你的单词/行,它会有点丑陋,但相同的命令仍然如下工作:

OLDIFS=$IFS; IFS=$'\n'; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉shell只分裂换行符,而不是空格,然后将环境返回到之前的状态。此时,您可能需要考虑将所有内容放入shell脚本中,而不是将其全部压缩到一行中。

祝你好运!


59
2017-10-04 13:30



bash $(<peptides.txt)可能更优雅,但它仍然是错误的,Joao所说的正确,你正在执行命令替换逻辑,其中空格或换行是相同的。如果一行中有一个空格,则该循环对该一行执行TWICE或更多。因此,您的代码应该正确读取:$(<peptides.txt)中的单词;做....如果你知道一个事实没有空格,那么一行等于一个单词,你没事。 - maxpolk
@ JoaoCosta,maxpolk:我没有考虑过的好点。我编辑了原帖以反映它们。谢谢! - mightypile
运用 for 使输入令牌/行受到shell扩展的影响,这通常是不可取的;尝试这个: for l in $(echo '* b c'); do echo "[$l]"; done  - 正如你所看到的那样 *  - 即使最初是一个 引 literal - 扩展到当前目录中的文件。 - mklement0
@dblanchard:最后一个使用$ IFS的例子应该忽略空格。你试过那个版本吗? - mightypile
当关键问题得到解决时,这个命令如何变得更加复杂的方式,很好地说明了为什么使用它 for 迭代文件行是个坏主意。另外,@ mklement0提到的扩展方面(即使这可能通过引入转义引号来规避,这又会使事情变得更复杂,更不易读)。 - Egor Hans


使用while循环,如下所示:

while IFS= read -r line; do
   echo "$line"
done <file

笔记:

  1. 如果你没有设置 IFS 没错,你会失去缩进。

  2. 您应该几乎总是将-r选项与read一起使用。

  3. 不要读行 for


36
2018-06-09 15:09



为什么 -r 选项? - David C. Rankin
@ DavidC.Rankin -r选项可防止反斜杠解释。 Note #2 是一个详细描述的链接...... - Jahid
将其与另一个答案中的“read -u”选项相结合,然后它就是完美的。 - Florin Andrei
@FlorinAndrei:上面的例子不需要 -u 选项,你在谈论另一个例子吗? -u? - Jahid
查看了您的链接,并且很惊讶没有答案只是简单地链接您在注释2中的链接。该页面提供了您需要了解的有关该主题的所有信息。或者是不鼓励或只是链接的答案? - Egor Hans


还有一些其他答案没有涉及的事情:

从分隔文件中读取

# ':' is the delimiter here, and there are three fields on each line in the file
# IFS set below is restricted to the context of `read`, it doesn't affect any other code
while IFS=: read -r field1 field2 field3; do
  # process the fields
  # if the line has less than three fields, the missing fields will be set to an empty string
  # if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)
done < input.txt

使用进程替换从另一个命令的输出中读取

while read -r line; do
  # process the line
done < <(command ...)

这种方法比 command ... | while read -r line; do ... 因为while循环在当前shell中运行而不是在后者的情况下运行子shell。查看相关文章 在while循环内修改的变量不会被记住

例如,从空分隔输入读取 find ... -print0

while read -r -d '' line; do
  # logic
  # use a second 'read ... <<< "$line"' if we need to tokenize the line
done < <(find /path/to/dir -print0)

相关阅读: BashFAQ / 020 - 如何找到并安全地处理包含换行符,空格或两者的文件名?

一次从多个文件中读取

while read -u 3 -r line1 && read -u 4 -r line2; do
  # process the lines
  # note that the loop will end when we reach EOF on either of the files, because of the `&&`
done 3< input1.txt 4< input2.txt

基于 @ chepner的 回答 这里

-u 是一个bash扩展。对于POSIX兼容性,每个调用看起来都像 read -r X <&3

将整个文件读入数组(Bash版本早于4)

while read -r line; do
    my_array+=("$line")
done < my_file

如果文件以不完整的行结束(结尾处缺少换行符),则:

while read -r line || [[ $line ]]; do
    my_array+=("$line")
done < my_file

将整个文件读入数组(Bash版本4x及更高版本)

readarray -t my_array < my_file

要么

mapfile -t my_array < my_file

接着

for line in "${my_array[@]}"; do
  # process the lines
done

相关文章:


29
2018-01-14 03:30





如果您不希望读取被换行符破坏,请使用 -

#!/bin/bash
while IFS='' read -r line || [[ -n "$line" ]]; do
    echo "$line"
done < "$1"

然后以文件名作为参数运行脚本。


8
2018-03-08 16:10





假设你有这个文件:

$ cat /tmp/test.txt
Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR

有四个元素会改变许多Bash解决方案读取的文件输出的含义:

  1. 空白行4;
  2. 两条线上的前导或尾随空格;
  3. 保持各条线的含义(即每条线都是记录);
  4. 第6行没有以CR结尾。

如果希望逐行包含文本文件(包括空行和没有CR的终止行),则必须使用while循环,并且必须对最后一行进行备用测试。

以下是可能更改文件的方法(与之相比) cat 回报):

1)丢失最后一行以及前导和尾随空格:

$ while read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'

(如果你这样做 while IFS= read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt 相反,你保留前导和尾随空格,但如果它没有以CR终止,仍然会丢失最后一行

2)使用过程替换 cat 将一口气读取整个文件并失去各行的含义:

$ for p in "$(cat /tmp/test.txt)"; do printf "%s\n" "'$p'"; done
'Line 1
    Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space    
Line 6 has no ending CR'

(如果你删除了 " 从 $(cat /tmp/test.txt) 你逐字逐句阅读文件,而不是一口气。也可能不是意图...)


逐行读取文件并保留所有间距的最强大和最简单的方法是:

$ while IFS= read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'    Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space    '
'Line 6 has no ending CR'

如果您想剥离领先和交易空间,请删除 IFS= 部分:

$ while read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'
'Line 6 has no ending CR'

(没有终止的文本文件 \n虽然相当常见,但在POSIX下被认为是破碎的。如果你可以依靠尾随 \n 你不需要 || [[ -n $line ]] 在里面 while 循环。)

更多的是 BASH FAQ


8
2018-02-03 19:15





#!/bin/bash
#
# Change the file name from "test" to desired input file 
# (The comments in bash are prefixed with #'s)
for x in $(cat test.txt)
do
    echo $x
done

4
2017-11-14 14:23



这个答案需要提到的警告 mayypile的答案如果任何行包含shell元字符(由于未加引号的“$ x”),它可能会严重失败。 - Toby Speight
我真的很惊讶人们还没有想出平时 不要用for读取行... - Egor Hans


这是我的真实例子如何循环另一个程序输出的行,检查子串,从变量中删除双引号,在循环外使用该变量。我想很多人迟早会问这些问题。

##Parse FPS from first video stream, drop quotes from fps variable
## streams.stream.0.codec_type="video"
## streams.stream.0.r_frame_rate="24000/1001"
## streams.stream.0.avg_frame_rate="24000/1001"
FPS=unknown
while read -r line; do
  if [[ $FPS == "unknown" ]] && [[ $line == *".codec_type=\"video\""* ]]; then
    echo ParseFPS $line
    FPS=parse
  fi
  if [[ $FPS == "parse" ]] && [[ $line == *".r_frame_rate="* ]]; then
    echo ParseFPS $line
    FPS=${line##*=}
    FPS="${FPS%\"}"
    FPS="${FPS#\"}"
  fi
done <<< "$(ffprobe -v quiet -print_format flat -show_format -show_streams -i "$input")"
if [ "$FPS" == "unknown" ] || [ "$FPS" == "parse" ]; then 
  echo ParseFPS Unknown frame rate
fi
echo Found $FPS

在循环之外声明变量,设置值并在循环之外使用它 完成<<<“$(...)” 句法。应用程序需要在当前控制台的上下文中运行。命令周围的引号保持输出流的换行符。

然后读取子串的循环匹配 名称=值 对,分裂最后的右侧部分 = 字符,丢弃第一个报价,删除最后一个报价,我们有一个干净的值,以便在别处使用。


2
2018-06-30 08:15



虽然答案是正确的,但我确实理解它是如何在这里结束的。基本方法与许多其他答案提出的方法相同。此外,它完全淹没在你的FPS示例中。 - Egor Hans