命令如何查找有中文字符的行

nttwqz · 发表于 2022-5-19 11:41:28

本帖最后由 nttwqz 于 2022-5-19 22:45 编辑

python 3.10.4，简单试了一下，可用。

20220519
更新下，增加chardet检测文件编码，简单测试下，常见的ANSI、UTF-8、Unicode识别正常，其它编码未知。

# -*- coding: utf-8 -*-
# Python 3.10.4
# chardet是第三方库，需要在cmd中输入pip install chardet手动安装
import os, re
from chardet.universaldetector import UniversalDetector
from tkinter import filedialog
with filedialog.askopenfile(filetypes=[('文本文件', ['*.txt', '*.log']), ('所有文件', '*.*')]) as f:
txtfile = f.name
fname, fext = os.path.splitext(f.name)
# 使用 chardet 库判断文件编码
with open(txtfile, 'rb') as f:
u = UniversalDetector()
for i in f:
u.feed(i)
if u.done: # 当识别出编码后，done的值为True，否则为False
u.close()
current_encoding = u.result['encoding']
break
if not u.done:
current_encoding = input('无法识别文件编码，请手动输入：')
with open(txtfile, mode='r', encoding=current_encoding) as f:
print('查找文件 {} 中所有含中文的行\n'.format(os.path.abspath(f.name)))
sclines = ''
for line in f:
if re.search(r'[\u4e00-\u9fff]', line):
sclines += line
# 生成含中文行的新文件，文件编码与源文件保持不变
if sclines != '':
with open('{}_含中文的行{}'.format(fname, fext), mode='w', encoding=current_encoding) as f:
f.write(sclines)
print('含中文的行已写入到新文件：\n{}\n\n'.format(os.path.abspath(f.name)))
else:
print('该文件不含中文！\n')
os.system('pause')

复制代码

nttwqz · 发表于 2022-5-19 20:26:55

szwp 发表于 2022-5-19 12:13
findstr /r /c:"[^- '!-Z]" text.txt

还有高手！

请教下^- '!-Z的含义？我只是个卖唱的，只知道0-9a-z的含义。。。

nttwqz · 发表于 2022-5-20 10:39:59

bjay2008xmy 发表于 2022-5-20 10:21
难道不是ascii码，-到'和!到Z吗

'前面为什么有空格？

nttwqz · 发表于 2022-5-21 18:19:35

dos时代菜鸟发表于 2022-5-21 10:08
还是要搞个非中文的字符集，做排除用。比如英文的字符集

我曾经就有个奇葩的想法，把GBK中的所有中文相关字符都弄到一个记事本中用来匹配。。。

nttwqz · 发表于 2022-5-22 09:55:52

dos时代菜鸟发表于 2022-5-21 22:05
这也是个思路

尽量少在for中使用call，遍历内容较少时没什么，多的时候很影响效率，你用for /l直接echo和call方式echo一试便知。

nttwqz · 发表于 2022-5-22 11:50:53

dos时代菜鸟发表于 2022-5-22 10:04
用call 主要用到 exit /b
如果直接用 for ，就得用 goto

那就用goto跳出for循环。
你觉得用了call貌似觉得提高了效率，很可能效率反而更低。实际使用中，谁也不可能每次都测试不同写法的执行效率，所以还是少用为好。而且，你这也没到了需要权衡利弊到底用不用call的时候，完全可以不用。

1000时，不用call用时60毫秒，用call用时2120毫秒，是不用call的35倍。

10:59:54.53
10:59:54.59
10:59:56.71
请按任意键继续. . .

复制代码

@echo off
echo;%time%
for /l %%a in (1 1 1000) do (
echo;%%a
)>nul
echo;%time%
for /l %%a in (1 1 1000) do (
call :echoecho %%a
)>nul
echo;%time%
pause
exit
:echoecho
echo;%~1
goto :eof

复制代码

nttwqz · 发表于 2022-5-22 13:22:03

还是我以前想的方法简单

pushd %~dp0
findstr /i /g:GBK汉字.txt a.txt

GBK汉字.txt从网上搜集并整理，2万+汉字，删除了部分变成英文？并且英文？能匹配的“汉字”，有精力和条件的或者需要结果特别严禁精确的可以进一步整理，不过个人感觉，一般用途足够了，毕竟常用汉字才几千个。

GBK汉字.txt下载

GBK汉字_findstr匹配适用_GBK.7z (10.48 KB, 下载次数: 1)

		自动登录	找回密码
密码			注册

[求助] 命令如何查找有中文字符的行

点评

点评

点评

点评

点评