批处理处理文本文件去重复实现代码
最近需要将重复的内容去掉,所以就想到了使用bat或vbs实现,没想到网上已经有人写好了,测试也正好学习一下
使用方法:把文本拖到批处理上就行了。。。
@echooff
::Codebyoicu#lsxk.org2007/11/29
remchcp437>nul
::看情况使用,utf-8编码的文件不能少了chcp命令,一般无需使用,
::但无论是否使用都不支持utf-16的文件。
::pushd"%~dp1"
::如果不用pushd和popd,文件都要用绝对路径不能只用文件名。
if"%~1"==""goto:EOF
setoutputfile=%~dpn1_output%~x1
typenul>"%outputfile%"
echoWaiting...
for/F"tokens=1*delims=:"%%iin('findstr/n.*"%~1"')do(
findstr/B/E/C:"%%j""%outputfile%">nul2>&1||echo.%%j>>"%outputfile%"
)
pause
start""notepad"%outputfile%"
::popd
exit
【在oicu(Oh!Iseeyou!)的大作中提到:】
:去重复倒是行。。缺点就是慢和保留原有的空行了。
以下是vbs实现的代码
以下是这个脚本的源代码,复制后另存为vbs后缀的文件,双击即可运行。文件要放在C盘根下的Text.TXT,请特别注意:文本中一行一条记录,不要有空行。
ConstadOpenStatic=3
ConstadLockOptimistic=3
ConstadCmdText=&H0001
SetobjConnection=CreateObject("ADODB.Connection")
SetobjRecordSet=CreateObject("ADODB.Recordset")
strPathToTextFile="C:\"
strFile="Test.txt"
objConnection.Open"Provider=Microsoft.Jet.OLEDB.4.0;"&_
"DataSource="&strPathtoTextFile&";"&_
"ExtendedProperties=""text;HDR=NO;FMT=Delimited"""
objRecordSet.Open"SelectDISTINCT*FROM"&strFile,_
objConnection,adOpenStatic,adLockOptimistic,adCmdText
DoUntilobjRecordSet.EOF
SetobjFSO=CreateObject("Scripting.FileSystemObject")
setFp=objFSO.OpenTextFile("C:\test1.txt",8,True,0)
fp.WriteLineobjRecordSet.Fields.Item(0).Value
fp.close
setobjFSO=nothing
objRecordSet.MoveNext
Loop