AU3如何判断两个文件是否重复?[已解决]
本帖最后由 cashiba 于 2017-9-26 17:25 编辑两个同样的文件,或文件名不同,或创建时间不同,或一些其它外在属性不同.....
用AU3如何判断呢?
搜了一下,好像类似的帖子很少....
对文件的内在结构不懂,度了一下,说内容相同的文件其文件头文件尾的数据可能会有不同,还有MD5、hash值什么的相同可判断文件相同。
找到一段python语言的写的重复文件判断代码,但是不懂python,基本上看不懂,哪位大侠能将其转为AU3呢?
#!/usr/bin/env python
#coding=utf-8
'''
Created on Nov 30, 2016
@author: fangcheng
'''
from __future__ import print_function
from operator import itemgetter
import os
import time
'tt为浮点型日期,换化为年月日时分秒格式时间'
def timeYS(tt):
t1 = time.localtime(tt)
t2 = time.strftime("%Y-%m-%d %H:%M:%S",t1)
return t2;
class File():
'''
copy move remove
'''
allfilecount = 0
rddfilecount = 0
singlefiles={}
rddfiles={}
rdddirs={}
def __init__(self):
'''
Constructor
'''
def getFileMsg(self,filepath):
'''
以元组(filepath,ftime,size)形式输出文件信息
'''
if os.path.isfile(filepath):
size = os.path.getsize(filepath)#bytes B
if size <= 1024:
size ='{0}B'.format(size);
elif size <= 1024*1024:
size = size/1024
size ='{0}K'.format(size);
else:
size = size/1024/1024
size ='{0}M'.format(size);
#filename = os.path.basename(filepath)
ftime = timeYS(os.path.getmtime(filepath))
return (filepath,ftime,size)
return ()
def setRedundanceFile(self,filepath):
'''
根据文件名称和大小判断文件是否重复,文件信息:元组(filepath,mtime,size) ,getFileMsg返回值
1. 遍历某一目录下所有文件
2. 将文件的名称及大小组成一个字符串,做为 key 放入字典 dict1 ,其 value 为 文件信息
3. 每次放入时时判断 key 是否存在,若存在,就将 文件信息 放入字典 dict2
4. dict2 的 key 为 文件名称,value为 文件信息 列表 list1
'''
try:
if os.path.isdir(filepath):
for fil in os.listdir(filepath):
fil = os.path.join(filepath,fil)
self.setRedundanceFile(fil)
elif os.path.isfile(filepath):
self.allfilecount = self.allfilecount + 1
size = os.path.getsize(filepath)
filename = os.path.basename(filepath)
f = self.getFileMsg(filepath)
filekey = '{0}_{1}'.format(filename, size)
if self.singlefiles.has_key(filekey):
self.rddfilecount = self.rddfilecount + 1
#增加规则:发现一个重复文件时,在父目录下文件数加1,若是首次发现则取该文件在总文件列表的父目录,其数目也加1
pardir = os.path.dirname(filepath)
if self.rdddirs.has_key(pardir):
self.rdddirs = self.rdddirs.get(pardir)+1
else:
self.rdddirs = 1
if self.rddfiles.has_key(filekey) :
self.rddfiles.append(f)
else:
self.rddfiles =
f = self.singlefiles.get(filekey)
self.rddfiles.append(f)
#若是首次发现则取该文件在总文件列表的父目录,其数目也加1
pardir = os.path.dirname(f)
if self.rdddirs.has_key(pardir):
self.rdddirs = self.rdddirs.get(pardir)+1
else:
self.rdddirs = 1
else:
self.singlefiles=f
else:
return
except Exception as e:
print(e)
def showFileCount(self):
print(self.allfilecount)
def showRedundanceFile(self,filepath):
'''
根据文件名称和大小判断文件是否重复
'''
self.allfilecount = 0
self.rddfilecount = 0
self.singlefiles={}
self.rddfiles={}
self.setRedundanceFile(filepath)
print('the total file num:{0},the redundance file num(not including the first file):{1}'.format(self.allfilecount,self.rddfilecount))
print('-----------------------------------------')
for k in self.rddfiles.keys():
for l in sorted(self.rddfiles.get(k), key=itemgetter(1)): #按修改日期升序排列
print(l);
print('');
print('------------------------------------------')
def showCanRemoveFile(self,filepath):
'''
根据文件名称和大小判断文件是否重复
输出按修改时间较旧的文件
'''
self.allfilecount = 0
self.rddfilecount = 0
self.singlefiles={}
self.rddfiles={}
rmlist = []
self.setRedundanceFile(filepath)
for k in self.rddfiles.keys():
tmplist = sorted(self.rddfiles.get(k), key=itemgetter(1))
tmplist.pop()
rmlist.extend(tmplist)
for rl in rmlist:
print(rl)
def rdddirstat(self):
'''
按目录统计文件重复个数
输出:目录/tmp重复个数5,是指/tmp目录下有5个文件在其他地方也存在
'''
if len(self.rdddirs)> 0 :
print('The redundance file statistics by dirs:')
for rd in self.rdddirs.keys():
print('{0} {1}'.format(rd, self.rdddirs.get(rd)))
else:
print('There are no redundance files')
if __name__ == '__main__':
f = File()
filepath = os.getcwd()
#filepath = '/scripts'
f.showRedundanceFile(filepath) #查看多余的文件
#f.showCanRemoveFile(filepath)#按修改时间给出比较旧的多余文件
f.rdddirstat() #按目录统计重复文件个数 用md5判断最普遍,,一般都是用这个。。 怎么判断呢?只找到FileGetAttrib,获取文件外部属性的....
文件的MD5或hash或 sha1用什么函数获取呢? md5最快,有重复再检测其他。
上面的python代码的用的是判断文件属性里的信息 回复 3# cashiba
帮助文件中搜索_Crypt_HashFile
左边是haozip自带的md5计算。。右边是我高仿的au3版
基本上,就是楼上那个函数的作用了
可以用Beyond Compare 回复cashiba
_Crypt_HashFile
yamakawa 发表于 2017-9-23 19:49 http://www.autoitx.com/images/common/back.gif
原来_Crypt_HashFile函数就是做这个用的,以前看到这个函数不太懂......
那个CRC32值是怎么算来的呢?找到_WinAPI_ComputeCrc32
计算内存块的 CRC32 校验和.看不懂。
{:face (52):} 可以用Beyond Compare
zzwwdd 发表于 2017-9-24 15:44 http://www.autoitx.com/images/common/back.gif
用第三方工具有时不如用自己做的小巧随意....
{:face (125):} MD5值对比一波来的快一点吧。 回复 8# cashiba
我用的是这个。。。忘记是什么地方收集来的。。; #FUNCTION# ;===============================================================================
;
; Name...........: _CRC32ForFile
; Description ...: Calculates CRC32 value for the specific file.
; Syntax.........: _CRC32ForFile ($sFile)
; Parameters ....: $sFile - Full path to the file to process.
; Return values .: Success - Returns CRC32 value in form of hex string
; - Sets @error to 0
; Failure - Returns empty string and sets @error:
; |1 - CreateFile function or call to it failed.
; |2 - CreateFileMapping function or call to it failed.
; |3 - MapViewOfFile function or call to it failed.
; |4 - RtlComputeCrc32 function or call to it failed.
; Author ........: trancexx
;
;==========================================================================================
Func _CRC32ForFile($sFile)
Local $a_hCall = DllCall("kernel32.dll", "hwnd", "CreateFileW", _
"wstr", $sFile, _
"dword", 0x80000000, _ ; GENERIC_READ
"dword", 3, _ ; FILE_SHARE_READ|FILE_SHARE_WRITE
"ptr", 0, _
"dword", 3, _ ; OPEN_EXISTING
"dword", 0, _ ; SECURITY_ANONYMOUS
"ptr", 0)
If @error Or $a_hCall = -1 Then
Return SetError(1, 0, "")
EndIf
Local $hFile = $a_hCall
$a_hCall = DllCall("kernel32.dll", "ptr", "CreateFileMappingW", _
"hwnd", $hFile, _
"dword", 0, _ ; default security descriptor
"dword", 2, _ ; PAGE_READONLY
"dword", 0, _
"dword", 0, _
"ptr", 0)
If @error Or Not $a_hCall Then
DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFile)
Return SetError(2, 0, "")
EndIf
DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFile)
Local $hFileMappingObject = $a_hCall
$a_hCall = DllCall("kernel32.dll", "ptr", "MapViewOfFile", _
"hwnd", $hFileMappingObject, _
"dword", 4, _ ; FILE_MAP_READ
"dword", 0, _
"dword", 0, _
"dword", 0)
If @error Or Not $a_hCall Then
DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFileMappingObject)
Return SetError(3, 0, "")
EndIf
Local $pFile = $a_hCall
Local $iBufferSize = FileGetSize($sFile)
Local $a_iCall = DllCall("ntdll.dll", "dword", "RtlComputeCrc32", _
"dword", 0, _
"ptr", $pFile, _
"int", $iBufferSize)
If @error Or Not $a_iCall Then
DllCall("kernel32.dll", "int", "UnmapViewOfFile", "ptr", $pFile)
DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFileMappingObject)
Return SetError(4, 0, "")
EndIf
DllCall("kernel32.dll", "int", "UnmapViewOfFile", "ptr", $pFile)
DllCall("kernel32.dll", "int", "CloseHandle", "hwnd", $hFileMappingObject)
Local $iCRC32 = $a_iCall
Return SetError(0, 0, Hex($iCRC32))
EndFunc ;==>_CRC32ForFile 回复cashiba
我用的是这个。。。忘记是什么地方收集来的。。
yamakawa 发表于 2017-9-25 20:05 http://www.autoitx.com/images/common/back.gif
有了自定义函数就不是问题了,虽然不会用Dllcall,也看不懂......
{:face (288):} 好东西!!!
页:
[1]