DumpHunting.py

Metallkros

Nuovo Utente
60
18
Salve a tutti, ho creato un programma che analizza i file Dump contenenti email, utile per chi lavora con file di testo contenenti molte mail, e per cercare domini specifici, o per cercare la propria mail all'interno di file dump messi in rete.
Il programma è scritto in Python (premetto che esistono altri programmi di gran lunga migliori di questo, ma è il mio primo programma e mi piacerebbe avere un feedback)
il link a Git è il seguente >>>https://metallkros.github.io/DumpHunting/
Il codice è a disposizione di tutti, qualora qualcuno volesse migliorarlo.
è sia in italiano che in inglese, spero di non aver sbagliato sezione.
 

pabloski

Utente Èlite
2,868
916
Una cosa interessante sarebbe dare la possibilità di specificare espressioni regolari in input. Il programma dovrebbe usarle per cercare i relativi match. Mi è venuto in mente perchè scrivi sopra che si tratta di ricerca di email.
 

Metallkros

Nuovo Utente
60
18
Una cosa interessante sarebbe dare la possibilità di specificare espressioni regolari in input. Il programma dovrebbe usarle per cercare i relativi match. Mi è venuto in mente perchè scrivi sopra che si tratta di ricerca di email.
non ho capito bene potresti spiegarti meglio?
 

pabloski

Utente Èlite
2,868
916
non ho capito bene potresti spiegarti meglio?

Immagina di avere una lista di indirizzi email, mischiati però con altra roba. Come fai a distinguere efficacemente gli indirizzi dall'altra roba? Evitare cioè i falsi positivi.

Usi le espressioni regolari. Perchè un indirizzo email ha un formato ben definito, del tipo "nome@dominio.ext". Qualsiasi cosa non sia fatta così, chiaramente non può essere considerato un indirizzo email.

E addirittura potresti imporra che ext deve corrispondere ad uno dei top level domain esistenti. Tanto per dire, l'email pippo@miacasella.vattelapesca non esiste, perchè vattelapesca non è un tld registrato presso l'ICANN.
 
  • Mi piace
Reazioni: Metallkros

Metallkros

Nuovo Utente
60
18
Immagina di avere una lista di indirizzi email, mischiati però con altra roba. Come fai a distinguere efficacemente gli indirizzi dall'altra roba? Evitare cioè i falsi positivi.

Usi le espressioni regolari. Perchè un indirizzo email ha un formato ben definito, del tipo "nome@dominio.ext". Qualsiasi cosa non sia fatta così, chiaramente non può essere considerato un indirizzo email.

E addirittura potresti imporra che ext deve corrispondere ad uno dei top level domain esistenti. Tanto per dire, l'email pippo@miacasella.vattelapesca non esiste, perchè vattelapesca non è un tld registrato presso l'ICANN.
ora ho capito, l'dea è figa, ci dovrò lavorare sù un po, visto le mie limitate conoscenze
 

« MoMy »

Utente Èlite
1,529
771
Salve,
Butterei un occhio anche sul fatto che open tiene aperto il file anche a ciclo terminato tenendo occupata quella piccola porzione di memoria.
Di norma a operazione conclusa bisogna chiude il file con nomefile.close() oppure usando with. Lo puoi verificare con un semplice print(nomefile.closed). Se è aperto darà false, altrimenti true.
Un pallido esempio potrebbe essere:
Python:
def Prova():
    try:
        with open(input('Inserisci il nome del file da aprire\n'),"r") as var_Ric:
            Parola_ricerca = input('inserisci la parola da cercare\n')
            for i in var_Ric:
                if Parola_ricerca.lower() in i.lower():
                    print(i)
    except FileNotFoundError:
        print("nessun file trovato")
    print(var_Ric.closed)
Prova()
 

Entra

oppure Accedi utilizzando
Discord Ufficiale Entra ora!

Discussioni Simili