vendredi 27 février 2015

Job-Angebot Programmierauftrag / Programmieraufwand für einen Web Crawler

Hallo,



ich bin Programmier-Anfänger, daher bitte ich um Entschuldigung, wenn ich im Folgenden nicht alles exakt formuliere ;-)



Ich benötige etwas, dass man vermutlich als Web Crawler bezeichnet. Folgendes Ziel soll erreicht werden:



1) In Deutschland gibt es ca. 240.000 registrierte Personen eines bestimmten Berufsstandes



2) Eine unbekannte Menge dieser Personen hat eine Homepage



3) Diese Homepages enthalten bestimmte Schlagwörter, durch die sie identifiziert werden können (Typisches Fachjargon des Personenkreises)



4) Auf der Homepage oder auf Unterseiten müssen diese Personen Pflichtangaben machen, die über die üblichen Informationen des Telemediengesetzes hinausgehen



5) Diese Pflichtangaben können sicher identifiziert werden durch bestimmte Zeichenfolgen (z. B. Angabe von bestimmten rechtlichen Normen) und einer Registrierungsnummer, die ein bestimmtes Format hat wie z. B. D-****-*****-** (* ist jetzt mal der Platzhalter)



6) Das Programm soll diese Homepages finden/identifizieren und alle Mailadresse extrahieren, die auf der Homepage zu finden sind



7) Wenn nicht zu aufwändig, soll noch ein Abgleich stattfinden zwischen der Mailadresse und der Domain, auf der sie gefunden wurde. Sollte Domain und Mailadresse nicht übereinstimmen, soll die Mailadresse nicht in die Datenbank. Beispiel: Domain Auto.de - Gebrauchtwagen & Neuwagen kaufen & verkaufen. Gefunden werden die Mailadresse des Domaininhabers info@auto.de und eine Mailadresse, die aufgrund von Zwängen des TMG ausgelesen wird z. B. info@ihk.de. Das Programm erkennt, dass …@ihk.de nicht mit auto.de übereinstimmt und verzichtet auf Speicherung dieser Mail in der Datenbank. Diese Funktion wäre jedoch eher „Bonus“ und nicht zwingend.



8) Die gefundenen Mailadressen sollen in einer Datenbank gesammelt werden



Ich habe in der Sache mal recherchiert, weil ich nicht einschätzen kann, in welcher Sprache so etwas programmiert werden müsste, um am besten zum Erfolg zu kommen. In einem PHP-Forum wurde geschrieben, dass java dazu geeignet wäre.



Jetzt könnte ich mich natürlich in die Sache einarbeiten und irgendwann zum Ziel kommen oder das programmieren lassen. Ich kann den Aufwand nicht einschätzen, aber aus meiner Laiensicht sind die „Filter“ recht klar definiert und überschaubar.



Was würde das für einen Programmieraufwand in Zeit und/oder Geld ungefähr nach sich ziehen?



Danke für die Antworten :)





Job-Angebot Programmierauftrag / Programmieraufwand für einen Web Crawler

0 commentaires:

Enregistrer un commentaire