First Java class released

As I mentioned on my Introduction text at this project’s Github-repository, first step has taken to get source code as output from given URL.

UrlIO.java does the magic down at the ”connect”-method. It’s simple, and there’s no much to comment about it. Feel free to check it out.

Taking the next step means some Text Mining -software solution implementation. Perhaps I’m gonna write Data Type taking advantage of power of Java 8’s StringTokenizer, StringBuilder -classes to make some sense to mine outcoming link URLs, and texts written in paragraphs.

2 vastausta artikkeliin “First Java class released

  1. Voisi olla järkevämpää käyttää esim. jsoup kirjastoa, jolla voi suoraan lukea URL sisällön ja sisääntuleva data on strukturoitu html elementtin mukaan ja niistä pystyy helposti hakemaan mitä tarvii.

    Tykkää

    1. No joo, totta puhut! Aloitin nollasta, ja väännän kaiken rautalangasta, kun ei tässä tarkoitus ole mitään rakettitiedettä tehdä. Ymmärrän monimutkaisempien hakukoneiden, kuten Googlen kompleksisuuden ja siinä on monta äärimmäistä haastetta edessä. Esimerkiksi mitä tulee tekstin louhintaan, koneoppimiseen, ja teköälyn kehittämiseen, mitkä liittyy voimakkaasti myös kehittyneen hakukoneen kehittämiseen.

      Sitten jos botin pistäisi käytännössä 24/7 keräämään dataa, datamäärä on niin valtava, kun kuitenkin täytyisi jokin tiedon varastointimetodi keksiä, ja sitten on aikakompleksisuus kriittistä. Tietysti JSON -tiedon varastointiratkaisu, ja jos datan tallentaa puurakennelmaan, esimerkiksi binäärihaulla puurakenelman läpikäynti on nopeahkoa käsittääkseni.

      Ei sinulla, Petri, olisi kiinnostusta tulla tähän projektiin konsultoimaan rautalanka-koodiani ja toimittamaan tätä blogia kirjoittamalla postauksia noista projekti-repooni lisäämistä koodeista positiivisella sävyllä ja hyvän netiketin mukaisesti? Saisin vähän kollektiivisuutta muutoin yksinäiseen tietokoneharrastukseeni.

      Lisäksi saisit ansioluetteloon kivan lisän Java-konsultoinnista simppelin hakukonerobotti-projektissa, ja toimittaja/kriitikkokokemusta ja mahdollisesti suositukseni.

      Tykkää

Jätä kommentti