Sebab juga Kristus telah mati sekali untuk segala dosa kita, Dia yang benar untuk orang-orang yang tidak benar, supaya Dia membawa kita kepada Tuhan; Dia, yang telah dibunuh dalam keadaanNya sebagai manusia, tetapi yang telah dibangkitkan menurut Roh. (1 Petrus 3:18)

Rabu Wage, 8 September 2010
Home | Kontak Saya | Eureka! | ArenA | Bimbingan Tugas Akhir | Download | Links
Algoritma & Pemrograman 1 | Algoritma & Pemrograman 2 | Struktur Data | Teknik Kompilasi | Kecerdasan Buatan
KDD & Data Mining | Web Mining | E-Business | Systems Analysis and Design
 
 Search Engine
Manfaatkan Google untuk memperoleh sejumlah informasi yang Anda inginkan dalam hansmichael.com.
 
Kutipan
There is a long way from data to knowledge.(Menjadi renungan untuk konteks Data Mining)

Clifford Stoll (Author)
 
Tokoh Hari Ini
Blaise Pascal

Blaise Pascal lahir pada 19 Juni 1623 di Rouen, Perancis. Ia meninggal dunia pada tahun 1666 di Perancis. Pascal adalah ahli matematika, fisika, penulis prosa, dan dikenal sebagai salah satu filsuf Kristen abad pertengahan. Pascal menemukan mesin penjumlah yang mengatur penambahan carry antar digit dan segitiga Pascal yang memuat koefisien-koefisien deret binomial. Ia juga penemu roda gerobak sampai roda rolet. Pascal juga meletakkan dasar bagi teori modern probabilitas: hukum Pascal untuk Tekanan. Menariknya, walaupun ia ahli dalam berbagai bidang sains, pemikiran religiusnya sebagai filsuf Kristen menekankan doktrin yang lebih mengutamakan pengalaman dengan Tuhan lebih melalui hati daripada melalui nalar.

 
Berita Terakhir

Buat TTS Cuma Tiga Menit

Deskripsi Tugas VIII NLP

Download File Pelengkap Tugas AI

Tugas V - Tagset dan Grammar Bahasa Indonesia

Proyek II Web Mining - Versi 2.0

Proyek II Web Mining - Versi 1.0

Handout Presentasi Kuliah ARM III: Apriori.

Tugas 8 - Assignment Kuliah DM & KDD

Materi Kuliah Algoritma dan Pemrograman 1

Talita, DocSearch, KoranNorak

Materi UTS Data Mining dan KDD

Materi UTS Alpro1 & Web Mining

20 Points Quiz 1 Alpro 1

File-file Deskripsi Tugas

Penyerahan Laporan Assignment 2 Web Mining

Web Mining

Materi UAS Web Mining Semester Genap 2006/2007

Daftar Metode yang TIDAK DAPAT Dipakai

Download File Kuliah Kecerdasan Buatan

Penambahan Soal Algoritma dan Pemrograman 1

Nilai Kuliah Algoritma dan Pemrograman 1 STTS

Pertama, Situs Tanya Jawab Alkitab

Materi UTS Algoritma 1 dan Data Mining-KDD

Turbo Pascal menjadi Software Antik

Rekayasa Perangkat Lunak

Extended Abstract Tugas Akhir

Life is Beautiful?

Eureka! dan Arena

Konfirmasi Materi Proyek II yang Disetujui

Penanganan Trouble Registrasi dan Upload

Download Materi UAS

Materi UAS Struktur Data Genap 2004/2005

Materi UAS Kecerdasan Buatan Genap 2004/2005

Lebih dari 100 Abstrak Tugas Akhir

Deadline Proyek I dan Tugas III

Komponen Penilaian Tugas Akhir

Materi UTS Kecerdasan Buatan Genap 2004/2005

Materi UTS Struktur Data Genap 2004/2005

Proyek Software Assignment I

Kuliah Pengganti

MKP Bernilai 'D' atau 'E' Tidak Perlu Dibatalkan

Workshop IT for Non-IT Executive PLN Jatim

 
 

Web Mining (EC706 dan CS708)

Semester Gasal 2007/2008

Kuliah Web Mining (EC706) telah ditawarkan sebagai salah satu mata kuliah pilihan (MKP) di Sekolah Tinggi Teknik Surabaya, Jurusan Teknik Informatika sejak Semester Gasal 2004/2005. Pada saat itu mata kuliah ini ditawarkan untuk bidang peminatan (major) E-Commerce. Sejauh yang saya ketahui ini adalah penyelenggaraan kuliah Web Mining yang pertama di Indonesia. (Jika kalimat ini tidak tepat, sudilah mengontak saya, supaya saya menghapus informasi yang salah ini).

Pada semester genap 2006/2007 dan semester gasal 2007/2008 mata kuliah ini ditawarkan juga untuk bidang peminatan Computer Science.

Secara umum muatan kuliah ini mencakup ketiga aspek dari taksonomi web mining (Web Content Mining, Web Structure Mining, Web Usage Mining) plus Information Retrieval (macam pemodelan dan evaluasinya), serta Text Processing.

Contoh Soal

Berikut adalah contoh soal dari Ujian Tengah Semester (UTS) dan Ujian Akhir Semester (UAS) sejak mata kuliah ini diselenggarakan.

Gunakan bait-bait lagu Maju Tak Gentar (karya Cornel Simanjuntak) di bawah ini untuk menjawab beberapa soal.

Maju tak gentar membela yang benar

Maju tak gentar hak kita diserang

 

Maju serentak mengusir penyerang

Maju serentak tentu kita menang

 

Bergerak bergerak serentak serentak

Menerkam menerjang terjang

 

Tak gentar tak gentar menyerang menyerang

Majulah majulah menang

Anggaplah 4 bait di atas adalah 4 dokumen yang berbeda. Selain itu perhatikan pula bahwa:

  • Case folding telah dilakukan, sehingga semua term telah menjadi lower case.

  • Semua stop dan common words (yang ditunjukkan dengan kata-kata bergaris bawah) sebagaimana lazimnya sebuah IR system, telah dieliminasi (tidak ikut diproses lebih lanjut).

  • Anggap juga algoritma stemming Bahasa Indonesia telah dilakukan dengan sangat sempurna, artinya semua kata jadian (yang ditunjukkan dengan kata-kata tercetak miring) dapat dikonversi ke kata dasarnya yang benar.

  • Query modification telah dilakukan dengan memanfaatkan thesaurus Bahasa Indonesia dan telah diketahui bahwa: serang, terjang, dan terkam dianggap memiliki arti yang sama. Pada kasus ini gunakan "serang" untuk mewakili ketiganya.

  • Untuk mempermudah, term list tidak disimpan dengan menggunakan trie, B-Tree, perfect hashing, ataupun front coding, tetapi hanya ascending order sorted array.

  •  A. Web Mining Taxonomy

    A1. Untuk masing-masing pernyataan di bawah ini, sebutkan / jawab dengan kategori utama dari Web Mining Taxonomy yang paling relevan:
    1. Banyak memanfaatkan teori graph
    2. Banyak memanfaatkan data mining tasks untuk mengolah server log file atau cookies.
    3. Hakekatnya adalah Modern Information Retrieval.
    A2. Apabila diberikan arsitektur sebuah sistem Web Mining seperti gambar di bawah ini, prediksilah sistem ini seharusnya merupakan kategori web mining yang mana (dari Web Mining Taxonomy)?

    Jelaskan alasan jawaban Anda. Jelaskan pula bagaimana Amazon.com memanfaatkan arsitektur seperti ini untuk bisnisnya.

    A3. Sebuah web search engine dapat dipandang dari 2 perspektif yang berbeda, yang masing-masing adalah kategori Web Mining Taxonomy. Sebutkan subdisiplin yang mana (dari web mining taxonomy) dan untuk setiap jawaban, berikan alasan singkat mengapa demikian? Untuk setiap subdisiplin, jangan menjawab alasan singkat lebih dari 3 baris jawaban.

     B. Crawler

    B1. Apa yang paling membedakan cara Yahoo.com dan cara Google.com dalam menangani Topics Directory dan Search Engine mereka pada awal bisnis mereka?
    B2. Setidaknya terdapat belasan issue / tuntutan yang harus ada dalam sebuah program Crawler yang baik menurut Pierre Baldi dan Soumen Chakrabarty:
    1. Sebutkan dan berikanlah penjelasan singkat -- masing-masing jawaban cukup dua sampai tiga baris saja -- 8 (delapan) issue di antaranya.
    2. Dari jawaban di atas, tunjukkan bagaimana .Net atau Java mengimplementasikan 4 (empat) issue di antaranya? Lengkapi jawaban Anda dengan beberapa baris code program.
    B3. Perhatikan Algoritma Simple Crawler di bawah ini untuk menjawab soal nomor 5 dan 6.a:

    PROCEDURE Simple_Crawler(S0, D, E)

    --------------------------------------

    1.  Q <--- S0

    2.  DO WHILE NOT (isQueueEmpty(Q))

    3.     u <--- Dequeue(Q)

    4.     d(u) <--- Fetch(u)

    5.     CALL Store(D, (d(u),u))

    6.     L <--- Parse(d(u))

    7.     FOR EACH v IN L

    8.         CALL Store(E, (u,v))

    9.         IF NOT (v Î D OR v Î Q)

    10.           THEN Enqueue(Q,v).

    11.    END FOR

    12. END DO

    1. Tuliskan segmen program pendek hanya untuk melakukan d(u) <--- Fetch(u) melalui VB.NET atau C#. Anggap fetch dilakukan pada halaman web, bukan FTP. Bantuan: Pada program yang Anda gunakan, perintah ini terdapat dalam function getPageContent.
    2. Berikan penjelasan singkat berupa apakah hasil eksekusi segmen program jawaban soal (a) di atas? Jawaban Anda harus secara teknis mereferensi pada struktur data/type pada segmen program. Tidak perlu bercerita konsepnya.
    B4. Gunakan algoritma Simple Crawler pada soal B3. Anggaplah world wide web hanya berisi 7 (tujuh) situs yang hubungannya ditunjukkan melalui digraph di bawah ini. Tunjukkan isi D dan E -- harus lengkap dengan nomor urut perolehannya -- jika crawling dilakukan dengan seed URL (s0) C.com, sedangkan prioritas pemilihan outlink dilakukan secara alphabetical order. Gunakan angka-angka di dalam kurung untuk menggantikan simbol u dan v.

    Petunjuk: Karena lembar jawab yang terbatas, gunakan bagian kosong pada kertas soal ini untuk tracing algoritma, karena yang ditulis pada lembar jawab cukup hasil akhirnya (isi D dan E dengan urutan yang benar).

    C. Information Retrieval Concepts

    C1. Jelaskan perbedaan antara Exact Match Retrieval dengan Best Match Retrieval dalam sebuah sistem IR . Berikan contoh masing-masing.
    C2. Untuk arsitektur sistem Information Retrieval di bawah, gantilah huruf (a) sampai (f) dengan entity atau subsistem yang tepat.

    C3. Kelima pernyataan di bawah ini masing-masing menunjuk sejumlah term/istilah yang biasa digunakan dalam web mining, khususnya information retrieval. Sebutkan masing-masing istilah yang ditunjuk. Bantuan: Kelima istilah tersebut menggunakan bahasa Inggris.
    1. Selain stemming, case folding, punctuation, stop/common word; terdapat sebuah task dalam text operation yang mengubah semua irregular words dalam bahasa Inggris menjadi kata dasarnya.
    2. Jenis query yang mampu menangani keberadaan 2 (atau lebih) term terdapat dalam kalimat yang sama atau tidak, atau satu dengan lainnya bersebelahan langsung (seperti soal nomor 9).
    3. Koleksi teks bahasa alami yang biasanya dalam ukuran besar dan sering digunakan untuk pengujian text/web mining tasks.
    4. Subdisiplin dalam web mining yang berguna untuk mengubah semi-structured format (seperti HTML page) menjadi structured-format (seperti bentuk yang suitable untuk relational database).
    5. Salah satu sistem information retrieval seperti AskJeeves yang mampu menerima query dalam bahasa alami seperti: "Who is first Indonesia president?"
    C4. Jawablah dengan singkat:
    1. Apa yang berubah secara signifikan pada definisi Information Retrieval dari Salton (1989), Kowalski (1997), dan Wikipedia (2007)? Jangan menjawab lebih dari 3 baris jawaban.
    2. Sebutkan saja -- tidak perlu dijelaskan -- 2 (dua) jenis aplikasi web internet yang termasuk dalam kategori Information Retrieval. Jangan menjawab dengan nama domainnya.

     D. Boolean Model Information Retrieval

    D1. (Perhatikan bait-bait lagu "Maju Tak Gentar") Gambarlah representasi biner dalam term-document matrix dan kemudian tunjukkan dokumen-dokumen yang dihasilkan query-query berikut jika digunakan model IR Boolean. Untuk setiap query yang diminta gambarlah diagram Venn dan arsirlah daerah yang dimaksud untuk memperjelas perolehan jawaban Anda:
    1. serentak AND (maju OR gerak)
    2. NOT (maju AND serang)
    3. maju AND (NOT serang)
    D2. Jelaskan maksud penggunaan Proximity Operators dari beberapa query di bawah ini:
    1. "Susilo Bambang Yudhoyono"
    2. Demokrasi /3 Partai
    3. "jusuf kalla" /S golkar
    4. sby /P "partai demokrat"
    D3. (Perhatikan bait-bait lagu "Maju Tak Gentar") Jika diberikan Boolean Query Q: (serentak OR maju) AND (NOT serang) , tunjukkanlah:
    1. Disjunctive Normal Form (DNF) dari Q, dan representasinya melalui Diagram Venn.
    2. Conjunctive Normal Form (CNF) dari Q, dan representasinya melalui Diagram Venn.
    D4. Diberikan koleksi 7 buah dokumen d1 sampai d7. Proses search dilakukan dengan tiga buah term t1, t2, dan t3, yang frekuensi term di dalam setiap dokumen disajikan pada tabel berikut ini:
    dokumen/term t1 t2 t3
    d1 0 0 0
    d2 4 1 0
    d3 1 0 3
    d4 0 5 9
    d5 8 0 0
    d6 8 2 0
    d7 2 4 9

    Jika diberikan Boolean Query Q = (t1 OR t2) AND (NOT t3), tunjukkanlah:

    1. Disjunctive Normal Form (DNF) dari Q.
    2. Conjunctive Normal Form (CNF) dari Q.
    3. Representasi DNF jawaban Anda melalui Diagram Venn.

     E. Vector Model Information Retrieval

    E1.

    Anda mengenal terms "Inverted Index" dan "Inverse Document Frequency" yang digunakan dalam Vector Model Information Retrieval.

    1. Mengapa index harus "inverted" ?

    2. Mengapa document frequency harus "inverse" ?

    E2. (Perhatikan bait-bait lagu "Maju Tak Gentar") Tulislah kalimat query dalam bahasa Indonesia yang eksekusi internalnya dilakukan dengan statements berikut ini, dan tunjukkan pula dokumen-dokumen yang dihasilkan:

     

    with

      D1(did, pos) as (select did, pos from POSTING

          where tid = 'serentak'),

      D2(did, pos) as (select did, pos from POSTING

          where tid = 'maju'),

      D3(did) as (select did from POSTING

          where tid = 'menang'),

      D4(did) as (select D2.did from D2, D1

          where D2.did = D1.did and D1.pos - 1 = D2.pos),

          (select did from D4) intersection

          (select did from D3)

     

    E3. Tunjukkan pengkodean dengan front coding untuk 5 (lima) term yang diambil secara urut dari sebuah konkordansi di bawah ini. Perhatikan bahwa tepat sebelum 'cemar' adalah term 'celup'.

    cemar, cemas, cemburu, cemerlang, cemeti.

    E4. Diberikan koleksi 6 buah dokumen D1 sampai D6. Proses search dilakukan dengan referensi tiga buah term t1, t2, dan t3, yang frekuensi term pada masing-masing dokumen disajikan pada tabel berikut ini:
    dokumen/term t1 t2 t3
    d1 7 5 2
    d2 4 2 3
    d3 0 2 4
    d4 1 0 7
    d5 3 6 0
    d6 5 5 4
    1. Jika query yang diberikan adalah (t1, t2, t3), tanpa pembobotan key, tentukan ranking dari search resultnya, jika yang dipakai hanyalah term weight dari tabel di atas.

    2. Bentuklah sebuah inverted view untuk koleksi dokumen di atas dengan menyalin tabel dan mengganti semua angkanya dengan bobot-bobot tf.idf. Metode normalisasi idf yang digunakan adalah loge((N-ft)/ft), sedangkan untuk tf memakai fd,t / max(fd,t).

    3. Jika "weighted query term" yang diberikan adalah (5t1, 4t2, 3t3), tentukan ranking dari search resultnya, jika digunakan cosine similarity dengan referensi inverted view jawaban soal nomor 4.b di atas.

    E5. (Perhatikan bait-bait lagu "Maju Tak Gentar") Untuk implementasi dengan model IR Vectorial. Untuk perhitungan tf dan idf, keduanya menggunakan normalisasi dari Cornell SMART System:
    1. Gambarlah term-document matrix-nya.
    2. Gambarlah inverted index dengan term weights yang menggunakan rumus tf.idf. Untuk keperluan ini letakkan nilai idf pada term list, sedangkan semua nilai tf.idf pada posting list.
    3. Dengan menggunakan inverted index soal (b) dapatkan semua nilai RSV (Retrieval Status Value) dari pasangan query-document yang diperoleh melalui cosinus distance, dan akhirnya tulislah ranking relevansi semua dokumen terhadap kedua query ini (term yang tidak ditulis pada query berarti nilainya=0):
    1. q1=((gerak:3)(serang:5))

    2. q2=((maju:2)(gentar:2)(serang:2))

    E6. Mereferensi pada tabel term-dokumen yang digunakan pada soal D4:
    1. Dengan menggunakan pair-wise document similarity untuk i=1,2,3, ....., t, tentukanlah rankingnya, jika query yang diberikan adalah (3t1, 1t2, 2t3).

    2. Tulislah sebuah inverted view untuk koleksi dokumen di atas dengan menyalin tabel dan mengganti semua angkanya dengan bobot-bobot tf.idf. Metode normalisasi idf yang digunakan adalah 1/idf, sedangkan untuk tf memakai fd,t / Sfd,t.

     F. Text Operations

    F1. Perhatikan beberapa rule stemmer Porter di bawah ini:

     

    (m=1 and *o) -> E

    (*v*) ING ->

    (*v*) ED ->

    (*v*) Y -> I

    (*d and not (*L or *S or *Z)) -> single letter

    (m>1) E ->

    Dengan menggunakan rule-rule di atas, tentukan hasil stem kata-kata berikut ini:

    1. bled
    2. sky
    3. rate
    4. fil
    5. sing
    6. fall

    Perhatikan: Sebuah rule hanya dipakai oleh 1 soal, jangan menerapkan 2 atau lebih rule secara berurutan untuk sebuah soal.

    F2. Jelaskan dua kesalahan yang mungkin terjadi pada sebuah algoritma stemming. Untuk masing-masing kesalahan, berikan pasangan contohnya.

     G. Web Structure Mining

    G1. .Jawablah beberapa pertanyaan berikut untuk menunjukkan pemahaman Anda tentang algoritma HITS. Anda pasti telah belajar tracing perhitungan algoritmanya, tetapi saya tidak menanyakannya. Sorry..... Karena saya yakin Anda pasti menguasai perhitungannya. Saya tanya konsepnya saja.
    1. Dengan menggunakan gambar digraph, tunjukkan dan jelaskan pengertian base subgraph dan root set yang harus diketahui terlebih dahulu sebelum algoritma HITS dilakukan.
    2. Jelaskan darimana root set diperoleh?
    3. Kemudian bagaimana cara mendapatkan base subgraph-nya?
    4. Pada rumus originalnya, Hubs diperoleh melalui Authorities, dan sebaliknya. Namun demikian dapat diperoleh rumus baru yang mempermudah perhitungan iteratif. Tunjukkan berturut-turut: rumus originalnya; rumus barunya; dan bagaimana perolehan rumus baru dari rumus originalnya.

    Petunjuk: Hubungkan kedua jawaban dari pertanyaan b dan c dengan search engine.

    G2. Terdapat 4 (empat) halaman A, B, C, dan D yang direpresentasikan dengan menggunakan digraph di bawah ini.

    Dapatkan rankingnya melalui algoritma PageRank. Bulatkan semua perhitungan sampai 2 titik desimal terdekat.

    1. Dengan menggunakan substitusi pada beberapa persamaan linear simultan.
    2. Secara iteratif, sampai iterasi 3 (Perhatikan bahwa pemberian harga awal adalah pada iterasi 0).
    G3.

    Dengan menggunakan digraph pada soal nomor G2, tunjukkan bahwa melalui kedua pendekatan perhitungan untuk HITS di bawah ini akan menghasilkan ranking yang sama. Perhatikan bahwa pemberian harga awal adalah pada iterasi 0. JANGAN melakukan normalisasi dengan membagi jumlah halaman.

    1. Hi=M*Ai-1 dan Ai=MT*Hi-1, untuk i=4.
    2. Hk=M*MT*Hk-i dan Ak=MT*M*Ak-1, untuk k=2.
    G4. Rankinglah halaman-halaman web yang strukturnya ditunjukkan pada digraph di bawah ini dengan menggunakan PageRank.

    1. Tunjukkan rankingnya dengan menggunakan solusi persamaan linear simultan.
    2. Lakukan perhitungan ranking sampai 4 (empat) iterasi saja, dengan dumping factor = 0,5.
       

     H. Evaluation (Recall/Precision)

    H1. Diberikan sebuah query yang menghasilkan 8 dokumen yang relevan. Koleksi lengkap memuat 20 dokumen (d1 sampai d20). Anggapkah bahwa search resultnya berturut-turut mulai dokumen d1, d2, d3, ..... dan seterusnya sampai d19, dan d20. Jika 8 dokumen yang relevan adalah nomor-nomor d1, d3, d6, d7, d11, d12, d13, d18, maka:
    1. Gambarlah masing-masing line untuk perubahan nilai recall dan perubahan nilai precisionnya dalam sebuah grafik.
    2. Gambarlah grafik R/P tanpa normalisasi.
    3. Gambarlah grafik R/P yang dinormalisasi.

    Untuk ketiga grafik, gunakan skala increment untuk sumbu Y (vertikal) adalah 0,05.

    H2. Dua buah algoritma (Alg1 dan Alg2) digunakan untuk memberikan ranking sebuah query untuk 10 dokumen. Hasilnya adalah seperti tabel di bawah, dimana R=Relevant, dan TR=Tidak Relevan. Asumsikan bahwa semua algoritma menghasilkan relevansi tertinggi sampai relevansi terrendah mulai dari kiri ke kanan (lihat tabel). Baris actual menunjukkan ranking yang dianggap benar dan digunakan sebagai pembanding, untuk "menghakimi" kedua algoritma yang diuji.

     

    Dokumen #n #1 #2 #3 #4 #5 #6 #7 #8 #9 #10
    Alg1 R TR R TR R TR R TR TR R
    Alg2 TR R TR TR R R R R R TR
    Actual R TR R TR R TR R R R R
    1. Gambarlah sebuah grafik P/R untuk algoritma Alg1 (Gunakan garis lurus untuk P dan garis putus-putus untuk Interpolasinya)
    2. Gambarlah sebuah grafik P/R untuk algoritma Alg2 (Gunakan garis lurus untuk P dan garis putus-putus untuk Interpolasinya)
    3. Gabunglah P(interpolasi)/R dari kedua algoritma Alg1 dan Alg2 yang diperoleh dari kedua soal a dan b di atas dalam sebuah grafik (Pakai garis lurus untuk Alg1 dan garis putus-putus untuk Alg2)
    4. Dapatkan rata-rata R dan P(interpolasi) untuk kedua algoritma.
    5. Dapatkan E-Measure dari nilai rata-rata kedua algoritma (soal d) jika P dan R dianggap sama pentingnya, sehingga nilai b=0,5.
    6. Dengan memperhatikan jawaban c, d, dan e, berikan kesimpulan algoritma manakah yang lebih baik?

    Petunjuk: Supaya dapat dikerjakan dengan cepat, cukup gunakan skala 0,2 untuk sumbu recall-nya. Tidak perlu skala 0.1 seperti yang umumnya disarankan.

     I. Web Usage Mining

    I1. Dalam Data Preparation sebuah Web Usage Mining dikenal sebuah proses penting yang disebut sebagai "Path Completion", yaitu upaya untuk mengidentifikasi path lengkap dalam sebuah site untuk setiap kunjungan/session. Lihatlah pemanfaatannya yang luar biasa pada soal 5.a di atas. Semua knowledge pada soal 5.a pasti membutuhkan Path Completion sebagai preparationnya. Sebutkan saja dengan urut (tanpa penjelasan) 3 tahap / subproses yang harus dilakukan sebelumnya, supaya path completion dapat dilakukan.
    I2. Sebutkan saja (tanpa penjelasan) jenis task manakah dalam web usage mining yang dapat menghasilkan knowledge berikut ini:
    1. Session X dilakukan oleh navigasi alami seorang manusia, tetapi session Y adalah navigasi artifisial yang dilakukan oleh bot/crawler.
    2. Session yang mengakses halaman tentang resensi DVD "Spiderman 3" terus meningkat mulai Maret 2007 sampai Mei 2007, cenderung stabil sampai Juli 2007, dan mulai menurun sesudahnya.
    3. Shopping cart diakses oleh 20% dari total session yang mengakses homepage, tetapi transaction page hanya diakses oleh 5% total session.
    4. Rata-rata waktu kunjungan pada sebuah page adalah d detik, sedangkan rata-rata panjang path dari setiap session adalah p path.
    5. 50% dari total kunjungan ke page "Happy Feet" juga mengunjungi page "Ice Age".

     J. General Concepts

    J1. PageRank memang penting, tetapi ia bukanlah segalanya. Perhatikan kutipan kalimat ini:

    "Initially, the ranking of web pages by the Google search engine was determined by three factors: Page specific factors, Anchor text of inbound links, and PageRank."

    (Sumber: The Implementation of PageRank in the Google Search Engine, http://pr.efactory.de/e-pagerank-implementation.shtml).

    Mari kita kembali ke masa dimana Google baru saja dirintis. Andaikata Anda -- yang sudah belajar Web Mining -- saat itu adalah salah seorang Ph.D. yang dipekerjakan oleh Lawrence Page dan Sergey Brin. Bermodalkan pengetahuan Anda selama ini: Jelaskan, apa saja yang dapat Anda tawarkan untuk faktor-faktor penentu ranking dari hasil suatu search engine? Jelaskan point-point utama jawaban Anda, dengan menggunakan nomor/bullet untuk memisahkannya. Pembangunan search engine yang handal melibatkan banyak faktor, seperti arsitektur servers, security, data structures, database management. Batasi jawaban Anda hanya dalam konteks Information Retrieval (IR). Petunjuk: Jawablah pertanyaan ini dengan menggunakan "banyak" terminologi yang sudah Anda peroleh selama kuliah.

     

    Home | Kontak Saya | Eureka! | ArenA | Bimbingan Tugas Akhir | Download | Links
    Algoritma & Pemrograman 1 | Algoritma & Pemrograman 2 | Struktur Data | Teknik Kompilasi | Kecerdasan Buatan
    KDD & Data Mining | Web Mining | E-Business | Systems Analysis and Design

    Copyright (C) December 2004, October 2007, www.hansmichael.com