 |
 |
| |
|
Search Engine |
|
Manfaatkan Google untuk memperoleh sejumlah informasi
yang Anda inginkan dalam hansmichael.com.
|
|
| Kutipan |
There is a long way from data to knowledge.(Menjadi renungan untuk konteks Data Mining)
Clifford Stoll (Author)
|
|
|
Tokoh Hari Ini
|
|
Blaise Pascal
Blaise Pascal lahir pada 19 Juni 1623 di Rouen, Perancis. Ia meninggal dunia pada tahun 1666 di Perancis.
Pascal adalah ahli matematika, fisika, penulis prosa, dan dikenal sebagai salah satu filsuf Kristen abad pertengahan. Pascal menemukan mesin penjumlah yang mengatur penambahan carry antar digit dan segitiga Pascal yang memuat koefisien-koefisien deret binomial. Ia juga penemu roda gerobak sampai roda rolet. Pascal juga meletakkan dasar bagi teori modern probabilitas: hukum Pascal untuk Tekanan. Menariknya, walaupun ia ahli dalam berbagai bidang sains, pemikiran religiusnya sebagai filsuf Kristen menekankan doktrin yang lebih mengutamakan pengalaman dengan Tuhan lebih melalui hati daripada melalui nalar.
|
|
|
|
|
Web Mining (EC706 dan CS708)
Semester Gasal 2007/2008
Kuliah Web
Mining (EC706) telah ditawarkan sebagai salah satu mata kuliah pilihan (MKP) di
Sekolah Tinggi Teknik Surabaya, Jurusan Teknik Informatika sejak Semester Gasal 2004/2005.
Pada saat itu mata kuliah ini ditawarkan untuk bidang peminatan (major)
E-Commerce. Sejauh yang saya ketahui ini adalah
penyelenggaraan kuliah Web Mining yang pertama di Indonesia.
(Jika kalimat
ini tidak tepat, sudilah mengontak saya, supaya saya menghapus informasi yang
salah ini).
Pada semester genap 2006/2007 dan semester
gasal 2007/2008 mata kuliah ini ditawarkan juga untuk bidang peminatan
Computer Science.
Secara umum muatan kuliah ini mencakup ketiga
aspek dari taksonomi web mining (Web Content Mining, Web Structure Mining, Web
Usage Mining) plus Information Retrieval (macam pemodelan dan evaluasinya),
serta Text Processing.
Contoh Soal
Berikut adalah
contoh soal dari Ujian Tengah Semester (UTS) dan Ujian Akhir Semester (UAS)
sejak mata kuliah ini
diselenggarakan.
|
Gunakan bait-bait lagu
Maju Tak Gentar (karya Cornel Simanjuntak) di bawah ini untuk menjawab
beberapa soal.
Maju tak
gentar membela yang benar
Maju tak
gentar hak kita diserang
Maju serentak
mengusir penyerang
Maju serentak
tentu kita menang
Bergerak
bergerak serentak serentak
Menerkam
menerjang terjang
Tak
gentar tak gentar menyerang menyerang
Majulah
majulah menang
Anggaplah 4 bait di atas
adalah 4 dokumen yang berbeda. Selain itu perhatikan pula bahwa:
Case folding telah dilakukan,
sehingga semua term telah menjadi lower case.
Semua stop dan
common words (yang ditunjukkan dengan kata-kata bergaris
bawah) sebagaimana lazimnya sebuah IR system, telah dieliminasi (tidak
ikut diproses lebih lanjut).
Anggap juga algoritma
stemming Bahasa Indonesia telah dilakukan dengan sangat sempurna,
artinya semua kata jadian (yang ditunjukkan dengan kata-kata tercetak
miring) dapat dikonversi ke kata dasarnya yang benar.
Query modification
telah dilakukan dengan memanfaatkan thesaurus Bahasa
Indonesia dan telah diketahui bahwa: serang, terjang, dan
terkam dianggap memiliki arti yang sama. Pada kasus ini gunakan "serang"
untuk mewakili ketiganya.
Untuk mempermudah, term list
tidak disimpan dengan menggunakan trie, B-Tree, perfect hashing, ataupun
front coding, tetapi hanya ascending order sorted array.
|
|
A. Web Mining Taxonomy |
|
A1. |
Untuk masing-masing pernyataan di
bawah ini, sebutkan / jawab dengan kategori utama dari Web Mining
Taxonomy yang paling relevan:
- Banyak memanfaatkan teori graph
- Banyak memanfaatkan data mining tasks untuk
mengolah server log file atau cookies.
- Hakekatnya adalah Modern Information Retrieval.
|
|
A2. |
Apabila diberikan arsitektur sebuah sistem
Web Mining seperti gambar di bawah ini, prediksilah sistem ini seharusnya
merupakan kategori web mining yang mana (dari Web Mining Taxonomy)?

Jelaskan alasan jawaban Anda. Jelaskan
pula bagaimana Amazon.com memanfaatkan arsitektur seperti ini untuk
bisnisnya. |
|
A3. |
Sebuah web search engine dapat
dipandang dari 2 perspektif yang berbeda, yang masing-masing adalah
kategori Web Mining Taxonomy. Sebutkan subdisiplin yang mana (dari web
mining taxonomy) dan untuk setiap jawaban, berikan alasan singkat mengapa
demikian? Untuk setiap subdisiplin,
jangan menjawab alasan singkat lebih dari 3 baris jawaban. |
|
B. Crawler |
|
B1. |
Apa yang paling membedakan cara Yahoo.com
dan cara Google.com dalam menangani Topics Directory dan Search Engine
mereka pada awal bisnis mereka? |
|
B2. |
Setidaknya terdapat belasan issue /
tuntutan yang harus ada dalam sebuah program Crawler yang baik menurut
Pierre Baldi dan Soumen Chakrabarty:
- Sebutkan dan berikanlah penjelasan singkat --
masing-masing jawaban cukup dua sampai tiga baris saja -- 8 (delapan)
issue di antaranya.
- Dari jawaban di atas, tunjukkan bagaimana
.Net atau Java mengimplementasikan 4 (empat) issue di
antaranya? Lengkapi jawaban Anda dengan beberapa baris code program.
|
|
B3. |
Perhatikan Algoritma Simple Crawler di bawah
ini untuk menjawab soal nomor 5 dan 6.a:
PROCEDURE Simple_Crawler(S0, D, E)
--------------------------------------
1. Q <--- S0
2. DO WHILE NOT (isQueueEmpty(Q))
3. u <--- Dequeue(Q)
4. d(u) <--- Fetch(u)
5. CALL Store(D, (d(u),u))
6. L <--- Parse(d(u))
7. FOR EACH v IN L
8. CALL Store(E,
(u,v))
9. IF NOT
(v Î D OR v Î Q)
10. THEN
Enqueue(Q,v).
11. END FOR
12. END DO
- Tuliskan segmen program pendek hanya untuk melakukan
d(u) <---
Fetch(u) melalui VB.NET
atau C#. Anggap fetch dilakukan pada halaman web, bukan FTP. Bantuan:
Pada program yang Anda gunakan, perintah ini terdapat dalam function
getPageContent.
Berikan penjelasan singkat berupa apakah hasil
eksekusi segmen program jawaban soal (a) di atas? Jawaban Anda harus
secara teknis mereferensi pada struktur data/type pada segmen program.
Tidak perlu bercerita konsepnya.
|
|
B4. |
Gunakan algoritma Simple Crawler pada
soal
B3. Anggaplah world wide web hanya berisi
7 (tujuh) situs yang hubungannya ditunjukkan melalui digraph di
bawah ini. Tunjukkan isi D dan E -- harus lengkap dengan nomor urut
perolehannya -- jika crawling dilakukan dengan seed URL (s0) C.com,
sedangkan prioritas pemilihan outlink dilakukan secara alphabetical
order. Gunakan angka-angka di dalam kurung untuk menggantikan simbol u
dan v.

Petunjuk: Karena lembar jawab
yang terbatas, gunakan bagian kosong pada kertas soal ini untuk tracing
algoritma, karena yang ditulis pada lembar jawab cukup hasil akhirnya (isi
D dan E dengan urutan yang benar). |
|
C. Information Retrieval Concepts |
|
C1. |
Jelaskan perbedaan antara Exact Match
Retrieval dengan Best Match Retrieval dalam sebuah sistem IR .
Berikan contoh masing-masing. |
|
C2. |
Untuk arsitektur sistem Information
Retrieval di bawah, gantilah huruf (a) sampai (f) dengan entity atau
subsistem yang tepat. 
|
|
C3. |
Kelima pernyataan di bawah ini
masing-masing menunjuk sejumlah term/istilah yang biasa digunakan dalam
web mining, khususnya information retrieval. Sebutkan masing-masing
istilah yang ditunjuk. Bantuan: Kelima istilah tersebut menggunakan
bahasa Inggris.
- Selain stemming, case folding, punctuation,
stop/common word; terdapat sebuah task dalam text operation yang
mengubah semua irregular words dalam bahasa Inggris menjadi kata
dasarnya.
- Jenis query yang mampu menangani keberadaan 2 (atau
lebih) term terdapat dalam kalimat yang sama atau tidak, atau satu
dengan lainnya bersebelahan langsung (seperti soal nomor 9).
- Koleksi teks bahasa alami yang biasanya dalam
ukuran besar dan sering digunakan untuk pengujian text/web mining tasks.
- Subdisiplin dalam web mining yang berguna untuk
mengubah semi-structured format (seperti HTML page) menjadi
structured-format (seperti bentuk yang suitable untuk relational
database).
- Salah satu sistem information retrieval seperti
AskJeeves yang mampu menerima query dalam bahasa alami seperti:
"Who is first Indonesia president?"
|
|
C4. |
Jawablah dengan singkat:
- Apa yang berubah secara
signifikan pada definisi Information Retrieval dari Salton (1989),
Kowalski (1997), dan Wikipedia (2007)?
Jangan menjawab lebih dari 3 baris jawaban.
- Sebutkan saja -- tidak perlu
dijelaskan -- 2 (dua) jenis aplikasi web internet yang termasuk
dalam kategori Information Retrieval.
Jangan menjawab dengan nama domainnya.
|
|
D. Boolean Model Information
Retrieval |
|
D1. |
(Perhatikan bait-bait lagu "Maju
Tak Gentar") Gambarlah representasi biner dalam
term-document matrix dan kemudian tunjukkan dokumen-dokumen yang
dihasilkan query-query berikut jika digunakan model IR Boolean. Untuk
setiap query yang diminta gambarlah diagram Venn dan arsirlah daerah yang
dimaksud untuk memperjelas perolehan jawaban Anda:
serentak
AND (maju OR gerak)
NOT
(maju AND serang)
maju
AND (NOT serang)
|
|
D2. |
Jelaskan maksud penggunaan Proximity
Operators dari beberapa query di bawah ini:
- "Susilo Bambang Yudhoyono"
- Demokrasi /3 Partai
- "jusuf kalla" /S golkar
- sby /P "partai demokrat"
|
|
D3. |
(Perhatikan bait-bait lagu "Maju Tak
Gentar") Jika diberikan Boolean Query Q: (serentak OR maju) AND
(NOT serang) , tunjukkanlah:
- Disjunctive Normal Form (DNF) dari Q, dan
representasinya melalui Diagram Venn.
- Conjunctive Normal Form (CNF) dari Q, dan
representasinya melalui Diagram Venn.
|
|
D4. |
Diberikan koleksi 7 buah dokumen d1 sampai
d7. Proses search dilakukan dengan tiga buah term t1, t2, dan t3, yang
frekuensi term di dalam setiap dokumen disajikan pada tabel berikut ini:
|
dokumen/term |
t1 |
t2 |
t3 |
|
d1 |
0 |
0 |
0 |
|
d2 |
4 |
1 |
0 |
|
d3 |
1 |
0 |
3 |
|
d4 |
0 |
5 |
9 |
|
d5 |
8 |
0 |
0 |
|
d6 |
8 |
2 |
0 |
|
d7 |
2 |
4 |
9 |
Jika diberikan Boolean Query Q = (t1
OR t2) AND (NOT t3), tunjukkanlah:
- Disjunctive Normal Form (DNF) dari Q.
- Conjunctive Normal Form (CNF) dari Q.
- Representasi DNF jawaban Anda melalui
Diagram Venn.
|
|
E. Vector Model Information
Retrieval |
|
E1. |
Anda mengenal terms "Inverted Index"
dan "Inverse Document Frequency" yang digunakan dalam Vector
Model Information
Retrieval.
-
Mengapa index harus
"inverted" ?
-
Mengapa document frequency harus
"inverse" ?
|
|
E2. |
(Perhatikan bait-bait lagu "Maju Tak
Gentar") Tulislah kalimat query dalam bahasa
Indonesia yang eksekusi internalnya dilakukan dengan statements berikut
ini, dan tunjukkan pula dokumen-dokumen yang dihasilkan:
with
D1(did, pos) as
(select did, pos from POSTING
where tid = 'serentak'),
D2(did, pos) as
(select did, pos from POSTING
where tid = 'maju'),
D3(did) as (select
did from POSTING
where tid = 'menang'),
D4(did) as (select
D2.did from D2, D1
where D2.did = D1.did and D1.pos - 1 = D2.pos),
(select did from D4) intersection
(select did from D3)
|
|
E3. |
Tunjukkan pengkodean dengan front
coding untuk 5 (lima) term yang diambil secara urut dari sebuah
konkordansi di bawah ini. Perhatikan bahwa tepat sebelum 'cemar'
adalah term 'celup'. cemar,
cemas, cemburu, cemerlang, cemeti. |
|
E4. |
Diberikan koleksi 6 buah dokumen D1 sampai
D6. Proses search dilakukan dengan referensi tiga buah term t1, t2, dan
t3, yang frekuensi term pada masing-masing dokumen disajikan pada tabel
berikut ini:
|
dokumen/term |
t1 |
t2 |
t3 |
|
d1 |
7 |
5 |
2 |
|
d2 |
4 |
2 |
3 |
|
d3 |
0 |
2 |
4 |
|
d4 |
1 |
0 |
7 |
|
d5 |
3 |
6 |
0 |
|
d6 |
5 |
5 |
4 |
-
Jika query yang diberikan adalah (t1, t2, t3), tanpa
pembobotan key, tentukan ranking dari search resultnya, jika yang
dipakai hanyalah term weight dari tabel di atas.
-
Bentuklah sebuah inverted view untuk koleksi
dokumen di atas dengan menyalin tabel dan mengganti semua angkanya
dengan bobot-bobot tf.idf. Metode normalisasi idf yang digunakan
adalah
loge((N-ft)/ft), sedangkan untuk tf memakai
fd,t
/
max(fd,t).
Jika "weighted query term" yang diberikan adalah (5t1,
4t2, 3t3), tentukan ranking dari search resultnya, jika digunakan
cosine similarity dengan referensi inverted view jawaban soal nomor
4.b di atas.
|
|
E5. |
(Perhatikan bait-bait lagu "Maju Tak
Gentar")
Untuk implementasi dengan model IR
Vectorial. Untuk perhitungan tf dan idf, keduanya menggunakan normalisasi
dari Cornell SMART System:
- Gambarlah term-document matrix-nya.
- Gambarlah inverted index dengan term weights
yang menggunakan rumus tf.idf. Untuk keperluan ini letakkan nilai
idf pada term list, sedangkan semua nilai tf.idf pada posting
list.
- Dengan menggunakan inverted index soal (b) dapatkan semua nilai RSV (Retrieval Status Value) dari pasangan
query-document yang diperoleh melalui cosinus distance, dan
akhirnya tulislah ranking relevansi semua dokumen terhadap kedua
query ini (term yang tidak ditulis pada query berarti nilainya=0):
-
q1=((gerak:3)(serang:5))
q2=((maju:2)(gentar:2)(serang:2))
|
|
E6. |
Mereferensi pada tabel term-dokumen yang
digunakan pada soal D4:
-
Dengan menggunakan
pair-wise document similarity untuk i=1,2,3, ....., t, tentukanlah
rankingnya, jika query yang diberikan adalah (3t1, 1t2, 2t3).
-
Tulislah sebuah
inverted view untuk koleksi dokumen di atas dengan menyalin tabel
dan mengganti semua angkanya dengan bobot-bobot tf.idf. Metode
normalisasi idf yang digunakan adalah
1/idf, sedangkan
untuk tf memakai fd,t
/ Sfd,t.
|
|
F. Text Operations |
|
F1. |
Perhatikan beberapa rule stemmer
Porter di bawah ini:
(m=1 and *o) -> E
(*v*) ING ->
(*v*) ED ->
(*v*) Y -> I
(*d and not (*L or *S or *Z)) -> single letter
(m>1) E ->
Dengan menggunakan rule-rule di atas, tentukan
hasil stem kata-kata berikut ini:
- bled
- sky
- rate
- fil
- sing
- fall
Perhatikan: Sebuah
rule hanya dipakai oleh 1 soal, jangan menerapkan 2 atau lebih rule secara
berurutan untuk sebuah soal. |
|
F2. |
Jelaskan dua kesalahan yang mungkin terjadi
pada sebuah algoritma stemming. Untuk masing-masing kesalahan, berikan
pasangan contohnya. |
|
G. Web Structure Mining |
|
G1. |
.Jawablah beberapa pertanyaan berikut
untuk menunjukkan pemahaman Anda tentang algoritma HITS. Anda pasti telah
belajar tracing perhitungan algoritmanya, tetapi saya tidak menanyakannya.
Sorry..... Karena saya yakin Anda pasti menguasai perhitungannya. Saya
tanya konsepnya saja.
- Dengan menggunakan gambar digraph, tunjukkan
dan jelaskan pengertian base subgraph dan root set yang
harus diketahui terlebih dahulu sebelum algoritma HITS dilakukan.
- Jelaskan darimana root set diperoleh?
- Kemudian bagaimana cara mendapatkan base
subgraph-nya?
- Pada rumus originalnya, Hubs diperoleh melalui
Authorities, dan sebaliknya. Namun demikian dapat diperoleh rumus baru
yang mempermudah perhitungan iteratif. Tunjukkan berturut-turut: rumus
originalnya; rumus barunya; dan bagaimana perolehan rumus baru dari
rumus originalnya.
Petunjuk:
Hubungkan kedua jawaban dari pertanyaan b dan c dengan
search engine. |
|
G2. |
Terdapat 4 (empat) halaman A, B, C, dan D
yang direpresentasikan dengan menggunakan digraph di bawah ini.

Dapatkan rankingnya melalui algoritma PageRank. Bulatkan semua
perhitungan sampai 2 titik desimal terdekat.
- Dengan menggunakan substitusi pada beberapa persamaan linear
simultan.
- Secara iteratif, sampai iterasi 3 (Perhatikan bahwa pemberian harga
awal adalah pada iterasi 0).
|
|
G3. |
Dengan menggunakan digraph pada soal nomor G2,
tunjukkan bahwa melalui kedua pendekatan perhitungan untuk HITS di bawah
ini akan menghasilkan ranking yang sama. Perhatikan bahwa pemberian
harga awal adalah pada iterasi 0. JANGAN melakukan normalisasi
dengan membagi jumlah halaman.
Hi=M*Ai-1
dan
Ai=MT*Hi-1,
untuk i=4.
Hk=M*MT*Hk-i
dan
Ak=MT*M*Ak-1,
untuk k=2.
|
|
G4. |
Rankinglah halaman-halaman
web yang strukturnya ditunjukkan pada digraph di bawah ini dengan
menggunakan PageRank.
- Tunjukkan rankingnya dengan menggunakan solusi persamaan linear
simultan.
- Lakukan perhitungan ranking sampai 4 (empat) iterasi saja, dengan
dumping factor = 0,5.
|
|
|
|
|
H. Evaluation (Recall/Precision) |
|
H1. |
Diberikan sebuah query yang menghasilkan 8
dokumen yang relevan. Koleksi lengkap memuat 20 dokumen (d1 sampai d20).
Anggapkah bahwa search resultnya berturut-turut mulai dokumen d1, d2, d3,
..... dan seterusnya sampai d19, dan d20. Jika 8 dokumen yang relevan
adalah nomor-nomor d1, d3, d6, d7, d11, d12, d13, d18, maka:
- Gambarlah masing-masing line untuk perubahan nilai recall dan
perubahan nilai precisionnya dalam sebuah grafik.
- Gambarlah grafik R/P tanpa normalisasi.
- Gambarlah grafik R/P yang dinormalisasi.
Untuk ketiga grafik, gunakan skala increment untuk sumbu Y (vertikal)
adalah 0,05. |
|
H2. |
Dua buah algoritma (Alg1 dan
Alg2) digunakan untuk memberikan ranking sebuah query untuk 10
dokumen. Hasilnya adalah seperti tabel di bawah, dimana R=Relevant, dan TR=Tidak
Relevan. Asumsikan bahwa semua algoritma menghasilkan relevansi tertinggi
sampai relevansi terrendah mulai dari kiri ke kanan (lihat tabel). Baris
actual menunjukkan ranking yang dianggap benar dan digunakan
sebagai pembanding, untuk "menghakimi" kedua algoritma yang diuji.
|
Dokumen #n |
#1 |
#2 |
#3 |
#4 |
#5 |
#6 |
#7 |
#8 |
#9 |
#10 |
|
Alg1 |
R |
TR |
R |
TR |
R |
TR |
R |
TR |
TR |
R |
|
Alg2 |
TR |
R |
TR |
TR |
R |
R |
R |
R |
R |
TR |
|
Actual |
R |
TR |
R |
TR |
R |
TR |
R |
R |
R |
R |
- Gambarlah sebuah grafik P/R untuk algoritma
Alg1 (Gunakan garis lurus untuk P dan garis putus-putus untuk
Interpolasinya)
- Gambarlah sebuah grafik P/R untuk algoritma
Alg2 (Gunakan garis lurus untuk P dan garis putus-putus untuk
Interpolasinya)
- Gabunglah P(interpolasi)/R dari kedua algoritma
Alg1 dan Alg2 yang diperoleh dari kedua soal a dan b di atas dalam
sebuah grafik (Pakai garis lurus untuk Alg1 dan garis putus-putus untuk
Alg2)
- Dapatkan rata-rata R dan P(interpolasi) untuk
kedua algoritma.
- Dapatkan E-Measure dari nilai rata-rata
kedua algoritma (soal d) jika P dan R dianggap sama pentingnya, sehingga
nilai b=0,5.
- Dengan memperhatikan jawaban c, d, dan e,
berikan kesimpulan algoritma manakah yang lebih baik?
Petunjuk: Supaya dapat dikerjakan dengan cepat,
cukup gunakan skala 0,2 untuk sumbu recall-nya. Tidak perlu
skala 0.1 seperti yang umumnya disarankan. |
|
I. Web Usage Mining |
|
I1. |
Dalam Data Preparation sebuah Web Usage
Mining dikenal sebuah proses penting yang disebut sebagai "Path
Completion", yaitu upaya untuk mengidentifikasi path lengkap dalam
sebuah site untuk setiap kunjungan/session. Lihatlah pemanfaatannya yang
luar biasa pada soal 5.a di atas. Semua knowledge pada soal 5.a
pasti membutuhkan Path Completion sebagai preparationnya. Sebutkan saja
dengan urut (tanpa penjelasan) 3 tahap / subproses yang harus dilakukan
sebelumnya, supaya path completion dapat dilakukan. |
|
I2. |
Sebutkan saja (tanpa penjelasan) jenis
task manakah dalam web usage mining yang dapat menghasilkan knowledge
berikut ini:
- Session X dilakukan oleh navigasi alami seorang manusia, tetapi
session Y adalah navigasi artifisial yang dilakukan oleh bot/crawler.
- Session yang mengakses halaman tentang resensi DVD "Spiderman 3"
terus meningkat mulai Maret 2007 sampai Mei 2007, cenderung stabil
sampai Juli 2007, dan mulai menurun sesudahnya.
- Shopping cart diakses oleh 20% dari total session yang mengakses
homepage, tetapi transaction page hanya diakses oleh 5% total session.
- Rata-rata waktu kunjungan pada sebuah page adalah d detik,
sedangkan rata-rata panjang path dari setiap session adalah p
path.
- 50% dari total kunjungan ke page "Happy Feet" juga mengunjungi page
"Ice Age".
|
|
J. General Concepts |
|
J1. |
PageRank memang
penting, tetapi ia bukanlah segalanya. Perhatikan kutipan kalimat
ini:
"Initially, the ranking of web pages by the Google search engine was
determined by three factors: Page specific factors, Anchor text of
inbound links, and PageRank."
(Sumber: The Implementation of PageRank in the Google Search Engine,
http://pr.efactory.de/e-pagerank-implementation.shtml).
Mari kita kembali ke masa dimana Google baru saja dirintis. Andaikata
Anda -- yang sudah belajar Web Mining -- saat itu adalah salah seorang
Ph.D. yang dipekerjakan oleh Lawrence Page dan Sergey Brin. Bermodalkan
pengetahuan Anda selama ini: Jelaskan, apa saja yang dapat Anda
tawarkan untuk faktor-faktor penentu ranking dari hasil suatu search
engine? Jelaskan point-point utama jawaban Anda, dengan menggunakan
nomor/bullet untuk memisahkannya. Pembangunan search engine yang
handal melibatkan banyak faktor, seperti arsitektur servers, security,
data structures, database management. Batasi jawaban Anda hanya
dalam konteks Information Retrieval (IR). Petunjuk: Jawablah
pertanyaan ini dengan menggunakan "banyak" terminologi yang sudah Anda
peroleh selama kuliah. |
|
 |
 |