香港新浪網 MySinaBlog
« 上一篇 | 下一篇 »
軒爸 | 9th May 2007 | Blog 事 | (1128 Reads)
好了, Google Blog Search雖不濟事, 但Google的Search Engine仍是最強的. 他們的強, 主要是靠無敵的電腦叢集運算. 但「無氈無扇, 神仙難變」, 任Google的運算力再強, 沒有龐大的網頁資料來源, 也得物無所用.

可是, 網頁來源從何而來呢? Google(或其他大型Search Engine)的網頁來源主要是靠一個人在電腦面前按連結. 他先由一個網頁開始, 把該網頁存檔, 然後從該網頁中的其他連結, 找出其他網頁. 最後, 一連十, 十連百, 整個互聯網, 就這樣被揪出來了.

當然, 上面提到的那位人兄, 不是真的是一個人, 而是一個機械人(即Robot, 或簡稱bot, 又或網絡蜘蛛Web-Spider, 又或網絡爬虫Web-Crawler). 如果那真的一個人的話, 無論他如何做好呢份工, 網海之大, 夠他做幾生幾世了.

話說回來. Blog本來就是網頁, 而在未有BSP, 只有公海的年代, 不靠Blogroll/留言, 是無法給人找上門的. 那些Blog, 是公海中斷六親的孤島. 換言之, 在那個時候的Blogosphere裡, 肯定是博博相連的. 所以, 若以Robot抓取的話, 一定能把所有Blog都找回來. 此方法, 我暫戲稱為「博駁博」吧. 雖然到了今時今日, BSP大行其道, 有推介有排行榜, 但blogosphere的基本生態還是得靠連結來維持的.

不過就如五師兄, 我們得先明確定義「Blogosphere」是甚麼, 討論才有意思. 所以, 故事說到這裡, 我要把「香港的Blogosphere有多大?」這題目明確定義一下了.

Blogosphere : 是指由一定數量的Blog, 以Blogroll/留言連接起來而形成的一個集.
香港Blogosphere : 是指由香港人寫的Blog連接起來而形成的最大的一個「Blogosphere」.
如此, 研究題目「香港的Blogosphere有多大?」, 就是計算「香港Blogosphere」中到底有多少個Blog.

「博駁博」理論上行得通, 但其實存在很多技術難題. 難題之源, 正正就是因為「Blog本來就是網頁」. 所以, 這個「博駁博」機械人需要比Google那個聰明得多, 因為他要有足夠的智慧去辨別Blog, 而不再是盲目抓取. 所謂「難題」, 其實是有幾個層次的:
1. 當一個網頁抓取回來之後, 如何辨別它是不是Blog呢?
2. 該Blog, 又是否繁體中文寫成的呢? 現在的網頁都是Unicode, 各國文字單一編碼, 所以光靠編碼方法, 根本不能斷定某一Blog是否繁體中文寫成的. (這題假設了香港人都用繁體中文寫Blog, 但其實有少數Blog不是.)
3. 就算是繁體中文, 那也有分香港和台灣. 該怎麼分別呢?

這些問題, 交給人去判別不難, 但交給IQ零蛋的電腦去解決, 就難多了. 特別是問題3, 交給人去解決, 準確度也不未必可達100%. 還有一點要注意的是, 上面那些問題的解決方案, 應用起來一定不能消耗太多效能. 試想想, 如果辨別每個網頁要多用1秒, 600個網頁就要多用1分鐘. 若果不幸給M$言中, 香港真的有二百多萬個Blogger, 起碼要多花23天去完成「博駁博」抓取. 光是這段時間, 又不知有多少萬個新Blog誕生了.

(續)


[7] Robin Turner

Brag president buy testosterone tablets uk firm. Rind wear steroids for dogs tadpole. Nat middle steroids veins bow crash. Shrunk pay steroids health effects flat bundle. Punishing sly steroids.


[引用] | 作者 бритиш драгон | 8th May 2016 | [舉報垃圾留言]

[6] Re: 流水线
流水线 :
蜘蛛效应!


[引用] | 作者 钢管 | 21st Nov 2007 | [舉報垃圾留言]

[5] :)

蜘蛛效应!


[引用] | 作者 流水线 | 15th Aug 2007 | [舉報垃圾留言]

[4] Re:

請BSP交數, 也有三大難題, 實踐起來比上面的三大難題更難.
1. 地區性的BSP易處理, 但國際性的BSP本身也未必有這條數.
2. 就算有, 人家睬我都有味
3. 他們會篤數的(at least M$會)

五師兄 : 有另一個定義上的問題。如果數人頭,我們大可以問晒咁多家 BSP(Xanga,Yahoo,blogspot,Sina,Live,wordpress.com or even Hompy...)。 There must be someone who has the blog on the own server,but not the majority。

以文章量來算, 這點我倒沒想過, 遲下再研究.

I think the “size” of the blogosphere is composed by a weighted sum of the blogs。

[引用] | 作者 軒爸 | 9th May 2007 | [舉報垃圾留言]

[3] Re:

噢, 我這裡說的是Google Search, 不是Google Blog Search. 我不過想借Google Search來說明一下Crawler(我最喜歡這個名字)的運作, 畢竟不是人人也了解的. 關於那個Ping API, 基於人性, 我是不太看好. Google想人自動獻身, 想美了.


Instead of 用bot去「找取」,其實google blog search亦提供API被你去ping佢,個bot根本無需主動出擊。
即係好此technorati咁,只不過呢個站冇咁做(好多站都冇咁做)。

這點太明白.

Kli :
有沒有想過,在Web 2.0的時代,絕大部分運作都是bottom up的?

往後還有其他文章說這題目, 多多留意!


[引用] | 作者 軒爸 | 9th May 2007 | [舉報垃圾留言]

[2]

有另一個定義上的問題。如果數人頭,我們大可以問晒咁多家 BSP(Xanga,Yahoo,blogspot,Sina,Live,wordpress.com or even Hompy...)。 There must be someone who has the blog on the own server,but not the majority。

However,the problem is,if we count like this,we are counting the “heads”,but not the share of voice。I think the “size” of the blogosphere is composed by a weighted sum of the blogs。People who have more regular readers(larger influence) should counted as more than those who write once or twice a month。

When people count the size of the blogosphere worldwide,they do count sites such as Boing Boing and Engadget more(and represent as a bigger cloud in the blogger map)。


[引用] | 作者 五師兄 | 9th May 2007 | [舉報垃圾留言]

[1]

有沒有想過,在Web 2.0的時代,絕大部分運作都是bottom up的?

Instead of 用bot去「找取」,其實google blog search亦提供API被你去ping佢,個bot根本無需主動出擊。

即係好此technorati咁,只不過呢個站冇咁做(好多站都冇咁做)。


[引用] | 作者 Kli | 9th May 2007 | [舉報垃圾留言]

 

Google 廣告
最新留言
網誌統計
文章總數:45
留言總數:300
引用總數:14
閱讀總數:247243
總瀏覽數:383920
MySinaBlog 精選文章