數字經濟時代Robots協議再思考總第176期 张喆 郭凌云 新浪集团法务部發表,[专利]文章 |
Robots協議全稱Robots Exclusion Protocol,意為“機器人排除協議”或“拒絕爬蟲協議”。Robots協議對于業界而言可謂既熟悉又陌生:熟悉是因為該協議近三十年來一直是國內外各類網站之間關于信息抓取的通行技術規范,是互聯網行業中著名的“君子協議”;陌生是由于該協議雖被國內外網站普遍遵守,但并未成為正式的行業標準,國內關于Robots協議的法律定位、如何正確評價網站設置Robots協議行為的正當性等問題的爭論不絕于耳。隨著互聯網技術和產品形態的日新月異,在數字經濟時代對Robots協議進行精準的法律定位,對于厘清網絡信息和數據流通規則、維護互聯網行業的競爭秩序具有重要價值。本文試結合已有的司法裁判觀點,對數字經濟時代下的Robots協議進行思考與分析。
Robots協議1.0時代 網站與搜索引擎的利益博弈
Robots協議最初是網站為限制搜索引擎的信息抓取而提出
互聯網初期,網絡用戶只能定點找尋進入網站,獲取網絡信息的效率很低。上世紀90年代,搜索引擎誕生,使得網絡用戶能夠憑借關鍵詞快速找到所需信息,進入承載信息的網站進行信息獲取,極大地提升了網絡信息的流通效率,搜索引擎因此成為互聯網信息流通顯著區別于傳統媒介的重要工具。旋即,多家搜索引擎服務運營商應運而生,搜索引擎服務成為互聯網產業內一個重要的應用場景。
搜索引擎的核心模塊一般包括網絡機器人[1]、索引、檢索和排序等,其工作原理是:先使用網絡機器人對網站信息進行抓??;然后將所抓取的信息進行篩選提取,存入索引庫;最后根據網絡用戶的搜索關鍵詞快速從索引庫中匹配結果,進行排序后向用戶返回承載該搜索關鍵詞的網站信息??梢钥闯?,搜索引擎使用網絡機器人進行數據抓取,是實現其基本功能的關鍵手段,目的是幫助網絡用戶更快更好地找尋到信息所載網站。對于網站來說,搜索引擎無疑是助其推廣信息、帶來流量、擴大影響力的重要幫手。
但矛盾很快產生。為保證信息更新的準確性和全面性,搜索引擎需要較高頻次地使用網絡機器人訪問網站的全部公開網頁進行信息抓取,加之搜索引擎服務運營商增加,網站不得不面臨多個網絡機器人高頻次的訪問壓力,這給早期的網站帶來了難以承受的服務器和帶寬成本,讓網站經營者在享受搜索引擎紅利的同時也產生了不滿。為解決這一問題,1994年,荷蘭網絡工程師首先提出了由網站設置Robots協議來提示和限制搜索引擎網絡機器人的信息抓取。后經網絡機器人設計者及愛好者共同商議,在實踐中確立并推廣開來。Robots協議的設置非常簡單,不屬于技術限制措施,只是以txt文本的形式在網絡機器人訪問網站初始即告知其允許和不允許抓取的網頁范圍,以期網絡機器人遵守。在平等、協作的互聯網精神下,Robots協議奇跡般地在全世界推行,并得到了絕大多數搜索引擎的認可和遵守,伴隨網站度過了服務器和帶寬資源緊張的時代,也使得搜索引擎產業得以順利發展。
Robots協議不得限制特定的網絡機器人?
國內互聯網產業一直緊跟國際發展趨勢,Robots協議很快被國內各類網站所使用,也得到了各家搜索引擎服務運營商的認同。2012年11月,就Robots協議的相關問題,中國互聯網協會組織各會員單位制定了《互聯網搜索引擎服務自律公約》,對Robots協議的定義和基本設置規則進行了探索和約定。同年,奇虎公司與百度公司之間就搶占搜索引擎市場份額引發“3B大戰”。在雙方互訴的多起案件中,法院對Robots協議的法律定位、設置規則等問題第一次進行了較為充分的評述,其主要觀點有四條[2]:
第一,Robots協議是互聯網領域自發形成的互聯網行為秩序之一,是互聯網領域的一種協作方式,已經成為搜索引擎企業普遍遵循的行業慣例和商業規則;
第二,Robots協議是技術規范、單方宣示,屬于非技術措施;
第三,Robots協議與其說是對搜索引擎的限制,不如說是一種善意的指引,其目的是為了告知搜索引擎的網絡機器人哪些信息沒有必要抓取,從而引導其抓取對網絡用戶有用的信息;
第四,在缺乏合理、正當理由的情況下,網站以對搜索引擎經營主體區分對待的方式,限制搜索引擎抓取網頁內容,具有不正當性,將損害搜索引擎經營者合法權益和相關消費者的利益,妨礙正常的互聯網競爭秩序,構成不正當競爭行為。
上述裁判觀點肯定了Robots協議的法律定位,但同時讓網站經營者陷入了一種困惑,即網站設置Robots協議時,似乎不能限制某個特定的網絡機器人抓取網站信息和數據,而只能限制網絡機器人的抓取范圍。互聯網行業經過三十年的發展,網站規模與用戶量早已不是上世紀90年代可以比擬,在網站訪問量動輒以億計的當下,網絡機器人帶來的訪問壓力已經不再是網站對其限制的主要原因,網站設置Robots協議的主要目的已經發生變化。如果延續這種“不得限制主體、只能限制范圍”的規則困惑,Robots協議的功能將被大為削減,也將在在當今互聯網環境中失去設置意義,從而退出互聯網歷史舞臺。
困惑顯然廣泛存在。在今日頭條與微博關于Robots協議的訴訟糾紛中,今日頭條主張微博設置Robots協議限制今日頭條的網絡機器人“ToutiaoSpider”抓取微博數據,屬于對特定網絡機器人的限制,從而具有不當性。一審法院直接參照了前述奇虎公司與百度公司Robots糾紛案的裁判觀點,將《互聯網搜索引擎服務自律公約》作為案件中判斷微博設置Robots協議正當性標準的參考,認為微博對特定機器人的限制構成不正當競爭[3]。
Robots協議2.0時代 私有權益與公共利益的平衡
網站對于經營積累產生的信息或數據享有合法權益,對合法權益的處置屬于經營自主權范疇
隨著互聯網產業的發展,全球正進入數字經濟時代,數據已經成為企業重要的生產要素和競爭資源。近年來,互聯網數據領域的法律糾紛日益增多,被控侵權的一方通常是使用包括網絡機器人在內技術手段,對網站中的信息、數據進行抓取,然后以各種方式使用于自身產品之中。這類直接掠奪網站競爭優勢資源的行為遭受了國內互聯網各領域經營者的強烈抵制,餐飲點評領域的大眾點評、電商領域的淘寶、社交媒體領域的微博、短視頻領域的抖音都因不同類別的數據被抓取而起訴維權。2017年7月,十余家國內主流互聯網企業共同發布《中國網絡版權與數據信息使用規則及競爭規范》,就“不得未經許可使用網絡爬蟲等方式抓取網站內容和數據”達成共識并向全社會發出呼吁。司法實踐中,雖然缺乏直接的法律規定,但也逐步確立了互聯網數據領域的保護規則,即網站經營者對于其付出經營成本而收集、整理的數據享有合法權益,對于未經許可擅自抓取和使用數據的行為,有權予以制止。
經營者對合法權益進行處理,在不損害公共利益的情況下,應當屬于經營自主權范疇,經營者有權自主決定哪些信息或數據、在什么范圍內、允許或不允許哪些民事主體進行抓取和使用。而Robots協議正是網站經營者對于自身合法權益處置的公開意思表示,是經營自主權的一種體現。判斷Robots協議對于網絡機器人限制行為的正當性,應當首先落入網站經營自主權邏輯,然后判斷其是否會對公共利益產生不利影響,進而對其正當性進行評判,這也符合Robots協議設立的初衷。在肆意通過網絡機器人抓取數據、掠奪網站數據的不正當競爭環境中,網站通過Robots協議作為保護自身權益的表態尤為重要。
判斷Robots協議對于網絡機器人限制行為的正當性時,網絡機器人的應用場景應當是重要的評判因素
如前文所述,隨著互聯網技術和應用的發展,網絡機器人早已不是搜索引擎服務產品的專屬技術,而已經擴展到了廣泛的非搜索引擎的應用場景之中,比如垃圾信息的發送者可以使用網絡機器人抓取網站中用戶的聯系方式用以批量發送信息,商家可以使用網絡機器人抓取網站中競爭對手的商品銷量用以調整銷售策略,當然網站經營者也可以使用網絡機器人抓取其他網站的內容用以填充自己的產品內容。
基于搜索引擎服務的工作原理,其功能和目的是快速定位網絡信息,讓網絡用戶能在較短時間內從互聯網的海量信息中檢索到所需信息,從而進入信息所處的網站進行訪問和閱覽。因此,搜索引擎的網絡機器人進入一個對公眾開放的網站抓取信息通常不會損害網站的利益,反而有利于其宣傳推廣,利于網站獲得更多的網絡流量和潛在用戶。此時,信息資源得到較大程度的共享和使用,搜索引擎服務運營商、被收錄的網站、網絡用戶各方的利益均得以保障和實現,實現多方共贏??梢?,網絡機器人在搜索引擎的應用場景下,具有了公益和互利的屬性,隨意限制搜索引擎網絡機器人,可能會打破多方共贏的局面,阻礙信息流通、損害公共利益。在面對具有公共利益屬性的搜索引擎網絡機器人時,網站的經營自主權受到一定程度的限縮,將私權的一部分讓渡與公共利益,這是必要與合理的,也是《互聯網搜索引擎服務自律公約》以及奇虎百度案件中司法裁判觀點的真實內涵。
相對的,非搜索引擎應用場景的網絡機器人,往往與前述公共利益無關,與網站之間往往并非互利,反而往往是損人利己的。以網絡機器人在互聯網內容產品服務中的應用為例,此類網絡機器人抓取網站的數據后,用于填充自身產品的內容,這與搜索引擎服務存在明顯區別(見表1)。
因此,在判斷網站設置Robots協議限制網絡機器人的正當性時,不能直接適用搜索引擎服務領域的規則,而應區分網絡機器人的應用場景,以更為宏觀、全面的角度對限制行為的正當性進行評述。
保護網站經營者的自主經營權與維護其他經營者利益、維護消費者利益、維護競爭秩序之間的平衡
在前述今日頭條與微博關于Robots協議的不正當競爭案件中,雙方證據顯示,微博Robots協議中所限制的網絡機器人“ToutiaoSpider”的應用場景并非搜索引擎服務,而是應用于移植微博內容至今日頭條的“微頭條”板塊。根據上訴人微博的主張,二審判決首次區分了搜索引擎應用場景和非搜索引擎應用場景下Robots協議的設置規則,指出不同應用場景下的網絡機器人對于網站合法權益、公眾利益、互聯網互聯互通精神的不同影響,明確《互聯網搜索引擎服務自律公約》不能成為互聯網行業通行的商業道德,同時結合搜索引擎和非搜索引擎兩個側面,確立了Robots協議對于網絡機器人限制行為正當性的評價標準,即“在判斷Robots協議對于網絡機器人限制行為的正當性時,其核心在于保護網站經營者的自主經營權與維護其他經營者利益、維護消費者利益、維護競爭秩序之間的平衡”,“應結合Robots協議設置方與被限制方所處的經營領域和經營內容、被限制的網絡機器人應用場景、Robots協議的設置對其他經營者、消費者以及競爭秩序的影響等多種因素進行綜合判斷”,并進一步指出,在不損害消費者利益、不損害公共利益、不損害競爭秩序的情況下,相關限制即使在客觀上會造成對某個或某些經營者的“歧視”,也應當得到允許[4]。
這一標準跨越了互聯網行業細分領域的差異,以更為宏觀的視角平衡了互聯網企業合法權益、公眾利益,以及互聯、互通、共享、開放的互聯網精神等多種法益之間的關系,為網站提供了更為全面合理的Robots協議設置準則,也體現和響應了互聯網行業新技術發展帶來的規制需求。同時,這一標準也更加符合反不正當競爭法的規制范式。在市場經濟中,經營者享有充分的自主經營權,在未擾亂市場競爭秩序、未損害公共利益的前提下,并無幫助其他經營者的法律義務。Robots協議從此擺脫了“不得限制主體、只能限制范圍”的規則困惑,回歸了原本的行業與市場規則,將在數字經濟時代發揮新的重要作用。
小結:信息與數據流通應規范有序
Robots協議的設置規則之爭,實質上是關于互聯網信息與數據流通規則的爭論。信息與數據作為互聯網企業重要資源,在不同企業間進行流通應是為流出和流入的雙方共同增益,使得信息和數據在更大范圍或更深層次所使用,而絕非單純損害流出方而增益流入方。在更加完善的信息與數據流通規則下,相信更多的互聯網企業會更加規范、合理地使用包括Robots協議在內的各種技術與非技術方式,共享利用信息與數據,共同促進產業發展和技術進步。
參考文獻:
1 亦稱爬蟲、蜘蛛程序等,本文統稱為網絡機器人。
2 參見(2017)京民終487號民事判決、(2013)一中民初字第2668號民事判決。
3 參見(2017)京73民初2020號民事判決。
協議作為保護自身權益的表態尤為重要。
4 參見(2021)京民終281號民事判決。