關聯反饋
相關反饋是一些信息檢索系統的特徵。 相關反饋背後的觀點是,利用起初返回的給定查詢的結果,利用那些結果是否相關的結果信息去執行一個新的查詢。我們能夠有效的區分三種形式的反饋:顯式反饋,隱式反饋,盲反饋或「假」反饋。
顯式反饋
[編輯]顯式反饋來自一個文檔查詢的相關性顯示的評估者。該種形式的反饋被定義為顯式反饋,只有評估者(或其他系統的用戶)知道反饋倘若被解釋為關聯 判斷。 用戶用「二進制」,或者「按等級的」相關系統來表明相關性顯示。二進制相關顯示表明對於給的查詢一個文檔要麼相關要麼不相關。分及相關反饋表明一個文檔對一個查詢的相關性,在某種程度上用數字,字母,或者說明(例如「不相關」「某種程度相關」「相關」「非常相關」。分級關聯也可能會採取一個主要的順序形式由一位評估員創建的文件;也就是說,評估人按照相關順序(通常是下降順序)設置文件的結果。一個這方面的例子是谷歌 在他們的搜索網站的搜索 功能的應用。
相關反饋信息,需要用原始查詢來解釋,去改變搜索行為。例如著名的Rocchio 算法。一個性能的度量在2005年變得流行,去度量有用的排序算法,基於顯式的相關反饋的是NDCG。其他的度量包括「K」精度和平均精度。
隱式反饋
[編輯]隱式反饋,來自用戶使用行為,例如文檔注釋,這些文檔是可見性是可選的,花費查看一個文檔的持續時間,頁碼瀏覽或滾動行。[1](頁面存檔備份,存於網際網路檔案館)。
隱式反饋與顯示反饋的關鍵區別包括[2]:
- 用戶不評估IR system的利益相關性。只是僅僅滿足他們特有的需要。
- 用戶沒有必要告知他們的(選擇文檔)的行為將被用來作為相關反饋。
搜索 瀏覽器擴充套件,是一個例子。先進的搜索來自基於兩用戶交互作用(點擊圖標)和在搜索結果中查看頁面連結的時間的結果集的較後面的頁面。
盲式反饋
[編輯]偽相關反饋,也被稱為盲相關反饋。提供一個自動本地分析的方法。它自動操作相關反饋的手工部分,以便在沒有擴展的交互作用時,用戶得到改進的檢索行為。這種方法是去做一個正常的檢索,去發現大部分相關文檔的初始集,之後認為,前「k」個文檔是相關的,最後按照之前的假定做相關反饋。流程如下:
- 利用起初的查詢返回的結果作為相關結果(只是前K,在大部分的實驗中,k在10到50之間)。
- 選擇前20-30(象徵性的)來至於這些文檔的術語,例如terms tf-idf權重。
- 做擴展查詢,增加一些查詢術語,匹配查詢的返回文件,最後返回最相關的文件。
一些實驗,例如結果來自康內爾智能系統,出版在(Buckley et al.1995),顯示用偽相關反饋改進的在TREC 4 實驗背景下檢索系統性能。
這種自動技術大都運行很好。證據表明,它常常比全局分析系統要好。[1] 通過一個擴展查詢,一些相關文件在首輪檢索時可能丟失,然後檢索去改變全部的性能。顯然,該種方法的效果,強烈依賴選擇擴展措辭的性能。該方法被創立應用改進TREC特別任務的性能。 [來源請求]。但是一個自動進程也存在威脅。例如,如果查詢是關於銅礦山和前幾個文件都是關於智利的礦山,那麼或許應該查詢朝向文檔方向上的資歷智利。此外,若單詞添加到與初始查詢無關的查詢主題中,檢索的質量可能降低,特別是在網絡搜索中,Web文檔通常覆蓋多個不同的主題。 去改進在偽相關反饋中擴展詞的性能,來自於偽反饋中的按位相關反饋,被提出從反饋文檔中選擇,那些單詞關注查詢主題基於位置的詞彙反饋文檔。 [2]
具體來說,位置相關性模型的權重分配更多查詢詞發生的詞接近基於直覺,文字接近查詢單詞更容易被搜索詞相關的話題。 盲反饋的自動操作手工部分的相關反饋,有評估者沒有的優勢。
使用相關信息
[編輯]利用相關性信息,使用相關的文檔內容來要麼調整術語的原始查詢權重,或者使用這些內容添加到查詢詞。相關反饋往往使用Rocchio算法。
擴展閱讀
[編輯]- 相關反饋課堂講稿 - Jimmy Lin's 演講筆記,改編自Doug Oard's
- [3] (頁面存檔備份,存於網際網路檔案館) - chapter from 現代信息檢索
- Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. 信息檢索:搜尋引擎的應用和評估 (頁面存檔備份,存於網際網路檔案館)。MIT劍橋聯合出版, 2010。