2011-08-24 48 views
15

我想用Lucene來計算Precision和Recall。lucene中的精度調用java

我做下列步驟操作:

  1. 提出了一些索引文件。爲此,我使用索引器代碼和索引.txt文件,該文件存在於此路徑C:/inn(此文件夾中有4個文本文件),並通過在索引器代碼中將索引路徑設置爲C:/outt將它們放在「outt」文件夾中。

  2. 創建了一個名爲lia.benchmark包和裏面的一類被稱爲「PrecisionRecall」,並添加externaljars(右擊 - > Java構建路徑 - >添加外部罐),並加入Lucene-benchmark-.3.2.0jarLucene-core-3.3.0jar

  3. 套裝代碼中的topicsfile路徑爲C:/lia2e/src/lia/benchmark/topics.txt
    qrelsfileC:/lia2e/src/lia/benchmark/qrels.txt,並將目錄指向「C:/ outt」。

    這裏是代碼:

    package lia.benchmark;   
    import java.io.File; 
    import java.io.PrintWriter; 
    import java.io.BufferedReader; 
    import java.io.FileReader; 
    import org.apache.lucene.search.*; 
    import org.apache.lucene.store.*; 
    import org.apache.lucene.benchmark.quality.*; 
    import org.apache.lucene.benchmark.quality.utils.*; 
    import org.apache.lucene.benchmark.quality.trec.*; 
    
    public class PrecisionRecall { 
    
        public static void main(String[] args) throws Throwable { 
    
        File topicsFile = new File("C:/lia2e/src/lia/benchmark/topics.txt"); 
         File qrelsFile = new File("C:/lia2e/src/lia/benchmark/qrels.txt"); 
         Directory dir = FSDirectory.open(new File("C:/outt")); 
         IndexSearcher searcher = new IndexSearcher(dir, true); 
    
         String docNameField = "filename"; 
    
         PrintWriter logger = new PrintWriter(System.out, true); 
    
         TrecTopicsReader qReader = new TrecTopicsReader(); 
         QualityQuery qqs[] = qReader.readQueries(      
           new BufferedReader(new FileReader(topicsFile))); 
    
         Judge judge = new TrecJudge(new BufferedReader(   
           new FileReader(qrelsFile)));           
    
         judge.validateData(qqs, logger);           
    
         QualityQueryParser qqParser = new SimpleQQParser("title", "contents"); 
    
         QualityBenchmark qrun = new QualityBenchmark(qqs, qqParser, searcher, docNameField); 
        SubmissionReport submitLog = null; 
         QualityStats stats[] = qrun.execute(judge,     
            submitLog, logger); 
    
         QualityStats avg = QualityStats.average(stats);   
         avg.log("SUMMARY",2,logger, " "); 
        dir.close(); 
        } 
    } 
    
  4. 初始化qrels和主題。在文檔文件夾(C:\ inn)中,我有4個txt文件,其中2個與我的查詢相關(查詢是蘋果),因此我填充了qrels和主題。

    的qrels文件是這樣的:

    <top> 
        <num> Number: 0 
        <title> apple 
        <desc> Description: 
        <narr> Narrative: 
    </top> 
    

    和主題文件是這樣的:

    0 0  789.txt   1 
    0 0  101.txt   1 
    

    我也試過路徑格式,即如 「C:\店\ 789.txt」,而不是「789.txt」 的 ,但結果都是零:

    0 - contents:apple 
    0 Stats: 
    Search Seconds: 0.016 
    DocName Seconds: 0.000 
    Num Points: 2.000 
    Num Good Points: 0.000 
    Max Good Points: 2.000 
    Average Precision: 0.000 
    MRR: 0.000 
    Recall: 0.000 
    Precision At 1: 0.000 
    SUMMARY 
    Search Seconds: 0.016 
    DocName Seconds: 0.000 
    Num Points: 2.000 
    Num Good Points: 0.000 
    Max Good Points: 2.000 
    Average Precision: 0.000 
    MRR: 0.000 
    Recall: 0.000 
    Precision At 1: 0.000 
    

你能告訴我什麼是我的錯?

我真的需要知道爲什麼結果爲零。

+1

作爲一種常規的調試技術,如果您沒有得到您期望的輸出,請在您的程序中向前和向後查詢值,直到找到您希望的值。這樣你就可以確切地知道事情出錯了。 – Gian

+0

我不知道Lucene,但是沒有必要在qrels文件中關閉<desc>和<narr>標籤? – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/460761/">pablosaraiva</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">回答</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">3<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>我怕<code class="prettyprint-override">qrels.txt</code>格式錯誤:<a href="http://lucene.apache.org/java/2_3_0/api/org/apache/lucene/benchmark/quality/trec/TrecJudge.html" rel="nofollow">the javadoc</a>提出以下建議:</p> <p>預期輸入格式:</p> <pre><code class="prettyprint-override">qnum 0 doc-name is-relevant </code></pre> <p>兩個取樣管:</p> <pre><code class="prettyprint-override">19 0 doc303 1 19 0 doc7295 0 </code></pre> <p>(我知道這是2.3.0 javadoc,但格式在3.0中沒有改變)</p> <p>所以看起來你已經交換了文件:<code class="prettyprint-override">TrecTopicsReader</code>期望你擁有<code class="prettyprint-override">qrels.txt</code>; <code class="prettyprint-override">TrecJudge</code>期望您擁有<code class="prettyprint-override">topics.txt</code>。</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/7656413">來源</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2011-10-05 03:31:13</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/562388/">alf</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相關問題</div> <ul class="relative_list"> <li> 1. <a href="http://hk.voidcc.com/question/p-aotedude-nm.html" target="_blank" title="問題精度和Lucene的"> 問題精度和Lucene的 </a> </li> <li> 2. <a href="http://hk.voidcc.com/question/p-nhtdqoul-gx.html" target="_blank" title="lucene中的精確度和召回率"> lucene中的精確度和召回率 </a> </li> <li> 3. <a href="http://hk.voidcc.com/question/p-uyqgukla-bz.html" target="_blank" title="Java的雙精度"> Java的雙精度 </a> </li> <li> 4. <a href="http://hk.voidcc.com/question/p-cunumhwl-bg.html" target="_blank" title="在java中顯示雙精度到一定的精度"> 在java中顯示雙精度到一定的精度 </a> </li> <li> 5. <a href="http://hk.voidcc.com/question/p-cgzsnumt-oh.html" target="_blank" title="關於精度調用曲線和平均精度的困惑"> 關於精度調用曲線和平均精度的困惑 </a> </li> <li> 6. <a href="http://hk.voidcc.com/question/p-bxkonjun-uz.html" target="_blank" title="在JAVA雙精度"> 在JAVA雙精度 </a> </li> <li> 7. <a href="http://hk.voidcc.com/question/p-sduuybjj-rs.html" target="_blank" title="的Java毫秒精度"> 的Java毫秒精度 </a> </li> <li> 8. <a href="http://hk.voidcc.com/question/p-gbadmyfh-vq.html" target="_blank" title="Java的雙精度數學"> Java的雙精度數學 </a> </li> <li> 9. <a href="http://hk.voidcc.com/question/p-xrzkozsv-de.html" target="_blank" title="精確的時間度量在Java中"> 精確的時間度量在Java中 </a> </li> <li> 10. <a href="http://hk.voidcc.com/question/p-nuwotpfj-pb.html" target="_blank" title="模擬Java中的低精度硬件"> 模擬Java中的低精度硬件 </a> </li> <li> 11. <a href="http://hk.voidcc.com/question/p-sulembfm-de.html" target="_blank" title="使用Lucene的精確短語搜索?"> 使用Lucene的精確短語搜索? </a> </li> <li> 12. <a href="http://hk.voidcc.com/question/p-bzuqjcay-dt.html" target="_blank" title="R中的平均精確度精度"> R中的平均精確度精度 </a> </li> <li> 13. <a href="http://hk.voidcc.com/question/p-rtphmoiv-g.html" target="_blank" title="專門爲雙精度和浮點精度的java類"> 專門爲雙精度和浮點精度的java類 </a> </li> <li> 14. <a href="http://hk.voidcc.com/question/p-vcscjnby-dc.html" target="_blank" title="分類Lucene的結果更好的精度"> 分類Lucene的結果更好的精度 </a> </li> <li> 15. <a href="http://hk.voidcc.com/question/p-poscdvdf-ts.html" target="_blank" title="在java中保留精確到小數位的精確度"> 在java中保留精確到小數位的精確度 </a> </li> <li> 16. <a href="http://hk.voidcc.com/question/p-qebpcldo-en.html" target="_blank" title="Java BigDecimal精度問題"> Java BigDecimal精度問題 </a> </li> <li> 17. <a href="http://hk.voidcc.com/question/p-coknwowp-be.html" target="_blank" title="調整小數精度,.NET"> 調整小數精度,.NET </a> </li> <li> 18. <a href="http://hk.voidcc.com/question/p-mmrjagkw-m.html" target="_blank" title="VBA調試器精度"> VBA調試器精度 </a> </li> <li> 19. <a href="http://hk.voidcc.com/question/p-bzcumzxo-so.html" target="_blank" title="Java使用浮點精度創建BufferedImage"> Java使用浮點精度創建BufferedImage </a> </li> <li> 20. <a href="http://hk.voidcc.com/question/p-xorugsre-oo.html" target="_blank" title="在Java中聲明雙精度"> 在Java中聲明雙精度 </a> </li> <li> 21. <a href="http://hk.voidcc.com/question/p-wagjqsvy-cv.html" target="_blank" title="在Matlab中使用雙精度的算術精度"> 在Matlab中使用雙精度的算術精度 </a> </li> <li> 22. <a href="http://hk.voidcc.com/question/p-uxuockpo-mu.html" target="_blank" title="如何以精確的精度在Python中打印雙精度?"> 如何以精確的精度在Python中打印雙精度? </a> </li> <li> 23. <a href="http://hk.voidcc.com/question/p-ozphhhxo-hd.html" target="_blank" title="從java BigDecimal轉換爲雙精度丟失精度爲"> 從java BigDecimal轉換爲雙精度丟失精度爲 </a> </li> <li> 24. <a href="http://hk.voidcc.com/question/p-nrfsraes-vw.html" target="_blank" title="的Java JSlider的精度問題"> 的Java JSlider的精度問題 </a> </li> <li> 25. <a href="http://hk.voidcc.com/question/p-gcpugqoh-uq.html" target="_blank" title="statsmodels中的低R2和scikit中的高精度/精度"> statsmodels中的低R2和scikit中的高精度/精度 </a> </li> <li> 26. <a href="http://hk.voidcc.com/question/p-fewexibi-mv.html" target="_blank" title="如何以可變的精度Java String.format?"> 如何以可變的精度Java String.format? </a> </li> <li> 27. <a href="http://hk.voidcc.com/question/p-ydtjrfsj-rq.html" target="_blank" title="Lucene - 精確的字符串匹配"> Lucene - 精確的字符串匹配 </a> </li> <li> 28. <a href="http://hk.voidcc.com/question/p-uwolqfwv-oz.html" target="_blank" title="在ios中調用方法時的超高精度"> 在ios中調用方法時的超高精度 </a> </li> <li> 29. <a href="http://hk.voidcc.com/question/p-shszxour-ko.html" target="_blank" title="精密用java"> 精密用java </a> </li> <li> 30. <a href="http://hk.voidcc.com/question/p-cpxoicfk-pe.html" target="_blank" title="寬度和精度使用*"> 寬度和精度使用* </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515421930"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <!-- VOIDCC问答侧边栏广告 --> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新問題 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.voidcc.com/question/p-bmbhggtp-vx.html" target="_blank" title="我怎樣才能找出我的班級從哪個班級繼承?"> 我怎樣才能找出我的班級從哪個班級繼承? </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.voidcc.com/question/p-edytmkss-wd.html" target="_blank" title="你如何讓SVN忽略寫保護目錄?"> 你如何讓SVN忽略寫保護目錄? </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.voidcc.com/question/p-rmqvahwu-um.html" target="_blank" title="Map和MapWhen在asp.net核心中間件中的區別?"> Map和MapWhen在asp.net核心中間件中的區別? </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.voidcc.com/question/p-uwxiaeuz-ug.html" target="_blank" title="SWI Prolog程序能否從外部數據庫中獲取其事實?"> SWI Prolog程序能否從外部數據庫中獲取其事實? </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.voidcc.com/question/p-cecswpxl-ue.html" target="_blank" title="Ruby On Rails - SQLite3數據庫和版本控制"> Ruby On Rails - SQLite3數據庫和版本控制 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.voidcc.com/question/p-ayhrdgvo-ue.html" target="_blank" title="正則表達式Javascript:如何截取可能包圍或不包含空白的整個單詞"> 正則表達式Javascript:如何截取可能包圍或不包含空白的整個單詞 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.voidcc.com/question/p-pwsikole-uc.html" target="_blank" title="「使用JPA和Spring引導在實體中映射實體的重複列」"> 「使用JPA和Spring引導在實體中映射實體的重複列」 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.voidcc.com/question/p-ecwwmjjy-wn.html" target="_blank" title="在Plone 3中添加一個本地角色的表單文件夾"> 在Plone 3中添加一個本地角色的表單文件夾 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.voidcc.com/question/p-tohxgiiv-yc.html" target="_blank" title="Jquery ui手風琴 - 如何在右側添加圖標?"> Jquery ui手風琴 - 如何在右側添加圖標? </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.voidcc.com/question/p-oohgjmqq-xw.html" target="_blank" title="如何知道應用程序提供了哪些服務?"> 如何知道應用程序提供了哪些服務? </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相關問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://hk.voidcc.com/question/p-aotedude-nm.html" target="_blank" title="問題精度和Lucene的"> 問題精度和Lucene的 </a> </li> <li class="side_article_list_item"> 2. <a href="http://hk.voidcc.com/question/p-nhtdqoul-gx.html" target="_blank" title="lucene中的精確度和召回率"> lucene中的精確度和召回率 </a> </li> <li class="side_article_list_item"> 3. <a href="http://hk.voidcc.com/question/p-uyqgukla-bz.html" target="_blank" title="Java的雙精度"> Java的雙精度 </a> </li> <li class="side_article_list_item"> 4. <a href="http://hk.voidcc.com/question/p-cunumhwl-bg.html" target="_blank" title="在java中顯示雙精度到一定的精度"> 在java中顯示雙精度到一定的精度 </a> </li> <li class="side_article_list_item"> 5. <a href="http://hk.voidcc.com/question/p-cgzsnumt-oh.html" target="_blank" title="關於精度調用曲線和平均精度的困惑"> 關於精度調用曲線和平均精度的困惑 </a> </li> <li class="side_article_list_item"> 6. <a href="http://hk.voidcc.com/question/p-bxkonjun-uz.html" target="_blank" title="在JAVA雙精度"> 在JAVA雙精度 </a> </li> <li class="side_article_list_item"> 7. <a href="http://hk.voidcc.com/question/p-sduuybjj-rs.html" target="_blank" title="的Java毫秒精度"> 的Java毫秒精度 </a> </li> <li class="side_article_list_item"> 8. <a href="http://hk.voidcc.com/question/p-gbadmyfh-vq.html" target="_blank" title="Java的雙精度數學"> Java的雙精度數學 </a> </li> <li class="side_article_list_item"> 9. <a href="http://hk.voidcc.com/question/p-xrzkozsv-de.html" target="_blank" title="精確的時間度量在Java中"> 精確的時間度量在Java中 </a> </li> <li class="side_article_list_item"> 10. <a href="http://hk.voidcc.com/question/p-nuwotpfj-pb.html" target="_blank" title="模擬Java中的低精度硬件"> 模擬Java中的低精度硬件 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://hk.voidcc.com/contact">聯系我們</a></li> <li>© 2020 HK.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>