我發現自己必須一直學習新事物。我一直在想辦法加速學習新科目的過程。我認爲如果我能寫一個程序來解析一篇維基百科文章併除去最有價值的信息,那麼它可能會很整潔。總結維基百科文章
我首先拿PDFs的維基百科文章,並提取前100個句子。我根據我認爲它的價值給每個句子評分。我結束了創建一個文件以下格式:
<sentence>
<value>
<sentence>
<value>
etc.
我再分析此文件,並試圖找到一種與我給了它的價值相關聯的每個句子各種功能。我剛剛開始學習機器學習和統計以及什麼,所以我在這裏做了很多摸索。這是我最近的嘗試:https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py。
我試過一堆似乎根本沒有產生任何關聯的東西 - 平均字長,文章中的位置等等。非常多的產生任何有用關係的唯一東西是字符串的長度(更具體地說,計算小寫字母e的數量似乎最有效)。但這看起來有點蹩腳,因爲很明顯,較長的句子更可能包含有用的信息。
有一次,我想我已經找到了一些有趣的功能,但後來當我嘗試刪除異常值(通過只計算內部四分位數)時,他們證明會產生更糟糕的結果,然後簡單地爲每個句子返回0。這讓我想知道我還有多少其他事情可能會做錯......我也想知道這是否是解決這個問題的好辦法。
你認爲我走在正確的軌道上嗎?或者這只是一個傻瓜的差事?鏈接代碼中是否有明顯的缺陷?有沒有人知道更好的方法來處理總結維基百科文章的問題?我寧願有一個快速和骯髒的解決方案,而不是完美的東西,需要很長時間才能放在一起。任何一般建議也將受到歡迎。
接下來,您會希望我們使用newspeak使掃描的文章更短;) – tylerthemiler 2012-01-01 03:02:07
您顯然太舊了。將這種事情留給16歲的孩子http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE 2012-01-01 07:23:41
:)總結看起來很酷。我無法在我的iPod上運行它,但我可以閱讀評論。他們很混雜。我覺得它的效果不好。 – 2012-01-01 07:59:23