我想在python中執行一些n-gram計數,我想我可以使用MySQL(MySQLdb模塊)來組織我的文本數據。在MySQL中接近序列文本文件讀取性能
我有一個相當大的表格,大約10mil記錄,表示由唯一數字ID(自動增量)和語言字段(例如「en」,「de」,「es」等等索引的文檔..)
select * from table
是太慢和內存破壞性。 我結束了一個與像查詢拆分整個ID範圍爲更小的範圍內(比如2000和記錄各寬),並處理每那些規模較小的記錄集之一:
select * from table where id >= 1 and id <= 1999
select * from table where id >= 2000 and id <= 2999
等等...
有什麼辦法可以更有效地利用MySQL來實現它,並且實現與連續閱讀大型語料庫文本文件類似的性能?
我不關心記錄的排序,我只是希望能夠處理所有與我的大表中的某種語言相關的文檔。
謝謝,我會試試! – Alexandros 2010-12-10 15:06:15