text-processing

    0熱度

    1回答

    我想用更多的n-gram來製作word2vec模型。正如我發現的,gensim.models.phrase中的短語類可以找到我想要的短語,並且可以在語料庫上使用短語並將其用於word2vec訓練函數的結果模型。 因此,首先我要做一些類似於下面的事情,完全像gensim documentation中的示例代碼。 class MySentences(object): def __init__

    0熱度

    1回答

    對於我工作的一部分,我們根據用戶在其驅動器中的所有文件製作完整列表。這些用戶必須決定是否歸檔這些文件(用Y或N表示)。作爲對這些用戶的服務,我們手動爲他們填寫。 我們將這些文件導出到excel中的長列表中,該列表將每個文件顯示爲X:\ 4。經濟學\ 10。 XXXXXXXX \ 04。 XXXXXXXXX \ 04。 xxxxxxxxxx \ filexyz.pdf 我認爲我們可以很容易地自動執行

    0熱度

    2回答

    我使用LOAD DATA INFILE語句將數據從管道分隔的CSV導入到MySQL。我正在使用'\ r \ n'來終止行。我的問題是,每行內的一些數據中有'\ r \ n',導致加載錯誤。我有類似的文件,只是在數據中使用'\ n'來指示換行符,並且不會引起任何問題。 例GOOD CSV School|City|State|Country\r Harvard University|Cambridg

    1熱度

    1回答

    我在linux機器上有一個巨大的純文本文件(〜500Gb)。我想要在標題行(文件的第一行)中替換一些字符串,但是我所知道的所有方法似乎都很慢且效率較低。 例如文件: foo apple cat 1 2 2 2 3 4 3 4 6 ... 預期文件輸出: bar apple cat 1 2 2 2 3 4 3 4 6 ... sed的: sed -i '1s/foo/bar/

    2熱度

    4回答

    我有以下結構的文件對齊的話: # ################################################################# # TEXT: MORE TEXT # TEXT: MORE TEXT # ################################################################# ________

    -1熱度

    3回答

    我正在尋找一種方法來刪除markdown文檔中的空白部分,更具體地說,更新日誌。 舉例來說,如果我有: ## Version ### Added - something ### Removed ### Changed - something ### Fixed 我想直到結束: ## Version ### Added - something ### Chang

    1熱度

    1回答

    Shell腳本的IP範圍(擊)查找的IP範圍內的網絡 我想創建一個shell腳本來自動尋找IP地址範圍是什麼的網絡。到目前爲止,我跑了comamnd: ifconfig | awk '/broadcast/' 這將創建輸出: inet 192.168.1.228 netmask 255.255.255.0 broadcast 192.168.1.255 我想爲shell腳本採取提供的數字(

    3熱度

    4回答

    我知道所有的問題關於添加leading zero和全面響應爲他們提供諸如Q1,Q2,Q3。 但對我來說,至少根據我目前所知,我不能夠解決什麼,我要做的事情如下: 添加leading zero使用regex模式匹配 所以一個string,我想在-之後將leading zero僅添加到digits。 例如: Sam <- c("222-88", "537-457", "652-1", "787-892

    1熱度

    2回答

    我想從字符串中提取YAML塊。該塊不是典型的YAML,並以---開頭和結尾。我希望這些標記之間沒有標記本身的文字。下面是一個試驗串(SWIFT 4): ​​ 在純的正則表達式的圖案將是---([\s\S]*?)---。我最初的想法是,因爲我是初學者,所以使用VerbalExpressions,但我無法使用言語表達再現這種模式。我得到的最接近是: let tester = VerEx()

    0熱度

    1回答

    我試圖找出一種方法來導入一個.txt文件,理想地使用python 3.5作爲數據框(pandas)。我用不同的數據做了幾次。這個文件有幾千例/實例,這需要每13線之後是一個空行: Cat1: text … Cat13: text Cat1: text … Cat13: text … 使用下面的代碼,我可以訪問每一行,並創建一個新的載體每個實例(不幸的列向量而不是行向量,它可以被添加