python-textprocessing

2熱度

2回答

我必須閱讀50 GB的文本文件。我必須對該文件進行一些處理。我無法下載文本文件，因爲我正在進行遠程服務器上的處理。是否有可能使用Python使用其URL流式傳輸文件的內容並逐行閱讀？

-1熱度

2回答

我開始對某些csv文檔進行一些文本分析。然而，我的csv文檔有幾個句子，幾乎沒有什麼詞讓我感興趣，所以我想創建一個python代碼來分析這個csv文檔，只留下包含5個以上單詞的句子供我分析，但是我不知道在哪裏開始做我的代碼，並希望得到一些幫助。例如：輸入文檔 enter image description here 輸出文檔 enter image description here

0熱度

1回答

在Python中使用nltk模塊拆分單詞

我正在嘗試查找使用nltk模塊在Python中拆分單詞的方法。鑑於我擁有的原始數據，我不確定如何達到我的目標。正如你可以看到很多單詞粘在一起（即'到'和'產生'卡在一個字符串'toproduce'中）。這是從PDF文件中抓取數據的工件，我想找到一種方法，使用Python中的nltk模塊來分割粘連在一起的單詞（即將'toproduce'分成兩個單詞：'to'和'produce';將「標準操作程序」分

0熱度

3回答

從我的字符串中剝離正確的浮點值

我正在使用python來處理pcap文件並將處理後的值輸入到文本文件中。文本文件大約有8000行，有些時候，文本文件有7.70.582這樣的字符串。在我對文本文件的進一步處理中，我將文件分割成幾行，並提取每行中的每個浮點值。然後，我得到這個錯誤 ValueError: invalid literal for float(): 7.70.582 在這種情況下，我感興趣的只是7.70，我需要避免第

0熱度

1回答

文字處理 - 短語檢測後的Word2Vec訓練（bigram模型）

我想用更多的n-gram來製作word2vec模型。正如我發現的，gensim.models.phrase中的短語類可以找到我想要的短語，並且可以在語料庫上使用短語並將其用於word2vec訓練函數的結果模型。因此，首先我要做一些類似於下面的事情，完全像gensim documentation中的示例代碼。 class MySentences(object): def __init__

1熱度

2回答

根據字符寬度將字符串拆分爲多行（python）

我正在通過PIL在基本圖像上繪製文本。如果所有字符的合併寬度超過基礎圖像的寬度，則其中一個要求是溢出到下一行。當前我正在使用textwrap.wrap(text, width=16)來完成此操作。這裏width定義了在一行中容納的字符數。現在文本可以是任何東西，因爲它是用戶生成的。所以問題在於硬編碼width由於字體類型，字體大小和字符選擇而不會考慮width的變化。我的意思是？想象一下，我

-3熱度

1回答

如何在上面顯示文字？（Python）

我是一個Python初學者，可能它是一個簡單的問題，但我真的陷入困境，需要幫助。我想讓python在.txt文件中出現在另一個文本之上的文本。這裏是我的代碼 x = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits) for _ in range(5)) with open('

4熱度

1回答

Lemmainser使用NLTK

我現在有這樣的句子： text = "This is a car." 然後我用一個tokeniser，然後幹它像這樣： ps = PorterStemmer() text = word_tokenize(text) stemmed_words = [] for w in words: stemmed_words.append(ps.stem(w)) 不過，我現在想使用NLT

1熱度

2回答

如何在python中實現語義標註？

語義註釋是將附加信息附加到給定文本或任何其他內容中的各種概念（例如人物，事物，地點，組織等）的過程。例如，在語義上註釋「亞里士多德，政治的作者，建立了萊西姆」這個句子中的選定概念意味着將亞里士多德認定爲人和政治作爲政治哲學的書面作品，並進一步對其進行索引，分類和相互鏈接在語義圖數據庫中識別的概念。語義註釋的最初步驟是文本識別和分析可以完成的文本，但是進一步的步驟，即概念提取和文本的關係提取我堅

1熱度

1回答

python在數據框中的快速文本處理

我正在研究python中的電子商務數據。我已經將這些數據加載到python中並將其轉換爲熊貓數據框架。現在，我想對數據執行文本處理，例如刪除不需要的字符，停用詞，詞幹等。目前我應用的代碼工作正常，但需要很長時間。我有大約200萬行數據需要處理，並且需要永久處理。我在10,000行上試過這個代碼，花了大約240秒。我正在進行這種項目，這是第一次。任何減少時間的幫助都會很有幫助。在此先感謝。 fro