本文要約

要約

今回は現在使用している方法とは異なり、実装が簡単な要約方法になります。
参考元にはニューラルネットワーク(accel-brain-base)を使用した例などもありますので、そちらを参考にしてください。

Pythonライブラリの追加

以下のライブラリをインストールしてください。

$ pip install pysummarization

Pythonプログラム
test.pyに以下のコードを記述します。
ここでソース記事の各行を重みづけしてから、重要度の高い5つの行だけを選択します。

test.py

from pysummarization.nlpbase.auto_abstractor import AutoAbstractor
from pysummarization.tokenizabledoc.simple_tokenizer import SimpleTokenizer
from pysummarization.abstractabledoc.top_n_rank_abstractor import TopNRankAbstractor

def getSummary(text):

    # Object of automatic summarization.
    auto_abstractor = AutoAbstractor()
    # Set tokenizer.
    auto_abstractor.tokenizable_doc = SimpleTokenizer()
    # Set delimiter for making a list of sentence.
    auto_abstractor.delimiter_list = [". ",".\n","\n"]
    # Object of abstracting and filtering document.
    abstractable_doc = TopNRankAbstractor()
    # Summarize document.
    result_dict = auto_abstractor.summarize(text, abstractable_doc)

    # Output result.
    out_text = ''

    dic_len = len(result_dict["summarize_result"])
    if dic_len > 5 :
        dic_len = 5
    for i in range(dic_len):
        out_text += result_dict["summarize_result"][i]
    return out_text

以前のgetBody()から上記のgetSummary()を呼び出します。

タイトルや本文に色々ゴミが入ってくるので軽く削除してます。
またブログアップロードする際に改行文字をHTMLの改行タグ(<BR>)に変更しています。

test.py

def getBody(link):
    try :
        res = requests.get(link)
        extractor.analyse(res.text)
        text, title = extractor.as_text()
        title = re.sub('[-|:|\||\[|\(|\{].*','',title)
        text = re.sub('&.*?;','',text)
        text = getSummary(text)
        return postBlog(title,text.replace('\n','<BR>'),'TECHNOLOGY')
    except Exception as e :
        print(e)
        return None

結果はこちら

ちなみに要約前は以下。

次は翻訳に入ります。

参考URL：

pysummarization

このブログの人気の投稿

RSSからYoutube/Podcast配信

皆さん、情報収集はどの様にされていますでしょうか？私は最先端に情報に触れる為、海外ニュースをRSSで購読しているのですが、私の英語力/語彙力では時間が掛かかってしょうがない。また、できれば目で読むのではなく、音声で聞き流しながら通勤や他の作業中に行いたい。という事で自動でニュースを収集・要約・翻訳し、それをブログ・ポッドキャスト・Youtubeに自動投稿するPythonプログラムを作成して時短化しました。その手法を公開してますので参考にしてください。 Bloggerの立ち上げ方 GCPとBloggerの連携情報収集自動化 Blogger自動投稿本文要約翻訳音声作成動画作成 Youtubeにアップロード Youtubeの投稿制限の回避方法 Podcast配信翻訳・要約の改善(GPT-3) 以下のURLで上記から作成したブログやYoutubeを公開しています。参考までに見てください。ブログ：海外ニュースを仕入れてお届け YouTube：海外Newsを仕入れてお届け Amazon Music：海外ニュースを仕入れてお届け。 Google Podcasts：海外ニュースを仕入れてお届け。 Apple Podcasts：海外ニュースを仕入れてお届け。

Bloggerの立ち上げ

Bloggerとは BloggerはGoogleのサービスの一つで、無料でブログを始めることができます。 Googleアカウントが必要となりますので、ない方はアカウントの作成をお願いします。 Bloggerサイトへのログイン https://www.blogger.com/から「ブログの作成」を選択してください。 Googleアカウントを聞かれるので、Googleアカウントとパスワードを入力してください。ブログの名前を入力作成するブログの名前を決めます。これは後から変えられるのでとりあえずは書こうとしてる内容に沿ったものを記入してください。ブログのURL(インターネット上の所在地)を作成します。こちらも変更できる(※)のですがので、頻繁に変更すると読者や検索などから外されてしますので、個人名や法人名など変更しないことを前提に名付けた方が良いと思います。 (※「.blogspot.com」以外のカスタムドメインを自分でとって、それを設定することもできます) プロファイルの作成ブログが作成されるとプロファイルの作成画面が出てきます。ブログ読者に見られることを意識して、ユーザー名やわかりやすい説明を記入しましょう。以上でブログが作成できました。作成したURLをブラウザに打ち込んでみましょう！貴方だけのブログサイトが立ち上がりました。次は GCP(Google Cloud Platform)とBloggerを連携させてみましょう。参考： Blogger Help

GCPとBloggerの連携

GCPのアカウント作成以下のURLからアカウントを作成します。今(2021/10/24)なら300＄相当のクレジットが付いてきます。 https://console.cloud.google.com/freetrial 携帯番号の登録が必要となります。クレジットカード(もしくはＰａｙｐａｌ)の登録が必要となります。 GCPからBloggerを連携以下のURLからプロジェクトを作成してください。プロジェクト名は任意です。 https://console.cloud.google.com/projectcreate 以下のURLからBlogger API v3の「有効にする」をクリック https://console.cloud.google.com/apis/library/blogger.googleapis.com 同様に以下の3種類のAPIも有効にしてください。 https://console.cloud.google.com/apis/library/translate.googleapis.com https://console.cloud.google.com/apis/library/texttospeech.googleapis.com https://console.cloud.google.com/apis/library/youtube.googleapis.com 以下のURLをクリックして「デスクトップアプリ」を選択し「名前」に任意の名前を付けて「作成」してください。 https://console.cloud.google.com/apis/credentials/oauthclient これでクライアントIDが作成されました。「クライアントID」と「クライアントシークレット」は他の人に知られない様にしてください。作成した「デスクトップクライアント：１」を選択すると、「JSONをダウンロード」が選択できるので、「client_secret.json」と名前を変更して保存しておいてください。こちらのファイルを使ってこれから作成するプログラムでGoogleの認証を行います。次は情報収集自動化になります。参考URL：エンドユーザーとして認証する | Google Cloud

ニュースをAIで翻訳・要約・画像生成して音声/動画配信するまでのブログ

このブログを検索

RSSからYoutube/Podcast配信

本文要約

要約

Pythonライブラリの追加

参考URL：

このブログの人気の投稿

RSSからYoutube/Podcast配信

Bloggerの立ち上げ

GCPとBloggerの連携